Продвинутые RL алгоритмы: Normal Policy, TRPO, PPO

Большой конспект по продвинутым RL алгоритмам: TRPO и PPO. Автор слегка упоролся в формулах, но это из любви к прозрачности алгоритмов.

https://habr.com/ru/articles/991622/

#Policy_gradient_methods #ActorCritic #reinforcementlearning #ppo #trpo

Продвинутые RL алгоритмы: Normal Policy, TRPO, PPO

Продолжение постов про RL: 1) Intro Reinforcement Learning 2) Reinforcement Learning: Model-free & Deep RL 3) Reinforcement Learning: Policy gradient methods Если вы заметите ошибки в формулах или...

Хабр

Reinforcement Learning: Policy gradient methods

В предыдущих статьях Intro Reinforcement Learning и Reinforcement Learning: Model-free & Deep RL были рассмотрены подходы, в которых оптимальные действия находились косвенно через оценку полезности состояний или пар «состояние–действие». Такие методы принято называть value-based. Однако возникает вопрос: зачем строить сложные цепочки через value-функции, если можно напрямую обучать агента выбирать правильные действия? Такой policy-based подход интуитивно кажется проще и естественнее. Здесь о том, как это делается (ノ◕ヮ◕)ノ

https://habr.com/ru/articles/979394/

#Policy_gradient_methods #ActorCritic #Reinforcement_Learning #rl #Advantage

Reinforcement Learning: Policy gradient methods

Полезные ссылки: Тренировки. Лекция 5: Современные методы обучения с подкреплением. Advantage actor critic, RLHF Practical RL: Policy gradient methods Policy Gradient – Федор Ратников Тест ниже...

Хабр