Продвинутые RL алгоритмы: Normal Policy, TRPO, PPO

Большой конспект по продвинутым RL алгоритмам: TRPO и PPO. Автор слегка упоролся в формулах, но это из любви к прозрачности алгоритмов.

https://habr.com/ru/articles/991622/

#Policy_gradient_methods #ActorCritic #reinforcementlearning #ppo #trpo

Продвинутые RL алгоритмы: Normal Policy, TRPO, PPO

Продолжение постов про RL: 1) Intro Reinforcement Learning 2) Reinforcement Learning: Model-free & Deep RL 3) Reinforcement Learning: Policy gradient methods Если вы заметите ошибки в формулах или...

Хабр