Продвинутые RL алгоритмы: Normal Policy, TRPO, PPO
Большой конспект по продвинутым RL алгоритмам: TRPO и PPO. Автор слегка упоролся в формулах, но это из любви к прозрачности алгоритмов.
https://habr.com/ru/articles/991622/
#Policy_gradient_methods #ActorCritic #reinforcementlearning #ppo #trpo
