Reinforcement Learning: Policy gradient methods
В предыдущих статьях Intro Reinforcement Learning и Reinforcement Learning: Model-free & Deep RL были рассмотрены подходы, в которых оптимальные действия находились косвенно через оценку полезности состояний или пар «состояние–действие». Такие методы принято называть value-based. Однако возникает вопрос: зачем строить сложные цепочки через value-функции, если можно напрямую обучать агента выбирать правильные действия? Такой policy-based подход интуитивно кажется проще и естественнее. Здесь о том, как это делается (ノ◕ヮ◕)ノ
https://habr.com/ru/articles/979394/
#Policy_gradient_methods #ActorCritic #Reinforcement_Learning #rl #Advantage