MiniMax (official) (@MiniMax_AI)
CISPO를 GSPO 또는 GRPO 대신 선택하는 이유와 MoE(전문가 혼합) 적응성, RL 알고리즘 변경 시 아키텍처 리팩토링 요구 여부에 관한 질문과 논의입니다. 언급된 내용으로는 GRPO가 이전에 존재했으나 R1-Zero 재현 시 신뢰성이 낮았고, PPO 스타일의 클리핑이 토큰 수준 그래디언트 문제를 일으켰다는 경험적 관찰이 포함됩니다.

MiniMax (official) (@MiniMax_AI) on X
Q: Why choose CISPO instead of GSPO or GRPO? How well does CISPO adapt to MoE, and does changing the RL algorithm require architectural refactoring? GRPO predates both, but in our attempts to reproduce R1-Zero it proved unreliable: PPO-style clipping caused token-level gradients