fly51fly (@fly51fly)
Meta FAIR와 University of Amsterdam 연구진의 논문 'Likelihood-Based Reward Designs for General LLM Reasoning'이 arXiv(2026)에 올라왔습니다. 본 연구는 LLM의 일반적 추론 능력 향상을 위한 우도 기반(reward) 설계 방법을 제안하며, 보상 신호 설계와 모델 행동 조정 측면에서 RL 및 평가 설계에 시사점을 제공합니다. arXiv 링크 포함.
