fly51fly (@fly51fly)

LLM-as-a-Judge에서 보상 설계를 강화하는 'REAL: Regression-Aware Reinforcement Learning' 연구가 소개되었습니다. 회귀 인지형 강화학습을 통해 평가 모델의 안정성과 정확도를 높이려는 새로운 방법론입니다.

https://x.com/fly51fly/status/2034748453721698606

#llmjudge #reinforcementlearning #research #ai

fly51fly (@fly51fly) on X

[LG] REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge Y Zhang, T Chen, M Zhou, O Leong… [University of California, Los Angeles & The University of Texas at Austin] (2026) https://t.co/7CIdcgZJWn

X (formerly Twitter)