Mastodawn

fly51fly (@fly51fly)

수학적 객체에 대한 추론을 위해 on-policy reward modeling과 테스트 타임 aggregation을 결합한 새 연구가 공개됐다. Meta의 FAIR 팀이 제안한 방법으로, 수학 문제 해결과 추론 성능 향상을 목표로 한다.

https://x.com/fly51fly/status/2035107474257453310

#reasoning #math #rewardmodeling #meta

fly51fly (@fly51fly) on X

[CL] Reasoning over mathematical objects: on-policy reward modeling and test time aggregation P Aggarwal, M Ghazvininejad, S Kim, I Kulikov… [FAIR at Meta] (2026) https://t.co/ImqP668BKe

X (formerly Twitter)

sayzard Jan 29

Avi Chawla (@_avichawla)

RULER의 핵심 통찰은 절대 점수 부여보다 상대적 스코어링이 더 쉽다는 점입니다. LLM 심판이 각각에 절대 점수를 매기기보다 '궤적 A가 B보다 낫다'처럼 상대 비교를 통해 판단하는 것이 보상 평가에서 더 간단하다는 설명을 담고 있습니다.

https://x.com/_avichawla/status/2016502643032748415

#ruler #rewardmodeling #rl #llm

Avi Chawla (@_avichawla) on X

@akshay_pachaar I have been reading about RULER and the key insight behind it is that relative scoring is easier than absolute scoring. So it's much simpler for an LLM judge to say "trajectory A is better than B" than to assign a precise score to each one in isolation (somewhat similar to

X (formerly Twitter)