fly51fly (@fly51fly)

TOPReward 논문은 언어모델의 토큰 확률을 로봇 제어를 위한 숨겨진 제로샷 보상으로 활용하는 새로운 접근을 제안합니다. University of Washington과 Amazon 연구진이 제시한 이 방법은 보상 설계 없이 텍스트 기반 확률 정보를 보상 신호로 변환해 로봇 태스크에 적용하는 실험·분석을 담고 있으며 로보틱스에서 제로샷 보상 추출 가능성을 탐구합니다.

https://x.com/fly51fly/status/2028229277972607293

#robotics #rewardlearning #zeroshot #llm

fly51fly (@fly51fly) on X

[RO] TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics S Chen, C Harrison, Y Lee, A J Yang… [University of Washington & Amazon] (2026) https://t.co/uOGOrnVy5j

X (formerly Twitter)