RuneBench: Agent Benchmark on RuneScape Gameplay Tasks
RuneBench는 AI 코딩 에이전트들이 인기 MMORPG 게임인 RuneScape 내 다양한 게임 플레이 과제를 수행하는 능력을 평가하는 벤치마크이다. 에이전트들은 TypeScript SDK를 통해 게임 상태를 읽고 행동을 수행하며, 게임 위키에서 제공하는 정보를 활용해 전략을 수립한다. GPT-5.5, GPT-5.4, Gemini Flash 등 여러 최신 AI 모델들의 게임 내 스킬 경험치 획득 속도와 효율성을 비교 분석하여, AI의 다단계 계획 및 문제 해결 능력을 측정한다. 이 벤치마크는 AI 에이전트의 실제 환경 적응력과 복잡한 작업 수행 능력을 평가하는 새로운 응용 사례로 주목받고 있다.





