Claude (@claudeai)

평가 결과, Opus advisor를 붙인 Sonnet이 단독 Sonnet보다 SWE-bench Multilingual에서 2.7%p 더 높은 성능을 내면서 작업당 비용은 11.9% 절감됐다. 에이전트 품질과 비용 효율을 함께 개선한 결과다.

https://x.com/claudeai/status/2042308627478773808

#evals #swebench #claude #agents #benchmark

Claude (@claudeai) on X

In evals, Sonnet with an Opus advisor scored 2.7 percentage points higher on SWE-bench Multilingual than Sonnet alone, while costing 11.9% less per task.

X (formerly Twitter)