Artificial Analysis (@ArtificialAnlys)
Claude Sonnet 4.6이 GDPval-AA 벤치마크에서 새로운 선두로 나타났으며, 출시 후 2주 이내에 Anthropic의 Opus 4.6보다 에이전트형(real-world knowledge work) 성능에서 약간 앞섰다는 평가입니다. 사전 테스트에서 Sonnet 4.6은 ELO 1633을 기록했다고 보고하고 있습니다.

Artificial Analysis (@ArtificialAnlys) on X
Claude Sonnet 4.6 is the new leader in GDPval-AA, slightly ahead of Anthropic’s Opus 4.6 on agentic performance of real-world knowledge work tasks less than two weeks after its launch In our pre-release testing with @AnthropicAI, Sonnet 4.6 reached an ELO of 1633 using the