AGI-Eval (@AGI_Evals)
수학 추론 벤치마크 AMO-Bench의 새 리더보드가 공개됨. GLM 4.7이 62.4% 정확도로 오픈소스 SOTA 기록을 달성했고, Qwen3-Max-Thinking이 65.1%로 1위를 차지하며 Gemini 3 Pro(63.1%)를 능가함. 오픈소스 모델들의 빠른 추론 성능 향상이 주목받음.

AGI-Eval (@AGI_Evals) on X
AMO-Bench (top math reasoning benchmark) updated leaderboard. It is worth noting that GLM 4.7 set a new open source SOTA with 62.4% accuracy and top token efficiency @Zai_org. Qwen3-Max-Thinking took the number one spot with 65.1% accuracy, beating Gemini 3 Pro (63.1%). The