Arena.ai (@arena)

Zai_org의 GLM-5가 Code Arena에서 오픈 모델 부문 1위를 기록(일부 집계에서는 Kimi-K2.5-Thinking과 동률). 전체 순위는 6위로 Gemini-3-pro와 비슷한 수준이며, Claude-Opus-4.6보다 에이전트 기반 웹개발 태스크에서 100점 이상 낮은 성능을 보임. GLM 팀의 새로운 성과를 알리는 게시물.

https://x.com/arena/status/2021996281141629219

#glm5 #openmodel #codearena #modelbench

Arena.ai (@arena) on X

GLM-5 by @Zai_org is now the #1 open model in Code Arena, tied with Kimi-K2.5-Thinking! Overall #6 on par with Gemini-3-pro, 100+pts below Claude-Opus-4.6 in agentic webdev tasks. Congrats to the @Zai_org GLM team on the new milestone! 👏

X (formerly Twitter)

Minimax-M2.1 vươn lên vị trí #1 mô hình mã nguồn mở trên bảng xếp hạng WebDev và #6 chung cuộc (1445 điểm), ngang bằng với GLM-4.7 trong bản đánh giá mới nhất từ Code Arena. Các mô hình được thử nghiệm qua khả năng tạo website, ứng dụng, trò chơi từ một prompt duy nhất. #AI #Minimax #GLM #WebDev #CodeArena #TríTuệNhânTạo #MãNguồnMở #LMArena

https://www.reddit.com/r/singularity/comments/1pzq0c3/lmarena_minimaxm21_ranks_1_open_model_on_webdev/

Code Arena Revolutionizes AI Coding Evaluation

Code Arena introduces a new era in AI coding evaluation with its live, interactive, and transparent approach.

TechLife