Arena.ai (@arena)
Zai_org의 GLM-5가 Code Arena에서 오픈 모델 부문 1위를 기록(일부 집계에서는 Kimi-K2.5-Thinking과 동률). 전체 순위는 6위로 Gemini-3-pro와 비슷한 수준이며, Claude-Opus-4.6보다 에이전트 기반 웹개발 태스크에서 100점 이상 낮은 성능을 보임. GLM 팀의 새로운 성과를 알리는 게시물.
Arena.ai (@arena)
Zai_org의 GLM-5가 Code Arena에서 오픈 모델 부문 1위를 기록(일부 집계에서는 Kimi-K2.5-Thinking과 동률). 전체 순위는 6위로 Gemini-3-pro와 비슷한 수준이며, Claude-Opus-4.6보다 에이전트 기반 웹개발 태스크에서 100점 이상 낮은 성능을 보임. GLM 팀의 새로운 성과를 알리는 게시물.
Minimax-M2.1 vươn lên vị trí #1 mô hình mã nguồn mở trên bảng xếp hạng WebDev và #6 chung cuộc (1445 điểm), ngang bằng với GLM-4.7 trong bản đánh giá mới nhất từ Code Arena. Các mô hình được thử nghiệm qua khả năng tạo website, ứng dụng, trò chơi từ một prompt duy nhất. #AI #Minimax #GLM #WebDev #CodeArena #TríTuệNhânTạo #MãNguồnMở #LMArena
Code Arena Revolutionizes AI Coding Evaluation https://techlife.blog/posts/introducing-code-arena/