Erica (@ericavaneee)

실세계 경제 협상에서 LLM 에이전트를 평가하는 3단계 벤치마크 TERMS-Bench를 공개했다. LLM-as-judge나 결과 기반 루브릭 없이, 환경 자체를 검증자로 사용한다. 프론티어 모델 중 Claude Opus 4.6이 1위, GLM 5.1이 2위로 언급됐다.

https://x.com/ericavaneee/status/2055868536099381638

#llm #agents #benchmark #evaluation #anthropic

Erica (@ericavaneee) on X

We built TERMS-Bench, a three-tier benchmark for LLM agents in real-world economic negotiation. No LLM-as-judge, no outcome rubrics: the environment itself is the verifier. 🏆Among frontier models, @AnthropicAI Claude Opus 4.6 #1, @Zai_org GLM 5.1 #2. ✨Surprisingly strong:

X (formerly Twitter)

Combining #water basins appears to allow the inter-basin #transfer of water without #environmental #assessment, #evaluation of cumulative effects, adequate watershed #management or #public #consultation beyond directly affected parties. In other words, the #legislation deems the two distinct water basins to be one. Expanding Ministerial #power for decision-making obviates the necessity for public consultation, environmental assessment and #parliamentary #debate.

5/24

Design Arena (@Designarena)

Design Arena의 370만+ 사용자 기반에서 생성된 슬라이드 작업을 바탕으로 한 랭킹 서비스와, 오픈소스 agent harness를 수정해 이미지 생성 등 도구 호출을 지원하는 평가/실행 인프라를 소개합니다. 슬라이드 생성 에이전트 평가 파이프라인에 관심 있는 개발자에게 실용적인 참고 사례입니다.

https://x.com/Designarena/status/2055400470693466332

#designarena #agentic #opensource #toolcalling #evaluation

Design Arena (@Designarena) on X

@AnthropicAI @Zai_org Slide Arena is powered by 3.7M+ users on Design Arena, creating slides for real-world use cases Check out the leaderboard live at https://t.co/9QNkOYQRqN The harness is a modified version of our open-source agent harness, with access to tool calls like generate_image,

X (formerly Twitter)

Evaluation is a measurement problem. If you can't define what success looks like operationally, your evaluation framework is measuring noise.

#Evaluation #Measurement #AI

Ivan Fioravanti ᯅ (@ivanfioravanti)

AIME 2025 기준으로 ds4 M5 브랜치에 대한 새로운 평가/최적화 작업이 진행 중이며, logprob drift를 엄격히 통제하면서 Codex가 1일간 튜닝했다고 밝힙니다. 모델 성능 최적화와 평가 안정성에 초점을 둔 실무형 실험입니다.

https://x.com/ivanfioravanti/status/2055366101798662472

#benchmark #codex #optimization #llm #evaluation

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

A new round of AIME 2025 against ds4 M5 branch is running! Codex spent 1 day to try to optimize it following super rigid tests to ensure logprob drift is under control. Let's see if this is "good enough" 🤞🏻

X (formerly Twitter)

GBA Eval - Build a Game Boy Advance emulator in WebAssembly from scratch

GBA Eval은 최첨단 AI 코딩 에이전트들이 24시간 동안 WebAssembly 지원 Game Boy Advance 에뮬레이터를 처음부터 작성하도록 하는 평가 환경입니다. 에뮬레이터는 Mesen2라는 고정밀 GBA 에뮬레이터와 비교해 게임플레이 재현, 오디오, 하드웨어 서브시스템 테스트를 통해 점수화됩니다. 각 모델은 독립된 도커 컨테이너에서 Rust + wasm32 툴체인과 BIOS, 테스트 ROM, Mesen2 기반 오라클 CLI를 활용하며 인터넷 접근은 차단됩니다. 이 프로젝트는 AI 모델의 환경 설계와 평가 방법론 연구에 중요한 실험 사례로, Mechanize에서 관련 소프트웨어 엔지니어를 채용 중입니다.

https://gbaeval.com/

#llm #emulator #webassembly #evaluation #rust

GBA Eval - Build a Game Boy Advance emulator in WebAssembly from scratch

Frontier AI coding agents try to write a Game Boy Advance emulator from scratch. Their emulators are graded against Mesen2.

GBA Eval
Here's where Canada ranks among the 100 best countries in the world
A ranking of the world's best countries has been released, and Canada placed pretty high.U.S. News and World Report revealed its 2026 Best Countries list on Thursday, which evaluates 100 nations to help citizens, business leaders and policy makers understand how each country is serving its people."We evaluate countries not just by their economic outp...
https://www.blogto.com/city/2026/05/canada-ranks-100-best-countries-world/

Dan McAteer (@daniel_mac8)

AISI가 테스트한 Mythos 체크포인트가 지난달 공개된 결과를 만든 모델보다 더 최신 버전이었다는 점이 언급됐다. 지난달 결과는 Mythos의 학습 완료 이전 체크포인트에서 나온 것으로, Glasswing 체크포인트가 관련 기준점으로 지목됐다.

https://x.com/daniel_mac8/status/2054706133143540200

#mythos #aisi #checkpoint #model #evaluation

Dan McAteer (@daniel_mac8) on X

The Mythos checkpoint AISI tested that produced these results was newer relative to the model that produced the results they released last month. Last month's results checkpoint was before Mythos finished training. This is the Glasswing checkpoint.

X (formerly Twitter)

Tau-knowledge: benchmarking agents on real-world knowledge

𝜏-knowledge는 실제 금융 고객 지원 시나리오를 반영한 대규모 지식 기반에서 AI 에이전트의 검색, 추론, 다단계 도구 호출 능력을 평가하는 벤치마크입니다. GPT-5.5 모델이 초기 대비 성능을 크게 개선했으나, 여전히 60% 이상의 과제가 실패하는 등 해결 과제가 많습니다. 강력한 에이전트는 지속적이고 정밀한 검색 전략을 사용하며, 적절한 시점에만 행동을 취하는 특징을 보입니다. 이 벤치마크는 실제 지식 중심 업무에 투입될 AI 에이전트의 성능 평가 및 개선 방향 제시에 유용합니다.

https://sierra.ai/blog/tau-knowledge

#agentbenchmark #knowledgebase #fintech #llm #evaluation

𝜏-knowledge: benchmarking agents on realistic knowledge

𝜏-knowledge measures how well agents can work through messy, evolving knowledge bases to complete complex, multi-step tasks. While models are improving, they still struggle to reliably use this information in practice, leaving a large gap to real-world performance.

Sierra
N.B. proposes 'streamlined' approval process for mining projects
The New Brunswick natural resources minister says the proposed "streamlined" process wouldn't bypass environmental evaluation or public consultation.
https://www.cbc.ca/news/canada/new-brunswick/mining-law-project-approvals-9.7197845?cmp=rss