Dan McAteer (@daniel_mac8)
UC Berkeley 연구진이 AI 코딩 에이전트 벤치마크를 조작해 공식 평가 파이프라인에서 실제 해결책 없이도 만점을 받을 수 있음을 보였다. 기존 벤치마크 신뢰성에 대한 문제를 제기하며 METR, GDPval 같은 실제 작업 기반 평가의 중요성을 강조했다.

AI coding agent benchmarks are dead. Berkeley researchers gamed each benchmark and got perfect scores on the official eval pipeline w/o a single solution. Only benchmarks that matter are METR, GDPval and your own vibes. Can the model complete your task? That’s what matters.
[AI 서비스 PM, 이제 '기획'을 넘어 '평가'를 설계하라
이 글은 생성형 AI 서비스가 늘어나면서 PM의 역할이 단순한 기획을 넘어, 무엇이 좋은 AI 결과인지 ‘평가 기준’을 설계하고 품질을 책임지는 방향으로 바뀌고 있다고 설명한다. 전통적인 소프트웨어처럼 명확한 정답을 검증하는 QA 방식과 달리, AI 서비스는 주관적이고 연속적인 품질 스펙트럼을 다뤄야 하므로 PM이 평가 기준을 명문화하고 데이터셋을 만들며, 필요시 LLM Judge를 활용해 자동 평가 체계를 구축해야 한다는 점을 강조한다.
Rich Heimann (@rheimann)
Sutskever’s List를 바탕으로 실제 이해도를 테스트하는 짧은 벤치마크가 공개됐다. 100문항 중 18문항을 추려 쉬움·중간·어려움 난이도를 포함하고, 가입 없이 즉시 점수 확인이 가능하며 이메일 입력 시 상세 해설도 제공한다.

I put together a short benchmark based on Sutskever’s List to test actual understanding. • 18 questions sampled from a 100-question bank • Covers easy, medium, and hard • Instant score (no signup required) • Optional email → full breakdown: what you missed, why, and what to
"every innovation report should have two sections:
* Did it deliver on the immediate goals?
* What did it do to the city’s capabilities?"
https://rainerkattel.substack.com/p/kpis-and-innovation-are-natural-enemies
This post is by Rainer Kattel, but it also captures my own uneasiness with "impact assessment" ("not everything that can be counted counts", etc.)
Google for Developers (@googledevs)
업데이트된 Android Bench 결과를 공개해, 다양한 모델의 성능을 비교하고 워크플로에 가장 적합한 모델을 찾을 수 있도록 했습니다. 최신 벤치마크 정보로 모델 선택에 참고할 수 있습니다.
ITmedia AI+ (@itm_aiplus)
ZOZO가 엔지니어 여부와 상관없이 동일 기준으로 AI 활용도를 평가하는 독자 지표 "Others"를 공개했다. 사내 AI 활용 수준을 정량화하고 조직 전반의 AI 도입 성과를 비교·관리하려는 시도로 보인다.