Anthropic (@AnthropicAI)

엔지니어링 블로그에 에이전트 기반 코딩 평가(agentic coding evals)에서 인프라 설정이 벤치마크 결과에 미치는 영향을 정량화한 글이 올라왔습니다. 인프라 구성만으로도 평가 점수가 수 퍼센트까지 요동치며, 이는 때로 상위 모델 간 리더보드 격차보다 큰 영향을 준다고 보고합니다. 평가 신뢰도와 재현성 문제를 환기합니다.

https://x.com/AnthropicAI/status/2019501512200974686

#engineeringblog #agenticevals #benchmarks #infrastructure #anthropic

Anthropic (@AnthropicAI) on X

New on the Engineering Blog: Quantifying infrastructure noise in agentic coding evals. Infrastructure configuration can swing agentic coding benchmarks by several percentage points—sometimes more than the leaderboard gap between top models. Read more: https://t.co/DY7jCj8GAP

X (formerly Twitter)