DeepSWE: A contamination-free benchmark for long-horizon coding agents

DeepSWE는 기존 공개 코딩 에이전트 벤치마크의 한계를 극복한 장기 과제 중심의 소프트웨어 엔지니어링 벤치마크입니다. 오염 없는 새로운 과제, 다양한 91개 저장소와 5개 언어 지원, 실제 개발 환경과 유사한 복잡성, 그리고 행동 기반의 신뢰성 높은 검증기를 특징으로 합니다. 이를 통해 기존 벤치마크 대비 모델 간 성능 차이를 명확히 구분하며, 실제 개발자들이 체감하는 에이전트 성능 차이를 반영합니다. 특히, DeepSWE 검증기는 오탐과 미탐률이 매우 낮아 평가 신뢰도를 크게 높였습니다.

https://deepswe.datacurve.ai/blog

#softwareengineering #benchmark #codingagents #llmevaluation #verification

DeepSWE

DeepSWE measures frontier coding agents on original, long-horizon software engineering tasks.

DeepSWE