SWE-bench 통과한 AI 코드, 실제 개발자에겐 절반이 불합격

METR 연구 결과, AI가 SWE-bench를 통과한 코드의 절반이 실제 개발자 심사에서 탈락했습니다. 벤치마크 점수와 실무 유용성 사이의 격차를 분석합니다.

https://aisparkup.com/posts/10118