Can language models rebuild programs from scratch?
ProgramBench은 컴파일된 실행 파일과 문서만을 기반으로 원본 프로그램의 동작을 완전히 재구현하는 AI 에이전트를 평가하는 벤치마크이다. 200개의 다양한 난이도의 프로그램을 대상으로 하며, 에이전트는 소스 코드 없이 언어 선택, 아키텍처 설계, 코드 작성, 빌드 스크립트 생성까지 모두 수행해야 한다. 현재까지 AI 모델들의 완전한 재구현 성공률은 매우 낮으며, 이는 프로그램 설계 및 구현의 복잡성을 반영한다. ProgramBench는 인터넷 접근과 디컴파일 도구 사용을 제한하여 공정성을 확보하고, 실제 소프트웨어 설계 능력을 평가하는 데 중점을 둔다.
#programbench #softwaregeneration #aibenchmark #programsynthesis #codegeneration
