Meta Research: ProgramBench

Meta Research에서 공개한 ProgramBench는 컴파일된 바이너리와 문서만을 기반으로 원본 프로그램의 동작을 재현하는 완전한 코드베이스를 AI 언어 모델이 설계하고 구현할 수 있는지를 평가하는 벤치마크입니다. 이 오픈소스 프로젝트는 Python으로 개발되었으며, GitHub에서 코드와 사용 가이드, 논문, 리더보드를 제공하여 연구자와 개발자가 쉽게 활용할 수 있도록 지원합니다. ProgramBench는 AI 모델의 소프트웨어 재구성 능력을 측정하는 새로운 평가 기준을 제시해 LLM 응용과 코드 생성 분야에 중요한 참고 자료가 될 전망입니다.

https://github.com/facebookresearch/ProgramBench

#metaresearch #programbench #llm #codegeneration #benchmark

GitHub - facebookresearch/ProgramBench: Can Language Models Rebuild Programs From Scratch?

Can Language Models Rebuild Programs From Scratch? - facebookresearch/ProgramBench

GitHub
ProgramBench: Can Language Models Rebuild Programs From Scratch?

Turning ideas into full software projects from scratch has become a popular use case for language models. Agents are being deployed to seed, maintain, and grow codebases over extended periods with minimal human oversight. Such settings require models to make high-level software architecture decisions. However, existing benchmarks measure focused, limited tasks such as fixing a single bug or developing a single, specified feature. We therefore introduce ProgramBench to measure the ability of software engineering agents to develop software holisitically. In ProgramBench, given only a program and its documentation, agents must architect and implement a codebase that matches the reference executable's behavior. End-to-end behavioral tests are generated via agent-driven fuzzing, enabling evaluation without prescribing implementation structure. Our 200 tasks range from compact CLI tools to widely used software such as FFmpeg, SQLite, and the PHP interpreter. We evaluate 9 LMs and find that none fully resolve any task, with the best model passing 95\% of tests on only 3\% of tasks. Models favor monolithic, single-file implementations that diverge sharply from human-written code.

arXiv.org

fly51fly (@fly51fly)

Meta FAIR 연구진이 언어 모델이 프로그램을 처음부터 다시 재구성할 수 있는지 평가하는 ProgramBench를 공개했다. 코드 생성·복원 능력을 측정하는 벤치마크로, 모델의 실질적 프로그래밍 능력 평가에 중요한 자료다.

https://x.com/fly51fly/status/2052137222384853488

#programbench #languagemodels #codegeneration #benchmark #meta

fly51fly (@fly51fly) on X

[AI] ProgramBench: Can Language Models Rebuild Programs From Scratch? J Yang, K Lieret, J Ma, P Thakkar… [Meta FAIR] (2026) https://t.co/VEkc5PeIwh

X (formerly Twitter)

Can language models rebuild programs from scratch?
ProgramBench은 컴파일된 실행 파일과 문서만을 기반으로 원본 프로그램의 동작을 완전히 재구현하는 AI 에이전트를 평가하는 벤치마크이다. 200개의 다양한 난이도의 프로그램을 대상으로 하며, 에이전트는 소스 코드 없이 언어 선택, 아키텍처 설계, 코드 작성, 빌드 스크립트 생성까지 모두 수행해야 한다. 현재까지 AI 모델들의 완전한 재구현 성공률은 매우 낮으며, 이는 프로그램 설계 및 구현의 복잡성을 반영한다. ProgramBench는 인터넷 접근과 디컴파일 도구 사용을 제한하여 공정성을 확보하고, 실제 소프트웨어 설계 능력을 평가하는 데 중점을 둔다.

https://programbench.com

#programbench #softwaregeneration #aibenchmark #programsynthesis #codegeneration

ProgramBench

ProgramBench evaluates whether language models can rebuild programs from scratch.