Can language models rebuild programs from scratch?
ProgramBench은 컴파일된 실행 파일과 문서만을 기반으로 원본 프로그램의 동작을 완전히 재구현하는 AI 에이전트를 평가하는 벤치마크이다. 200개의 다양한 난이도의 프로그램을 대상으로 하며, 에이전트는 소스 코드 없이 언어 선택, 아키텍처 설계, 코드 작성, 빌드 스크립트 생성까지 모두 수행해야 한다. 현재까지 AI 모델들의 완전한 재구현 성공률은 매우 낮으며, 이는 프로그램 설계 및 구현의 복잡성을 반영한다. ProgramBench는 인터넷 접근과 디컴파일 도구 사용을 제한하여 공정성을 확보하고, 실제 소프트웨어 설계 능력을 평가하는 데 중점을 둔다.

https://programbench.com

#programbench #softwaregeneration #aibenchmark #programsynthesis #codegeneration

ProgramBench

ProgramBench evaluates whether language models can rebuild programs from scratch.

Derya Unutmaz, MD (@DeryaTR_)

AskPerplexity Computer가 단번에 작동하는 독립형 Mac 앱(게임화된 아름다운 태스크 트래커)을 만들어내는 능력에 감탄하며, 이를 바탕으로 더 복잡한 생물학 소프트웨어를 개발 중이라고 밝히는 트윗입니다.

https://x.com/DeryaTR_/status/2028866285619101823

#ai #perplexity #macapps #softwaregeneration

Derya Unutmaz, MD (@DeryaTR_) on X

I’m really amazed at how good @AskPerplexity Computer is at creating Mac apps. It made this gamified, beautiful task tracker in one shot, with lots of features, as a standalone Mac app & everything just works! Now I’m building more complex biology software & I’m very excited!

X (formerly Twitter)