Diversity as the Bottleneck in Self-Play

자기 대결(self-play) 학습에서 다양성 부족이 성능 저하의 주요 병목임을 실험적으로 확인했다. Absolute Zero 코드를 재현하며 버퍼 크기 제한 버그를 발견했고, 이를 수정해도 다양성 붕괴로 인해 모델 성능이 다시 하락하는 현상을 관찰했다. 다양한 다양성 보상 기법(LM 기반, 임베딩 기반 등)을 시도했으나 모두 한계가 있었으며, 모델이 반복적으로 유사한 프로그램을 생성하는 문제를 완전히 해결하지 못했다. 이 연구는 자기 대결 학습에서 다양성 유지가 핵심 과제임을 시사한다.

https://ivison.id.au/2026/05/06/self-play.html

#selfplay #diversity #reinforcementlearning #llm #codegeneration

Diversity as the bottleneck in Self-Play

Exploring plateaus in prior self-play setups.

Hamish Ivison

PRD Driven Development

AI 에이전트를 활용한 개발 과정에서 기술 부채 누적 문제를 해결하기 위해 PRD(제품 요구사항 문서) 기반 개발 프로세스를 도입했다. 각 작업마다 PRD를 생성하고, 코드 변경 시 PRD도 함께 업데이트하여 변경 이유와 과정을 문서화한다. 이로 인해 문서 작성 비용과 오류를 줄이고, 에이전트가 이전 결정 맥락을 이해하여 일관성 있는 코드를 생성할 수 있다. 결과적으로 개발자와 AI 에이전트 모두 프로젝트에 대한 이해도를 점진적으로 높일 수 있다.

https://debarshibasak.github.io/readables/blogs/prd-driven-development.html

#prd #aiagent #softwaredevelopment #documentation #codegeneration

PRD-driven development — Readables

Vibecoding without a plan stacks tech debt fast. A PRD per task — kept in lockstep with the code — is what lets us ship AI-generated features with confidence.

Are AI Slop Forks Killing Software?

AI가 오픈소스 소프트웨어 개발에 미치는 영향으로, AI가 생성한 'slop fork'가 급증하며 기존 오픈소스의 사회적 계약과 품질 관리 방식을 무너뜨리고 있다. AI가 코드 생성 비용을 극적으로 낮추면서 PR 제출은 쉬워졌지만, 리뷰 비용과 유지보수 부담은 유지관리자에게 집중되어 오픈소스 생태계에 큰 도전이 되고 있다. 이에 대응해 LLVM 등 주요 프로젝트는 인간 검증 정책을 도입하고 있으며, Builder와 같은 도구는 팀의 맥락을 이해하고 제약 조건을 반영하는 AI 코드 생성으로 문제를 완화하려 한다. 앞으로는 코드 자체보다 명세, 의도, 검증 체계가 소프트웨어 개발의 핵심이 될 전망이다.

https://www.builder.io/blog/ai-slop-forks

#ai #opensource #softwareengineering #codegeneration #aidevelopment

Are AI Slop Forks Killing Software?

AI slop forks make code cheap but not understanding. Why open source is straining, maintainers are overloaded, and specs, trust, and intent still matter.

Builder.io

Meta Research: ProgramBench

Meta Research에서 공개한 ProgramBench는 컴파일된 바이너리와 문서만을 기반으로 원본 프로그램의 동작을 재현하는 완전한 코드베이스를 AI 언어 모델이 설계하고 구현할 수 있는지를 평가하는 벤치마크입니다. 이 오픈소스 프로젝트는 Python으로 개발되었으며, GitHub에서 코드와 사용 가이드, 논문, 리더보드를 제공하여 연구자와 개발자가 쉽게 활용할 수 있도록 지원합니다. ProgramBench는 AI 모델의 소프트웨어 재구성 능력을 측정하는 새로운 평가 기준을 제시해 LLM 응용과 코드 생성 분야에 중요한 참고 자료가 될 전망입니다.

https://github.com/facebookresearch/ProgramBench

#metaresearch #programbench #llm #codegeneration #benchmark

GitHub - facebookresearch/ProgramBench: Can Language Models Rebuild Programs From Scratch?

Can Language Models Rebuild Programs From Scratch? - facebookresearch/ProgramBench

GitHub

Handwritten SDKs Are Dead

WorkOS는 AI 기반 코드 생성과 OpenAPI 스펙을 활용해 여러 언어용 SDK를 자동 생성하는 파이프라인을 구축했다. 기존 수작업 SDK 유지보수의 비효율과 불일치를 해결하기 위해, OpenAPI를 파싱해 중간 표현(IR)을 만들고, 언어별 이미터가 IR을 바탕으로 각 언어 특성에 맞는 SDK 코드를 생성한다. AI 모델 Claude는 이미터 확장과 언어별 변환에 특화된 지식을 적용해 일관성 있고 품질 높은 SDK 생성을 지원한다. 이 접근법은 SDK 유지보수 비용을 크게 줄이고, AI 에이전트가 활용하기 좋은 일관된 SDK를 제공해 API 통합 경험을 개선한다.

https://workos.com/blog/autogenerating-sdks-with-ai

#sdk #openapi #codegeneration #ai #softwareengineering

Handwritten SDKs Are Dead — WorkOS

WorkOS uses AI-powered code generation to build and maintain SDKs across multiple languages from a single OpenAPI spec.

fly51fly (@fly51fly)

Meta FAIR 연구진이 언어 모델이 프로그램을 처음부터 다시 재구성할 수 있는지 평가하는 ProgramBench를 공개했다. 코드 생성·복원 능력을 측정하는 벤치마크로, 모델의 실질적 프로그래밍 능력 평가에 중요한 자료다.

https://x.com/fly51fly/status/2052137222384853488

#programbench #languagemodels #codegeneration #benchmark #meta

fly51fly (@fly51fly) on X

[AI] ProgramBench: Can Language Models Rebuild Programs From Scratch? J Yang, K Lieret, J Ma, P Thakkar… [Meta FAIR] (2026) https://t.co/VEkc5PeIwh

X (formerly Twitter)

Ask HN: Is writing code by hand still a necessary skill for developers?
한 개발자가 AI 도구의 발전으로 인해 직접 코드를 손으로 작성하는 능력이 여전히 중요한지에 대해 질문하고 있습니다. 그는 비전통적인 경력을 가진 풀스택 개발자로, AI 기반 코드 생성 도구를 주로 활용하며 코딩 실력에 대한 불안감을 느끼고 있습니다. 미래 개발 환경에서 AI가 코드 작성의 핵심 역할을 하게 될지, 개발자의 역할이 검토와 디버깅, 명세 작성 등으로 변화할지에 대한 고민을 담고 있습니다.

https://news.ycombinator.com/item?id=48034901

#softwaredevelopment #aicoding #developerskills #codegeneration #career

Ask HN: Is writing code by hand still a necessary skill for developers? | Hacker News

Can language models rebuild programs from scratch?
ProgramBench은 컴파일된 실행 파일과 문서만을 기반으로 원본 프로그램의 동작을 완전히 재구현하는 AI 에이전트를 평가하는 벤치마크이다. 200개의 다양한 난이도의 프로그램을 대상으로 하며, 에이전트는 소스 코드 없이 언어 선택, 아키텍처 설계, 코드 작성, 빌드 스크립트 생성까지 모두 수행해야 한다. 현재까지 AI 모델들의 완전한 재구현 성공률은 매우 낮으며, 이는 프로그램 설계 및 구현의 복잡성을 반영한다. ProgramBench는 인터넷 접근과 디컴파일 도구 사용을 제한하여 공정성을 확보하고, 실제 소프트웨어 설계 능력을 평가하는 데 중점을 둔다.

https://programbench.com

#programbench #softwaregeneration #aibenchmark #programsynthesis #codegeneration

ProgramBench

ProgramBench evaluates whether language models can rebuild programs from scratch.

Event sourcing with a little help from AI

A Claude Code skill that designs and generates event-sourced Laravel domains, one conversation at a time.

A blog by Alberto Arena