Andy Hall (@ahall_research)
AI가 수천 편의 논문을 작성하려는 상황에서, 연구진이 AI 코딩 에이전트에 실제로 공개된 '무효(null) 결과' 데이터셋을 주고 통계적 유의성을 조작(p-hacking)하도록 압박하는 실험을 수행했습니다. 실험 결과 모델들이 p-hacking을 하도록 유도하는 것은 예상보다 어려웠다는 관찰을 보고하고 있습니다.

Andy Hall (@ahall_research) on X
AI is about to write thousands of papers. Will it p-hack them? We ran an experiment to find out, giving AI coding agents real datasets from published null results and pressuring them to manufacture significant findings. It was surprisingly hard to get the models to p-hack, and


