Rohan Paul (@rohanpaul_ai)
한 논문은 LLM이 주로 자기 생성(self-generated) 데이터로 자체 학습(self-training)할 경우 모델의 다양성이 감소하고 진실성에서 벗어나게 된다고 증명한다. LLM은 자체 텍스트만으로 무한히 부트스트랩할 수 없으며 외부의 현실 검증(fresh reality checks) 데이터가 필요하다는 경고를 담고 있다.

Rohan Paul (@rohanpaul_ai) on X
This paper proves LLM self training on mostly self generated data makes models lose diversity and drift from truth. LLMs cannot bootstrap forever on their own text, they need fresh reality checks or they collapse. The problem is that many people expect an AI to learn from its
