Counterfactual samples synthesizing for mitigating hallucination in LLMs
본 연구는 대형 언어 모델(LLM)의 환각 현상을 완화하기 위한 새로운 파인튜닝 기법인 MAGNET을 제안한다. MAGNET은 사전학습 데이터의 공출현 통계에 의한 편향을 줄이기 위해 반사실적(counterfactual) 샘플을 생성하고 이를 활용해 적응적 파인튜닝을 수행한다. GPT-Neo 2.7B 모델에 적용 시 사실성 평가에서 12% 성능 향상을 보였으며, GPT-Neo 125M 모델의 TruthfulQA 테스트에서도 2.27% 개선 효과가 확인되었다. 이 방법은 LLM의 환각 문제를 데이터 편향 측면에서 접근해 실질적인 성능 향상을 이끌어낸 점에서 의미가 크다.







