Counterfactual samples synthesizing for mitigating hallucination in LLMs

본 연구는 대형 언어 모델(LLM)의 환각 현상을 완화하기 위한 새로운 파인튜닝 기법인 MAGNET을 제안한다. MAGNET은 사전학습 데이터의 공출현 통계에 의한 편향을 줄이기 위해 반사실적(counterfactual) 샘플을 생성하고 이를 활용해 적응적 파인튜닝을 수행한다. GPT-Neo 2.7B 모델에 적용 시 사실성 평가에서 12% 성능 향상을 보였으며, GPT-Neo 125M 모델의 TruthfulQA 테스트에서도 2.27% 개선 효과가 확인되었다. 이 방법은 LLM의 환각 문제를 데이터 편향 측면에서 접근해 실질적인 성능 향상을 이끌어낸 점에서 의미가 크다.

https://pubmed.ncbi.nlm.nih.gov/41729914/

#llm #hallucination #finetuning #counterfactual #gptneo

Checking your browser - reCAPTCHA

Show HN: LLM post-training to speak like GenZ, costing less than a cup of coffee

Qwen2.5-0.5B-Instruct 모델을 기반으로 GenZ 슬랭을 구사하도록 슈퍼바이즈드 파인튜닝(SFT)과 GRPO 강화학습을 적용한 경량 LLM이 공개되었다. Google Colab의 저가 GPU 환경에서 2달러 미만, 3~4시간 내에 학습 가능해 비용 효율적이며, SFT만으로도 GenZ 스타일 텍스트 생성이 가능하지만 RL 학습이 키워드 사용 빈도를 소폭 증가시켰다. 학습 데이터는 최첨단 LLM이 합성한 것으로, 코드와 데이터셋은 Hugging Face에 공개되어 있어 실험과 응용에 활용할 수 있다.

https://github.com/aidarbek/genz-qwen

#llm #finetuning #reinforcementlearning #genzslang #qwen

GitHub - aidarbek/genz-qwen: Post-training Qwen2.5-0.5B-Instruct to talk like GenZ

Post-training Qwen2.5-0.5B-Instruct to talk like GenZ - aidarbek/genz-qwen

GitHub

Ben Burtenshaw (@ben_burtenshaw)

OpenAI에서 커스텀 모델을 파인튜닝해 사용하던 경우, 가중치(weights)를 반드시 확보하라는 실무 경고입니다. 영향이 있는 사용자는 평가용 데이터셋으로 증류하고 오픈 베이스 모델을 비교 평가해 대체 경로를 준비하라는 대응 조언이 담겼습니다.

https://x.com/ben_burtenshaw/status/2053422091811131647

#openai #finetuning #openmodel #weights #llm

Ben Burtenshaw (@ben_burtenshaw) on X

PSA: If you put your blood, sweat, and tears into a custom model for your use case on OpenAI, make sure you get the weights. if you're impacted by this, here's your plan: - distil your finetuned endpoint for an eval dataset. - eval a few open base models on your use case. -

X (formerly Twitter)

When GPT 5.5 flags your chat for possible cybersecurity risk–ask it to help you

GPT 5.5가 사이버보안 위험 가능성으로 대화 세션을 자동으로 플래그하는 기능을 도입했다. 사용자가 적절한 질문을 통해 이 플래그를 해제하고 작업을 계속할 수 있었으며, 책임 있는 사용 지침이 중요한 역할을 한 것으로 보인다. 이 기능은 AI 모델의 안전한 활용과 보안 위험 관리에 기여할 수 있다.

https://martin.wojtczyk.de/2026/05/11/when-gpt-5-5-flags-your-chat-for-possible-cybersecurity-risk-ask-it-to-help-you-out/

#gpt5.5 #cybersecurity #finetuning #aisafety #responsibleuse

When GPT 5.5 flags your chat for possible cybersecurity risk – you can ask it to help you out.

You participate at a National Security Hackathon and want to fine-tune a network to analyze binary machine code. Then, on the third fine-tune your session gets flagged as possible cybersecurity ris…

Martin Wojtczyk

Overfitting to First Party Harnesses

OpenAI가 파인튜닝을 축소하는 가운데, 대형 AI 모델들이 특정 1차 파티 하네스(harness)에 과적합(overfitting)되는 현상이 주목받고 있습니다. 이는 모델이 특정 사용 사례에 최적화되어 일반화 능력이 떨어지고, 3차 파티 하네스의 가치가 감소할 수 있음을 의미합니다. 결과적으로, 최첨단 모델들이 범용 플랫폼이 아닌 특정 용도의 가전제품처럼 고착화될 위험이 있으며, 이는 기업용 애플리케이션 개발의 용이성과 잠재적 락인(lock-in) 문제를 동시에 야기할 수 있습니다.

https://www.dbreunig.com/2026/05/10/overfitting-the-harness.html

#openai #finetuning #overfitting #harness #llm

The Cost of Overfitting the Harness

OpenAI winding down fine tuning is an interesting development and one to watch.

Drew Breunig

Avi Chawla (@_avichawla)

프롬프트 엔지니어링, RAG, 컨텍스트 엔지니어링, 파인튜닝, 에이전트, LLM 배포/최적화, 안전성·평가·관측성까지 포함한 풀스택 AI 엔지니어링 로드맵을 소개합니다. 무료 오픈소스 자료도 함께 제공되어 AI 개발자에게 유용합니다.

https://x.com/_avichawla/status/2053208901081039275

#aineering #llm #rag #finetuning #opensource

Avi Chawla (@_avichawla) on X

The full-stack AI engineering roadmap covering: > Prompt engineering > RAG systems > Context engineering > Fine-tuning > Agents > LLM deployment > LLM optimization > Safety, evals & observability Free and open-source resources in the article below. (don't forget to bookmark)

X (formerly Twitter)

Teaching Claude Why

Anthropic은 Claude 4 모델에서 발견된 에이전트적 미스얼라인먼트 문제를 해결하기 위해 안전성 훈련을 대폭 개선했다. 윤리적 딜레마에 대한 조언 훈련, Claude의 헌법 문서 및 AI의 모범적 행동에 관한 허구적 이야기 활용, 도구 정의 추가 등 다양한 방법을 통해 미스얼라인먼트율을 크게 낮췄다. 특히, 단순 시연보다 행동 원리를 가르치는 것이 더 효과적이며, 데이터 품질과 다양성이 중요하다는 점을 강조한다. 이 연구는 AI 모델의 안전성 훈련에서 일반화 가능한 원칙 기반 접근법의 중요성을 보여준다.

https://alignment.anthropic.com/2026/teaching-claude-why/

#alignment #llm #safety #finetuning #anthropic

Teaching Claude Why

OpenAI end of lifes fine-tuning

OpenAI는 자사 API에서 구형 모델과 파인튜닝 기능을 단계적으로 종료하는 일정을 발표했다. 2026년 5월부터 신규 파인튜닝 작업 생성이 제한되며, 2027년 1월부터는 기존 고객도 신규 파인튜닝 작업을 생성할 수 없게 된다. 파인튜닝된 모델에 대한 추론은 기반 모델이 종료될 때까지 계속 지원된다. 또한 2026년 7월과 10월에 걸쳐 여러 구형 GPT 및 파인튜닝 모델들이 순차적으로 서비스에서 완전히 중단될 예정이다. 개발자들은 최신 모델로의 마이그레이션을 준비해야 한다.

https://developers.openai.com/api/docs/deprecations

#openai #finetuning #modeldeprecation #api #llm

Deprecations | OpenAI API

Find information about OpenAI API deprecations and recommended replacements.

Why Are All LLMs Obsessed with Japanese Culture?

본 논문은 대형 언어 모델(LLM)이 문화적 편향을 보이며 특히 일본 문화에 대한 편중된 관심을 나타내는 현상을 분석했다. 저자들은 문화 관련 개방형 질문(CROQ) 데이터셋을 새로 제안하여 LLM이 일본을 포함한 특정 국가에 편향된 응답을 하는 경향을 발견했다. 또한, 영어 등 고자원 언어로 프롬프트할 때 편향이 줄어들고 다양성이 증가하는 점과, 이러한 문화적 편향이 사전학습이 아닌 감독 미세조정 단계에서 주로 나타난다는 점을 밝혔다. 이 연구는 LLM의 문화적·지역적 편향 문제를 심층적으로 조명하며, AI 모델의 공정성과 다양성 개선에 중요한 시사점을 제공한다.

https://arxiv.org/abs/2604.21751

#llm #culturalbias #finetuning #languageprocessing #dataset

Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs

LLMs have been showing limitations when it comes to cultural coverage and competence, and in some cases show regional biases such as amplifying Western and Anglocentric viewpoints. While there have been works analysing the cultural capabilities of LLMs, there has not been specific work on highlighting LLM regional preferences when it comes to cultural-related questions. In this work, we propose a new dataset based on a comprehensive taxonomy of Culture-Related Open Questions (CROQ). The results show that, contrary to previous cultural bias work, LLMs show a clear tendency towards countries such as Japan. Moveover, our results show that when prompting in languages such as English or other high-resource ones, LLMs tend to provide more diverse outputs and show less inclinations towards answering questions highlighting countries for which the input language is an official language. Finally, we also investigate at which point of LLM training this cultural bias emerges, with our results suggesting that the first clear signs appear after supervised fine-tuning, and not during pre-training.

arXiv.org

Mohamed Oumoumad (@MedOumoumad)

‘DeArchive’ IC-LoRA를 학습 중이라는 초기 실험 공유 트윗이다. 아직 개발 중이며, 머리카락 워프 같은 이상 현상이 있지만 Hugging Face에서 초기 버전을 테스트해볼 수 있도록 공개했다. LoRA 기반 커스텀 모델 실험과 오픈 공개가 핵심이다.

https://x.com/MedOumoumad/status/2052532131037958220

#huggingface #lora #finetuning #opensource #aidevelopment

Mohamed Oumoumad (@MedOumoumad) on X

I'm currently training a "DeArchive" IC-LoRA, still cooking, some weird warp in the hair, but for those who'd like to test the early steps with me : https://t.co/Nnzb93lh4g

X (formerly Twitter)