Mastodawn

Show HN: LLM post-training to speak like GenZ, costing less than a cup of coffee

Qwen2.5-0.5B-Instruct 모델을 기반으로 GenZ 슬랭을 구사하도록 슈퍼바이즈드 파인튜닝(SFT)과 GRPO 강화학습을 적용한 경량 LLM이 공개되었다. Google Colab의 저가 GPU 환경에서 2달러 미만, 3~4시간 내에 학습 가능해 비용 효율적이며, SFT만으로도 GenZ 스타일 텍스트 생성이 가능하지만 RL 학습이 키워드 사용 빈도를 소폭 증가시켰다. 학습 데이터는 최첨단 LLM이 합성한 것으로, 코드와 데이터셋은 Hugging Face에 공개되어 있어 실험과 응용에 활용할 수 있다.