Grafting a Speech Head onto Gemma 4 E4B
Gemma 4 E4B는 텍스트, 이미지, 오디오를 입력받아 통합된 언어 모델로 작동하는 소형 멀티모달 모델이다. 본 실험은 Gemma의 디코더 마지막 6개 층의 히든 스테이트를 활용해 별도의 TTS 없이 직접 음성 코덱 토큰을 예측하는 오디오 헤드를 학습시키는 아키텍처적 시도를 다룬다. 이를 위해 Mimi 코덱 디코더를 고정하고 Gemma-투-Mimi 토큰 헤드만 학습하며, 음성 출력이 텍스트를 거치지 않고 생성되는 구조를 검증했다. 결과는 초기 단계의 프로토타입 수준이나, 멀티모달 LLM의 음성 생성 가능성을 보여주는 의미 있는 연구이다.