Mastodawn

The Truth Lies Somewhere in the Middle (Of the Generated Tokens)

본 연구는 오토리그레시브 언어 모델이 생성하는 토큰들의 히든 스테이트를 단일 표현으로 합치는 최적 방식을 탐구한다. 특히, 생성된 토큰들의 히든 스테이트를 평균(pooling)하는 방식이 마지막 토큰만 사용하는 것보다 입력의 의미를 더 잘 포착함을 발견했다. Qwen3-14B 모델을 활용해 이미지-텍스트 데이터셋에서 시각적 임베딩과의 정렬도를 CKA 지표로 측정했으며, 평균 풀링된 임베딩이 생성 과정에서 점차 정렬도가 높아지는 경향을 보였다. 이는 LLM의 내부 표현을 해석하고 활용하는 데 중요한 인사이트를 제공한다.