Honey, I Shrunk the Circuits
본 연구는 밀집 언어 모델 내 분산된 능력을 소규모 인과 서브스트레이트(회로)로 추출 가능하도록 저랭크 회로 컨디셔닝(low-rank circuit conditioning) 기법을 제안한다. 기존 모델에서는 덧셈 능력이 MLP 채널의 29%만으로는 정확히 복구되지 않았으나, 컨디셔닝 후에는 5% 채널만으로 91% 이상의 정확한 덧셈 결과를 재현할 수 있게 되었다. 이는 모델 압축과 회로 추출 가능성을 높여, 능력의 라우팅, 감사, 업데이트, 제거가 가능한 새로운 방향을 제시한다. 실험은 Qwen 모델을 활용해 엄격한 덧셈 작업을 통해 회로의 인과적 역할을 검증했다.
https://tokenbender.com/posts/honey-i-shrunk-the-circuits/
#modelcompression #mechanisticinterpretability #lowrankconditioning #mlp #qwen