AI 메모리 병목을 3비트로 해결, 구글 TurboQuant 8배 속도 달성한 방법

구글 리서치가 발표한 TurboQuant는 LLM의 KV 캐시를 3.5비트로 압축하면서 정확도 손실 없이 최대 8배 빠른 처리 속도를 달성한 벡터 양자화 알고리즘입니다.

https://aisparkup.com/posts/10509