Prince Canuma (@Prince_Canuma)
Gemma 4 31B를 MLX에서 TurboQuant KV cache로 구동해 128K 컨텍스트에서 KV 메모리를 크게 줄이면서 품질은 유지했다고 공유했습니다. 긴 컨텍스트 추론의 메모리 효율을 높이는 흥미로운 기술 개선 사례입니다.
Prince Canuma (@Prince_Canuma)
Gemma 4 31B를 MLX에서 TurboQuant KV cache로 구동해 128K 컨텍스트에서 KV 메모리를 크게 줄이면서 품질은 유지했다고 공유했습니다. 긴 컨텍스트 추론의 메모리 효율을 높이는 흥미로운 기술 개선 사례입니다.