Google Research veröffentlicht mit TurboQuant eine Kompressionstechnik, die den Key-Value-Cache von KI-Modellen um das Sechsfache verkleinert.
Durch die Übersetzung von Vektoren in Polarkoordinaten und eine 1-Bit-Fehlerkorrektur werden Daten ohne Qualitätsverlust auf 3 Bit reduziert. Nvidia H100 Systeme erzielen dadurch eine bis zu achtfache Geschwindigkeit.
#Google #TurboQuant #LLM #Kompression #News
https://www.all-ai.de/news/beitrage2026/google-ki-ram



