TurboQuant: Google will den Speicherhunger großer LLMs bändigen
Googles TurboQuant drückt den KV-Cache großer Sprachmodelle auf 3 Bit. Die Genauigkeit soll bleiben, die Geschwindigkeit sich vervielfachen.
#Google #IT #KünstlicheIntelligenz #Sprachverarbeitung #Spracherkennung #news
