TurboQuant: Google will den Speicherhunger großer LLMs bändigen

Googles TurboQuant drückt den KV-Cache großer Sprachmodelle auf 3 Bit. Die Genauigkeit soll bleiben, die Geschwindigkeit sich vervielfachen.

https://www.heise.de/news/TurboQuant-Google-will-den-Speicherhunger-grosser-LLMs-baendigen-11224445.html?wt_mc=sm.red.ho.mastodon.mastodon.md_beitraege.md_beitraege&utm_source=mastodon

#Google #IT #KünstlicheIntelligenz #Sprachverarbeitung #Spracherkennung #news

Google komprimiert LLM-Cache auf 3 Bit ohne Genauigkeitsverlust

Googles TurboQuant drückt den KV-Cache großer Sprachmodelle auf 3 Bit. Die Genauigkeit soll bleiben, die Geschwindigkeit sich vervielfachen.

heise online