#localai #speed vergleich #tokens

in #lmstudio auf #macstudio #m4max #128gbram

#llms
google/gemma-4-26b-a4b(q8) = 76 token/s
google/gemma-4-26b-a4b-qat(q4) = 106 token/s

+39% speed

und laut google soll die quantisierung bei #qat keine einfluss haben:
Gemma 4 26B A4B QAT is the Quantization-Aware Training version of Gemma 4 26B A4B. It aims to keep quality close to bfloat16 while using much less memory to load the model.

bei 11gb weniger #ram belegung

natürlich mit vorsicht zu genießen - bei problemen schreib ich noch was dazu

wenn jetzt das kleine modell was könnte - das wäre der durchbruch bei lokalen llms - imaging jeder mit 16gb ram könnte so was selbst laufen lassen 😍 okay #macneo user lassen wir dann zurück :-P

📊 Local AI Effizienz-Check! Mein selbstgehostetes qwen3.6-35b-a3b läuft überraschend sparsam. Die Stats von heute:

• ~18,3 Mio. Gesamt-Tokens
• Nur 0,34 kWh Energie verbraucht! ⚡

Das macht umgerechnet:
🔹 ~54 Millionen Tokens pro kWh
🔹 Nur 18,5 Wh pro Million Tokens

Lokale LLMs müssen echt keine Stromfresser sein, wenn die Hardware gut optimiert ist. 😎 #Apple #MacStudio #M4max #128GBRAM

#LocalAI #SelfHosted #LLM #Qwen #OpenSource #Tech #Privacy

ASUS releases ProArt GoPro Edition PX13 laptop with 128GB RAM and Ryzen AI Max+ 395

https://fed.brid.gy/r/https://nerds.xyz/2026/02/asus-proart-gopro-edition-px13/

@NanoRaptor this isn't a remotely useful list of options to pick from. My session saving tool recorded me at 548 the other day.

#128gbRAM