RT @NeoAIForecast: Gemma 4 12B auf einer AMD Radeon RX 7800 XT mit llama.cpp ROCm/HIP benchmarked. Verglichen: Original Q4KXL, QAT Q4KXL, QAT Q4KXL + MTP Drafter. Leistung: Original: 1325 pp512, 44.2 tg128, 41.7 tok/s Server, QAT: 1413 pp512, 54.8 tg128, 52.4 tok/s Server, QAT + MTP: 1400 pp512, 54.8 tg128, 76.8 tok/s Server. Ich weiß nicht, warum das Original bei EVAL+ so niedrig abschnitt. Qualitätssteigerungen durch QAT: HumanEval: 75,0% → 91,5%, HumanEval+: 24,4% → 87,2%, MBPP+: 64,0% → 67,2%, IFEval Strict: 65,3% → 66,4%, GSM8K: 93,1% → 93,7%. QAT war das herausragende Ergebnis. Schnellere Generierung, deutlich bessere Coding-Leistung und keine signifikanten Einbußen an anderer Stelle. MTP steigerte dann den Server-Durchsatz weiter auf 76,8 tok/s, ohne die Benchmark-Qualität in diesem Durchlauf zu beeinträchtigen.

mehr auf Arint.info

#AMD #Benchmarking #Gemma4 #LLM #MachineLearning #QAT #arint_info

https://x.com/NeoAIForecast/status/2064092299148374454#m

Arint - SEO+KI (@[email protected])

<p>RT @NeoAIForecast: Gemma 4 12B auf einer AMD Radeon RX 7800 XT mit llama.cpp ROCm/HIP benchmarked. Verglichen: Original Q4KXL, QAT Q4KXL, QAT Q4KXL + MTP Drafter. Leistung: Original: 1325 pp512, 44.2 tg128, 41.7 tok/s Server, QAT: 1413 pp512, 54.8 tg128, 52.4 tok/s Server, QAT + MTP: 1400 pp512, 54.8 tg128, 76.8 tok/s Server. Ich weiß nicht, warum das Original bei EVAL+ so niedrig abschnitt. Qualitätssteigerungen durch QAT: HumanEval: 75,0% → 91,5%, HumanEval+: 24,4% → 87,2%, MBPP+: 64,0% → 67,2%, IFEval Strict: 65,3% → 66,4%, GSM8K: 93,1% → 93,7%. QAT war das herausragende Ergebnis. Schnellere Generierung, deutlich bessere Coding-Leistung und keine signifikanten Einbußen an anderer Stelle. MTP steigerte dann den Server-Durchsatz weiter auf 76,8 tok/s, ohne die Benchmark-Qualität in diesem Durchlauf zu beeinträchtigen.</p> <p><a href="https://arint.info/@Arint/116718161743887556">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AMD #Benchmarking #Gemma4 #LLM #MachineLearning #QAT #arint_info</p> <p><a href="https://x.com/NeoAIForecast/status/2064092299148374454#m">https://x.com/NeoAIForecast/status/2064092299148374454#m</a></p>

Mastodon Glitch Edition

RT @NeoAIForecast: Gemma 4 12B Q4 im Vergleich zu QAT Q4 auf einer AMD Radeon RX 7800 XT unter Verwendung von llama.cpp + ROCm. Der Durchschnittswert aus 5 Läufen zeigt für UD-Q4KXL: 6,85 GiB VRAM, 1274 Prompt-Token/s, 42,3 generierte Token/s und 75,0 % (123/164) bei HumanEval. Für QAT UD-Q4KXL: 6,24 GiB VRAM, 1395 Prompt-Token/s, 52,9 generierte Token/s und 90,85 % (149/164) bei HumanEval. Das QAT-Modell gewinnt in allen Kategorien: 8,9 % kleiner, 25 % schnellere Generierung und +15,85 Punkte bei HumanEval. Die größte Überraschung ist nicht die Geschwindigkeits- oder Größeneinsparung, sondern dass das QAT-quantisierte Modell bei geringerem VRAM-Verbrauch eine deutlich bessere Leistung bei Programmieraufgaben liefert.

mehr auf Arint.info

#AMD #Gemma4 #llamacpp #QAT #Quantisierung #ROCm #arint_info

https://x.com/NeoAIForecast/status/2063182829010530757#m

Arint - SEO+KI (@[email protected])

<p>RT @NeoAIForecast: Gemma 4 12B Q4 im Vergleich zu QAT Q4 auf einer AMD Radeon RX 7800 XT unter Verwendung von llama.cpp + ROCm. Der Durchschnittswert aus 5 Läufen zeigt für UD-Q4KXL: 6,85 GiB VRAM, 1274 Prompt-Token/s, 42,3 generierte Token/s und 75,0 % (123/164) bei HumanEval. Für QAT UD-Q4KXL: 6,24 GiB VRAM, 1395 Prompt-Token/s, 52,9 generierte Token/s und 90,85 % (149/164) bei HumanEval. Das QAT-Modell gewinnt in allen Kategorien: 8,9 % kleiner, 25 % schnellere Generierung und +15,85 Punkte bei HumanEval. Die größte Überraschung ist nicht die Geschwindigkeits- oder Größeneinsparung, sondern dass das QAT-quantisierte Modell bei geringerem VRAM-Verbrauch eine deutlich bessere Leistung bei Programmieraufgaben liefert.</p> <p><a href="https://arint.info/@Arint/116715326467310599">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AMD #Gemma4 #llamacpp #QAT #Quantisierung #ROCm #arint_info</p> <p><a href="https://x.com/NeoAIForecast/status/2063182829010530757#m">https://x.com/NeoAIForecast/status/2063182829010530757#m</a></p>

Mastodon Glitch Edition

For the next six weeks or so, @notcontrary ‬⁩& I are playing #flagwatch again, this time for #WorldCup2026.

Feel free to join us, or to mute the hashtag.

The game runs from local midnight where you are on the day the first game starts, to the end of the day of the final whistle of the last game. In most places that’s midnight Thursday 11th June to just before midnight on Monday 20th July.

Compete by tooting a fresh picture of a competing nation’s flag with #flagwatch & their country-code hashtag:

A: #MEX #RSA #KOR #CZE
B: #CAN #BIH #QAT #SUI
C: #BRA #MAR #HAI #SCO
D: #USA #PAR #AUS #TUR
E: #GER #CUW #CIV #ECU
F: #NED #JPN #SWE #TUN
G: #BEL #EGY #IRN #NZL
H: #ESP #CPV #KSA #URU
I: #FRA #SEN #IRQ #NOR
J: #ARG #ALG #AUT #JOR
K: #POR #COD #UZB #COL
L: #ENG #CRO #GHA #PAN

RT @googlegemma: Wir haben die Gemma 4 Quantization-Aware Training (QAT)-Checkpoints auf Hugging Face veröffentlicht!

mehr auf Arint.info

#AI #Gemma4 #HuggingFace #MachineLearning #OnDevice #QAT #arint_info

https://x.com/googlegemma/status/2062928831229665566#m

Arint - SEO+KI (@[email protected])

<p>RT @googlegemma: Wir haben die Gemma 4 Quantization-Aware Training (QAT)-Checkpoints auf Hugging Face veröffentlicht!</p> <p><a href="https://arint.info/@Arint/116713909746955875">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AI #Gemma4 #HuggingFace #MachineLearning #OnDevice #QAT #arint_info</p> <p><a href="https://x.com/googlegemma/status/2062928831229665566#m">https://x.com/googlegemma/status/2062928831229665566#m</a></p>

Mastodon Glitch Edition

#localai #speed vergleich #tokens

in #lmstudio auf #macstudio #m4max #128gbram

#llms
google/gemma-4-26b-a4b(q8) = 76 token/s
google/gemma-4-26b-a4b-qat(q4) = 106 token/s

+39% speed

und laut google soll die quantisierung bei #qat keine einfluss haben:
Gemma 4 26B A4B QAT is the Quantization-Aware Training version of Gemma 4 26B A4B. It aims to keep quality close to bfloat16 while using much less memory to load the model.

bei 11gb weniger #ram belegung

natürlich mit vorsicht zu genießen - bei problemen schreib ich noch was dazu

wenn jetzt das kleine modell was könnte - das wäre der durchbruch bei lokalen llms - imaging jeder mit 16gb ram könnte so was selbst laufen lassen 😍 okay #macneo user lassen wir dann zurück :-P

RT @NeoAIForecast: Gemma 4 12B Q4 im Vergleich zu QAT Q4 auf einer AMD Radeon RX 7800 XT unter Verwendung von llama.cpp + ROCm. Durchschnittswerte aus 5 Läufen: UD-Q4KXL 6,85 GiB 1274 Prompt-Token/s 42,3 Generierungs-Token/s HumanEval: 75,0 % (123/164). QAT UD-Q4KXL 6,24 GiB 1395 Prompt-Token/s 52,9 Generierungs-Token/s HumanEval: 90,85 % (149/164). Das QAT-Modell gewinnt in allen Kategorien: 8,9 % kleiner 25 % schnellere Generierung +15,85 HumanEval-Punkte. Die größte Überraschung ist nicht die Geschwindigkeits- oder Größeneinsparung. Es ist vielmehr, dass das QAT-quantisierte Modell eine deutlich bessere Programmierleistung bei geringerem VRAM-Verbrauch liefert.

mehr auf Arint.info

#AI #AMD #Gemma4 #LLMQuantization #MachineLearning #QAT #arint_info

https://x.com/NeoAIForecast/status/2063182829010530757#m

Arint - SEO+KI (@[email protected])

<p>RT @NeoAIForecast: Gemma 4 12B Q4 im Vergleich zu QAT Q4 auf einer AMD Radeon RX 7800 XT unter Verwendung von llama.cpp + ROCm. Durchschnittswerte aus 5 Läufen: UD-Q4KXL 6,85 GiB 1274 Prompt-Token/s 42,3 Generierungs-Token/s HumanEval: 75,0 % (123/164). QAT UD-Q4KXL 6,24 GiB 1395 Prompt-Token/s 52,9 Generierungs-Token/s HumanEval: 90,85 % (149/164). Das QAT-Modell gewinnt in allen Kategorien: 8,9 % kleiner 25 % schnellere Generierung +15,85 HumanEval-Punkte. Die größte Überraschung ist nicht die Geschwindigkeits- oder Größeneinsparung. Es ist vielmehr, dass das QAT-quantisierte Modell eine deutlich bessere Programmierleistung bei geringerem VRAM-Verbrauch liefert.</p> <p><a href="https://arint.info/@Arint/116706829653834910">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AI #AMD #Gemma4 #LLMQuantization #MachineLearning #QAT #arint_info</p> <p><a href="https://x.com/NeoAIForecast/status/2063182829010530757#m">https://x.com/NeoAIForecast/status/2063182829010530757#m</a></p>

Mastodon Glitch Edition

RT @googlegemma: Wir haben gerade die Gemma 4 Checkpoints für quantisierungsawaretes Training (QAT) auf Hugging Face veröffentlicht!

mehr auf Arint.info

#AI #Gemma4 #HuggingFace #MachineLearning #QAT #Quantization #arint_info

https://x.com/googlegemma/status/2062928831229665566#m

Arint - SEO+KI (@[email protected])

<p>RT @googlegemma: Wir haben gerade die Gemma 4 Checkpoints für quantisierungsawaretes Training (QAT) auf Hugging Face veröffentlicht!</p> <p><a href="https://arint.info/@Arint/116702587191694918">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AI #Gemma4 #HuggingFace #MachineLearning #QAT #Quantization #arint_info</p> <p><a href="https://x.com/googlegemma/status/2062928831229665566#m">https://x.com/googlegemma/status/2062928831229665566#m</a></p>

Mastodon Glitch Edition
Gemma 4 QAT is here - now I’m waiting for Ollama TurboQuant so the full stack is ready: QAT, MoE, sparse-active models, smarter attention, and MTP speculative decoding. #Gemma4 #Ollama #TurboQuant #QAT #MoE #MTP #LocalAI
Gemma 4 QAT is here - now I’m waiting for Ollama TurboQuant so the full stack is ready: QAT, MoE, sparse-active models, smarter attention, and MTP speculative decoding. #Gemma4 #Ollama #TurboQuant #QAT #MoE #MTP #LocalAI
Arint - SEO+KI (@[email protected])

<p>RT @lmstudio: Gemma 4 QAT ist da.</p> <p><a href="https://arint.info/@Arint/116701186654493835">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#Gemma4 #KI #LMStudio #MachineLearning #QAT #Quantization #arint_info</p> <p><a href="https://x.com/lmstudio/status/2062939126417240154#m">https://x.com/lmstudio/status/2062939126417240154#m</a></p>

Mastodon Glitch Edition