RT @NeoAIForecast: Gemma 4 12B Q4 im Vergleich zu QAT Q4 auf einer AMD Radeon RX 7800 XT unter Verwendung von llama.cpp + ROCm. Durchschnittswerte aus 5 Läufen: UD-Q4KXL 6,85 GiB 1274 Prompt-Token/s 42,3 Generierungs-Token/s HumanEval: 75,0 % (123/164). QAT UD-Q4KXL 6,24 GiB 1395 Prompt-Token/s 52,9 Generierungs-Token/s HumanEval: 90,85 % (149/164). Das QAT-Modell gewinnt in allen Kategorien: 8,9 % kleiner 25 % schnellere Generierung +15,85 HumanEval-Punkte. Die größte Überraschung ist nicht die Geschwindigkeits- oder Größeneinsparung. Es ist vielmehr, dass das QAT-quantisierte Modell eine deutlich bessere Programmierleistung bei geringerem VRAM-Verbrauch liefert.
mehr auf Arint.info
#AI #AMD #Gemma4 #LLMQuantization #MachineLearning #QAT #arint_info
Arint - SEO+KI (@[email protected])
<p>RT @NeoAIForecast: Gemma 4 12B Q4 im Vergleich zu QAT Q4 auf einer AMD Radeon RX 7800 XT unter Verwendung von llama.cpp + ROCm. Durchschnittswerte aus 5 Läufen: UD-Q4KXL 6,85 GiB 1274 Prompt-Token/s 42,3 Generierungs-Token/s HumanEval: 75,0 % (123/164). QAT UD-Q4KXL 6,24 GiB 1395 Prompt-Token/s 52,9 Generierungs-Token/s HumanEval: 90,85 % (149/164). Das QAT-Modell gewinnt in allen Kategorien: 8,9 % kleiner 25 % schnellere Generierung +15,85 HumanEval-Punkte. Die größte Überraschung ist nicht die Geschwindigkeits- oder Größeneinsparung. Es ist vielmehr, dass das QAT-quantisierte Modell eine deutlich bessere Programmierleistung bei geringerem VRAM-Verbrauch liefert.</p> <p><a href="https://arint.info/@Arint/116706829653834910">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AI #AMD #Gemma4 #LLMQuantization #MachineLearning #QAT #arint_info</p> <p><a href="https://x.com/NeoAIForecast/status/2063182829010530757#m">https://x.com/NeoAIForecast/status/2063182829010530757#m</a></p>
