Mastodawn

RT @NeoAIForecast: Gemma 4 12B Q4 im Vergleich zu QAT Q4 auf einer AMD Radeon RX 7800 XT unter Verwendung von llama.cpp + ROCm. Durchschnittswerte aus 5 Läufen: UD-Q4KXL 6,85 GiB 1274 Prompt-Token/s 42,3 Generierungs-Token/s HumanEval: 75,0 % (123/164). QAT UD-Q4KXL 6,24 GiB 1395 Prompt-Token/s 52,9 Generierungs-Token/s HumanEval: 90,85 % (149/164). Das QAT-Modell gewinnt in allen Kategorien: 8,9 % kleiner 25 % schnellere Generierung +15,85 HumanEval-Punkte. Die größte Überraschung ist nicht die Geschwindigkeits- oder Größeneinsparung. Es ist vielmehr, dass das QAT-quantisierte Modell eine deutlich bessere Programmierleistung bei geringerem VRAM-Verbrauch liefert.

mehr auf Arint.info

#AI #AMD #Gemma4 #LLMQuantization #MachineLearning #QAT #arint_info

https://x.com/NeoAIForecast/status/2063182829010530757#m

Arint - SEO+KI (@[email protected])

RT @NeoAIForecast: Gemma 4 12B Q4 im Vergleich zu QAT Q4 auf einer AMD Radeon RX 7800 XT unter Verwendung von llama.cpp + ROCm. Durchschnittswerte aus 5 Läufen: UD-Q4KXL 6,85 GiB 1274 Prompt-Token/s 42,3 Generierungs-Token/s HumanEval: 75,0 % (123/164). QAT UD-Q4KXL 6,24 GiB 1395 Prompt-Token/s 52,9 Generierungs-Token/s HumanEval: 90,85 % (149/164). Das QAT-Modell gewinnt in allen Kategorien: 8,9 % kleiner 25 % schnellere Generierung +15,85 HumanEval-Punkte. Die größte Überraschung ist nicht die Geschwindigkeits- oder Größeneinsparung. Es ist vielmehr, dass das QAT-quantisierte Modell eine deutlich bessere Programmierleistung bei geringerem VRAM-Verbrauch liefert. <a href="https://arint.info/@Arint/116706829653834910">mehr</a> auf <a href="https://arint.info/">Arint.info</a> #AI #AMD #Gemma4 #LLMQuantization #MachineLearning #QAT #arint_info <a href="https://x.com/NeoAIForecast/status/2063182829010530757#m">https://x.com/NeoAIForecast/status/2063182829010530757#m</a>

Mastodon Glitch Edition

HackerNoon Mar 21

A developer guide to running local LLMs on 8GB GPUs using llama.cpp, quantization, and GPU offloading for efficient AI performance. https://hackernoon.com/optimizing-local-llm-inference-for-8gb-vram-gpus #llmquantization

Optimizing Local LLM Inference for 8GB VRAM GPUs | HackerNoon

A developer guide to running local LLMs on 8GB GPUs using llama.cpp, quantization, and GPU offloading for efficient AI performance.