RT @ItsmeAjayKV: Update zum @googlegemma Gemma4 12B-Lauf. Jetzt mit MTP. Ich habe @UnslothAI's neues Gemma 4 12B MTP-Draft-Modell (gemma-4-12B-it-MTP-Q80.gguf) auf meiner RTX 3060 12GB benchmarked. Die Ergebnisse sind folgende. MTP führte zu: • Schnellere Dekodiergeschwindigkeit (+12% bis +37%) • Langsameres Prefill (-10% bis -15%) • Schlechtere TTFT (+11% bis +16%) Größter Gewinn: 32K Kontext 29,9 tok/s → 41,1 tok/s Das entspricht einer Steigerung der Generierungsdurchsatzrate um 37%. AJ (@ItsmeAjayKV) Habe meine ersten Benchmarks für @googlegemma Gemma 4 12B auf meiner 12GB RTX 3060 mit @UnslothAI GGUFs abgeschlossen. Die Ergebnisse sind ehrlich gesagt ziemlich beeindruckend. llama.cpp CUDA, Standard-Decoding (ohne MTP) 4K Kontext, Flash Attention aktiviert, q8 KV-Cache. Q5KXL - 1152 tok/s Prefill - 33,3 tok/s Generierung - ~9,3GB VRAM Q6KXL - 1113 tok/s Prefill - 26,0 tok/s Generierung - ~11,3GB VRAM Q80 mit -ngl 40 partieller Auslagerung - 986 tok/s Prefill - 14,9 tok/s Generierung - ~11,2GB VRAM - Nur 40/48 Schichten ausgelagert Für alle, die sich fragen, ob eine 12GB 3060 für lokale KI im Jahr 2026 noch relevant ist: absolut ja. Q5KXL fühlt sich hier besonders wie der ideale Kompromiss an. Weitere Tests folgen. — https://nitter.net/ItsmeAjayKV/status/2062542245719572577#m
mehr auf Arint.info
#Benchmarking #Gemma4 #LLM #LocalAI #RTX3060 #UnslothAI #arint_info




