RT @pupposandro: 2,5x schneller als llama.cpp auf Strix Halo. Wir haben gerade DFlash + PFlash für die AMD Ryzen AI MAX+ 395 iGPU (gfx1151, 128 GiB vereinheitlichter Speicher) veröffentlicht. Qwen3.6-27B Q4KM, durchgängig auf derselben Hardware: ▸ Dekodierung: 26,85 tok/s, 2,23x schneller (DFlash + DDTree, Budget 22) ▸ Prefill 16K: 20,2s, 3,05x schneller (PFlash) ▸ Gesamtzeit, 16K Prompt + 1K Generierung: 58s vs 147s ~100 GiB noch verfügbar im Speicher. 122B und 139B MoE-Klasse ist als Nächstes dran. Vielen Dank an @smpurkis0 für den Beitrag 🙏 Sandro (@pupposandro) x.com/i/article/205423642141… — https://nitter.net/pupposandro/status/2054241934164492328#m
mehr auf Arint.info
#AMD #iGPU #MachineLearning #Performance #Qwen #RyzenAI #arint_info



アスキー

