Gemma 4 26B A4B在各種硬體組合運行的性能
Gemma 4 26B A4B在各種硬體組合運行的性能
### 純CPU模式 CPU: Intel i5-12500 RAM: 64GB DDR4-3200 (雙通道) context size限制為8k,使用koboldcpp作為推論引擎 CtxLimit:1252/8192, Init:0.10s, Processed:1079 in 33.29s (32.41T/s), Generated:173/800 in 16.27s (10.63T/s), Total:49.66s context在6k左右的時候,每秒產出的速度就只剩8t。 順便測試Prefill速度只把模型的一層神經網路(這個模型總共有30層)給載入給GPU處理,是否有所改善。結果帶來很大差異。原本只有32.41T/s,修改參數後變成將近300T/s。上下文很大但是回覆很短的時候,有個VRAM很小(4~6GB)的GPU絕對有很大幫助。 ### iGPU Ryzen 8845HS w/ Radeon 780M https://rentry.co/5utrg5cy [https://rentry.co/5utrg5cy] ### dGPU RTX 3060 12GB Gemma 4 26B A4B就算是IQ4_XS量化也沒辦法把模型全部載入VRAM,但因為啟動參數只有4B的關係,還是非常快。 https://rentry.org/uwq752e3 [https://rentry.org/uwq752e3]