Một hệ thống 3 card Nvidia GTX-1070 8GB (24GB VRAM) sử dụng flag --n-cpu-moe để chạy mô hình LLM 32B tham số. Với AMD Ryzen 5 3600 và 32GB RAM, kết quả đạt 55.63 token/s (Gemma 27B) và 84.43 token/s (Qwen3 30B). Giải pháp này giúp tối ưu VRAM bằng cách offload trọng số MoE sang CPU. #GPU #AI #MôHìnhLLM #Benchmark #HackingVRAM
https://www.reddit.com/r/LocalLLaMA/comments/1py1xaa/triple_gpu_llm_benchmarks_with_ncpumoe_help/