Mastodawn

Cập nhật thử nghiệm mô hình MiniMax-M2 Q3_K_M với 4 GPU V100 32GB qua llama.cpp và NVLink. Khi dùng "--split-mode layer", tốc độ xử lý tăng từ 20 lên 38 tok/s so với "row", đạt 1683 tok/s khi khởi tạo. Tuy NVLink chưa tối ưu cho inference, nhưng combo V100 16GB SXM2 giá ~$100 + adapter ($50) vẫn đáng cân nhắc cho các dự án DIY. #AI #LLM #llamaCPP #NVLink #V100 #DOITech