Benchmark hiệu năng mô hình DeepSeek 671B trên 8 x RTX PRO 6000S sử dụng llama.cpp (layer split mode). Ở định dạng Q4_K_M, tốc độ đạt ~1015 t/s (prefill) và 40.74 t/s (generation). Với Q8_0, tốc độ cao hơn nhưng chiếm nhiều VRAM (~664GB). Hiệu suất thay đổi theo độ dài context (4k–64k). Dữ liệu hỗ trợ lựa chọn cấu hình phù hợp cho LLAMA cục bộ. #DeepSeek #llama.cpp #AI #HPC #DeepSeek671B #MôHìnhLớn #AIInference #DeepSeek #llama.cpp #AI #HighPerformanceComputing #LargeModels #AIInference

https:/