⚡️ Tăng 90% PP/s nhưng TPS chỉ cải thiện 10–20% khi dùng 2 GPU (RTX Pro 6000 & 5090). Ai biết cách tối ưu giúp mình với? Đang chạy server AI để cung cấp dịch vụ nhanh! #AI #GPUOptimization #LlamaServer #MáyHọc #CôngNghệThôngTin

https://www.reddit.com/r/LocalLLaMA/comments/1qopgpp/llama_server_using_dual_gpus_pp_is_amazing_tps/

🔧 Đang chạy mô hình GLM‑4.7‑UD‑Q8_K_XL trên máy dual RTX 5090 + Threadripper Pro 32‑core. Khi dùng `llama-server` mặc định, tốc độ đạt ~9 token/s, CPU tải 51 %, GPU 6‑20 %. Thêm tùy chọn `--threads -1` khiến CPU gần 100 % nhưng tốc độ tụt xuống ~2.5 token/s. Nguyên nhân: chỉ định thread không giới hạn gây quá tải CPU, làm giảm hiệu suất đồng thời của GPU và giảm tốc độ sinh token.

#LLM #AI #GLM #LlamaServer #Performance #Công_nghệ #Mô_hình_AI #AIvietnam

https://www.reddit.com/r/LocalLLaMA/c