**Cách áp dụng Batching trong Llama.cpp? Tốc độ giảm theo LOL?** 🤔
@ClimateBoss chia sẻ trải nghiệm khi dùng lệnh `./llama-server --parallel 2 --cont-batching...` và gặp phải:
- Context bị giảm một nửa 😮
- 2 người dùng = 20% chậm hơn so với 1 người? 🤯
- Batching không hiệu quả như mong đợi?
NVIDIA nói tăng người dùng sẽ tăng tổng băng thông (throughput). Làm thế nào để tốc độ tăng lên? 🚀
#LlamaCPP #AI #Performance #Batching #MLOptimизация #ViệcLàmAI #TốcĐộ #Debug #NVIDIA #AIvn