Sự cố llama-server: Mỗi yêu cầu mới làm giảm tốc độ token generation. Người dùng báo cáo TPS giảm dần (12 → 8 → 5.7) dù máy chủ RX 580 8GB không ngừng chạy ngay cả khi dừng xử lý. Cấu hình: VM Debian trên Proxmox. #llama_server #AI #GPU #TechnicalIssue #Sự_cố_OLLAMA #Kỹ_thuật_AI
https://www.reddit.com/r/LocalLLaMA/comments/1po8xiy/each_request_to_llamaserver_drops_token/



