Một người dùng thử cài đặt mô hình code cục bộ cho Cursor (chế độ agent) gặp nhiều khó khăn. Thử nghiệm với các phương pháp như Ollama, llama.cpp, MLX-MLX cho thấy hiệu suất không ổn định do độ trễ lớn (~30–60 giây) khi xử lý prompt token 15–20k. Dù MLX tối ưu GPU Apple, trải nghiệm còn thiếu mượt. Hiện tại, các mô hình cục bộ vẫn phù hợp cho chat offline hơn là coding với agent loop. #CursorAgentMode #LocalLLM #QwenModel #PhanMemTiepThe #CongNgheAI

https://www.reddit.com/r/LocalLLaMA/comments/