Cá nhân mình dùng GLM 4.7 Flash (quantized Q6_K_XL) kết hợp Roo Code trên RTX 5090, hiệu năng rất ấn tượng: ~150 tok/s, xử lý refactor code mượt, ổn định hơn GPT-OSS 120b hay Devstral 24b. Cấu hình llama.cpp với context 48k, --ngl 99 tận dụng VRAM tối đa. Mô hình chạy tốt cho tác vụ agentic trong dự án web cá nhân. #LLM #GLM4_7 #RooCode #LocalLLM #AI #TríTuệNhânTạo #MôHìnhNgônNgữ #AIHobby

https://www.reddit.com/r/LocalLLaMA/comments/1qlnruw/personal_experience_with_glm_47_flash_q6_unsloth/