Một người dùng đang tối ưu hóa hệ thống RAG cục bộ bằng cách chia tải giữa GPU 5090 (LLM) và 5070Ti (embedding), chuyển sang kiến trúc song song với vLLM hoặc llama.cpp để tăng tốc độ xử lý. Họ cũng cân nhắc nâng cấp lên Qwen 30B và thảo luận về việc dùng Docker để quản lý mô hình. Câu hỏi trọng tâm: phân bổ GPU có hợp lý? vLLM hay llama.cpp tốt hơn? Nên dùng mô hình coder thay vì instruct? #AILLM #GPUTips #RAG #LightRAG #Optimization #CôngNghệAI #ThếHệGPU

https://www.reddit.com/r/LocalLLaMA/co