Lúa.cpp đạt bước tiến lớn về hiệu năng trên cấu hình đa GPU: tăng tốc độ xử lý mô hình AI cục bộ lên 3–4 lần nhờ chế độ "split mode graph". Không chỉ mở rộng VRAM, giờ đây nhiều GPU giá rẻ có thể hoạt động song song tối đa hiệu suất. Tin vui cho dân tự triển khai AI tại nhà hay trên cloud mà không cần GPU đắt tiền!
#llama.cpp #AI #LocalLLM #Performance #GPU #ArtificialIntelligence #AIcucbo #Hiene #DaGPU

https://www.reddit.com/r/LocalLLaMA/comments/1q4s8t3/llamacpp_performance_breakthrough_for

Giải pháp tạm thời cho vấn đề VRAM bị unloading sau thời gian idle trên setup đa GPU sử dụng Vulkan runtime. Mã code giữ 1MB trên VRAM và giữ GPU "Awake" bằng cách ping every 1 giây. #VRAM #Vulkan #MultiGPU #GPU #Laptop #Computer #CôngNghệ #VramUnloading #ĐaGPU

https://www.reddit.com/r/LocalLLaMA/comments/1oo3pdz/workaround_for_vram_unloading_after_idle_period/

Định luật Amdahl giải thích tại sao setup đa GPU không tăng tốc LLM như mong đợi: phần công việc tuần tự (đồng bộ, giao tiếp PCIe) giới hạn hiệu năng. Dù 90% tính toán song song, 2 GPU chỉ tăng ~1.8x tốc độ. Một card VRAM lớn thường hiệu quả hơn nhiều card nhỏ. #LLM #GPU #AmdahlsLaw #AI #ViTinh #ĐaGPU #HiệuNăng

https://www.reddit.com/r/LocalLLaMA/comments/1nnjgis/amdahls_law_the_hidden_reason_multigpu_setups/