So sánh CUDA vs Vulkan trên RTX 3080: CUDA thường vượt trội, nhưng Vulkan gây bất ngờ với một số model khi offload 1 phần sang GPU.
- GLM4 9B Q6: PP nhanh hơn 2.2x, TG nhanh hơn 1.7x.
- Ministral3 14B Q4: PP nhanh hơn 4.4x, TG nhanh hơn 1.6x.
- Qwen3 8B Q6: PP nhanh hơn 1.5x.

#AI #LLM #CUDA #Vulkan #Benchmark #Thửnghiệm #Cardo #Vi xử lý #Côngnghệ

https://www.reddit.com/r/LocalLLaMA/comments/1pydegt/benchmarking_local_llms_for_speed_with_cuda_and/