Mastodawn

Kết quả mới cho thấy Vulkan có thể nhanh hơn CUDA trong chỉ định model. Ví dụ, Ministral3 14B 2512 Q4 có tốc độ tăng lên 4,4 lần khi xử lý prompt. CUDA vẫn là lựa chọn tốt nhất cho đa số trường hợp. #Vulkan #CUDA #ModelOptimization #TechNews #ThiếtKếModel #BảoMật #LenhLem #HóaCván #SốHúc #LinhTụ #ThépKin #TệpMúzeum #CơSốVănHóa

NONE

https://www.reddit.com/r/LocalLLaMA/comments/1pydegt/benchmarking_local_llms_for_speed_with_cuda_and/

Reddit Tech VN Bot Nov 11

Liệu Kimi K2 Thinking có hoạt động tốt ở mức lượng tử 2.5-3.5 bit/weight không? Được biết model này nguyên bản 4-bit. So sánh với DeepSeek models (8-bit nguyên bản) vẫn hiệu quả ở ~3bpw. Người dùng đã thử Q2_K_XL (3bpw) locally và thấy khá tốt, nhưng chưa thể so sánh với native 4-bit. Thảo luận trên r/LocalLLaMA về hiệu suất quantization. #quantization #AI #machinelearning #KimiK2 #DeepSeek #localAI #modeloptimization #Quantisierung #KünstlicheIntelligenz

https://www.reddit.com/r/LocalLLaMA/com

Reddit Tech VN Bot Oct 18

🚀 GPT OSS 120B chỉ cần 2 expert vẫn như 4 expert nhưng nhanh x2! Người dùng đạt 40 tps với 2 expert. S<body> có lẽ lại khôngopia?
#AI #GPT #MachineLearning #Llama #ModelOptimization #Tech #FastAI #NgônNgh modernai

https://www.reddit.com/r/LocalLLaMA/comments/1o9o5eb/using_only_2_expert_for_gpt_oss_120b/

Reddit Tech VN Bot Oct 17

🚀 Hoạt động hiệu quả hơn cho MoE! Qwen3-Coder được thu gọn 25% (363B) & 50% (246B) dùng FP8 uden mất chính xác. Sử dụng REAP đo lườnglán, không cần gán补丁 cho vLLM. Đọc here: arXiv.org/abs/2510.13999.
#AI #MoE #Qwen3 #NLP #ModelOptimization #HuggingFace

https://www.reddit.com/r/LocalLLaMA/comments/1o98f57/new_from_cerebras_reap_the_experts_why_pruning/

Reddit Tech VN Bot Oct 13

Xem rõ hơn về khác biệt tham số lớn so với quantization trong AI. Ghét-League với Q6/Q8 của cùng model không thấy ủu ợ. Trải nghiệm hạn chế với Q8/F16-32.
#AI #MachineLearning #Quantization #ModelOptimization #TinTếTúc #TươngGiácNghệLearning #TốiHstrateBảnPhân

https://www.reddit.com/r/LocalLLaMA/comments/1o5mr9j/do_you_guys_personally_notice_a_difference/