Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

#LLM #FP4 #NVFP4 #MXFP4 #Precision #AMD #NVIDIA

https://hgpu.org/?p=30661

Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

Quantization addresses the high resource demand for large language models (LLMs) by alleviating memory pressure and bandwidth congestion and providing significantly scaled compute power with a tole…

hgpu.org

So sánh quantization MXFP4 vs Q4_K_M/XL trên mô hình GLM-4.7-Flash:

📉 Kết quả bất ngờ: MXFP4 có chỉ số Perplexity (PPL) thấp hơn (~10.72) so với Q4_K_XL (~15.73), dù kích thước file nhỏ hơn (15.79 GiB so với 16.31 GiB).
🚀 Tốc độ: MXFP4 cho tốc độ xử lý nhanh hơn và tiết kiệm VRAM hơn.
🤔 Câu hỏi đặt ra: Liệu PPL thấp hơn có đồng nghĩa với việc cải thiện khả năng gọi công cụ (tool-calling) và lập trình?

#LLM #AI #Quantization #MXFP4 #MachineLearning #CongNghe #LocalLLM

https://www.reddit.com

reddit

Reddit is a network of communities where people can dive into their interests, hobbies and passions. There's a community for whatever you're interested in on Reddit.

Reddit

Một bài đăng ca ngợi mô hình AI Felladrin/gguf-MXFP4-gpt-oss-20b-Derestricted! Phiên bản "derestricted" của gpt-oss-20B này hoạt động cực kỳ hiệu quả với định dạng MXFP4. Nó có khả năng phân tích mã nguồn và làm "agent" rất tốt, thậm chí còn vượt trội hơn GPT-4o trong một số bài kiểm tra suy luận. Một "viên ngọc ẩn" trong thế giới AI!

#AI #LLM #GPT #OpenSource #MXFP4 #MachineLearning #TríTuệNhânTạo #MôHìnhNgônNgữLớn #MãNguồnMở #HọcMáy

https://www.reddit.com/r/LocalLLaMA/comments/1ptqjt7/post_o

"Khám phá mô hình MXFP4 Hybrid Dense mới: Tốc độ nhanh hơn, kích thước nhỏ hơn và độ chính xác gần như không mất mát. Các mô hình này được tối ưu hóa để giảm thiểu tổn thất độ chính xác và tăng tốc độ xử lý. #MXFP4 #HybridDense #AI #MachineLearning #TốcĐộ #ĐộChínhXác #MôHìnhTríTuệ #TríTuệNhânTạo"

https://www.reddit.com/r/LocalLLaMA/comments/1ozh8py/mxfp4_hybrid_dense_models_ready_to_share_near/

"Câu hỏi bất kỳ model nào khác ngoài GPT-oss dùng MXFP4 chưa? MXFP4 thường tốt: giảm chi phí, người dùng GPU yếu vẫn chạy 20B nhanh trên 5060 Ti. Còn Qwen cần quant 30B-A3B Priti. Có 3 câu hỏi: model nào dùng MXFP4? Hạn chế do phần hard, pipeline haybird? Có thách thức nào? #MXFP4 #AI #TựhoáAicáchmôn #GPU"

https://www.reddit.com/r/LocalLLaMA/comments/1omz613/is_any_model_other_than_gptoss_training_with/

Bài viết bạn cần mô tả thông tin về-search reciprack pretraining NVFP4/MXFP4 trên GPU Blackwell. Có từ ectopic hơn một người hỏi về công thức hoàn chỉnh, trong khi tài liệu chính thức và blog hiện tại thiếu chi tiết. Tags: #AI #NVIDIA #MXFP4 #NVFP4 #BlackwellGPU #Pretraining #MachineLearning #Tech

https://www.reddit.com/r/LocalLLaMA/comments/1odhz2s/looking_for_a_working_nvfp4mxfp4_pretraining/

Dàn tensor với MoE, MXFP4 4 bits posibilität! 🌟 Noctrex chia sẻ mô hình-immun số chuẩn hóa trên HuggingFace – rất hiệu quả trong tiếtelay. Th suivants: https://huggingface.co/noctrex (hãy thử!).
#AI #MachineLearning #Quantization #MXFP4 #MoEModel #TinhHoaAI #MôHìnhTr ś/QuyDinh #PhépTinhTómTắt

https://www.reddit.com/r/LocalLLaMA/comments/1oav3r1/quantized_some_moe_models_with_mxfp4/

noctrex (noctrex)

User profile of noctrex on Hugging Face