Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

#LLM #FP4 #NVFP4 #MXFP4 #Precision #AMD #NVIDIA

https://hgpu.org/?p=30661

Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

Quantization addresses the high resource demand for large language models (LLMs) by alleviating memory pressure and bandwidth congestion and providing significantly scaled compute power with a tole…

hgpu.org

AI 모델 실행 비용 절반으로, Dropbox가 설명하는 Low-bit 추론 최적화

AI 모델 실행 비용을 절반으로 줄이는 Low-bit 추론 기술. Dropbox가 설명하는 양자화 기법과 MXFP 포맷의 실무 적용 사례를 소개합니다.

https://aisparkup.com/posts/9287

AISatoshi (@AiXsatoshi)

CUDA13.0으로 업그레이드했더니 NVFP4 단일 추론(single inference)에서 5~10%의 속도 개선을 관찰했다고 보고함 — CUDA 버전 업그레이드로 인한 실질적 추론 속도 향상 사례.

https://x.com/AiXsatoshi/status/2023036717926936656

#cuda13 #nvfp4 #inference #gpu

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

CUDA13.0にしたら、NVFP4 single inferenceで5-10%の速度改善

X (formerly Twitter)

AISatoshi (@AiXsatoshi)

Minimax-m2.5-NVFP4 모델을 vllm에서 CUDA12.8로 구동한 성능 보고: NVFP4에서 84.5 tok/s, AWQ에서 109.6 tok/s를 기록. 작성자는 CUDA13이 FP4 최적화가 더 잘 된 것 같아 업그레이드를 고려 중이라고 언급함 — GPU/CUDA 버전이 양자화 성능에 미치는 영향에 대한 실사용 벤치마크 정보.

https://x.com/AiXsatoshi/status/2023016702318129524

#minimax #vllm #cuda #nvfp4

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

Minimax-m2.5-NVFP4 vllm CUDA12.8 84.5 tok/s@NVFP4、109.6 tok/s@AWQ CUDA13のほうがFP4最適化されてる? アップグレードしてみる

X (formerly Twitter)

🚀 NVIDIA’s new NVFP4 training recipe slashes AI model training time and cost, powering Blackwell Ultra GPUs to set new MLPerf Training records on large language models like Llama 3.1. Discover how GPU acceleration is reshaping open‑source AI development. #NVFP4 #BlackwellUltra #MLPerf #Llama3_1

🔗 https://aidailypost.com/news/nvidias-nvfp4-training-recipe-boosts-ai-speed-cuts-costs

Thử nghiệm hiệu năng NVFP4 trên NVIDIA DGX Spark đang gặp vấn đề về tốc độ. Người dùng báo cáo rằng khi chạy mô hình Llama-4-Scout-17B-NVFP4, tốc độ chỉ đạt 15-20 T/s, thấp hơn nhiều so với kỳ vọng dù đã sử dụng image Docker tối ưu (avarok/vllm-dgx-spark:v14).

Nghi vấn đặt ra là vLLM hiện tại chưa hỗ trợ tốt native NVFP4 dẫn đến nghẽn cổ chai. Cộng đồng đang tìm kiếm các giải pháp hoặc Docker image chuyên dụng để tối ưu hóa inference cho định dạng này trên DGX Spark.

#NVIDIA #DGXSpark #NVFP4 #

Awni Hannun (@awnihannun)

2026년 첫 mlx-lm 릴리스를 발표했습니다. pip로 mlx-lm을 업그레이드하면 다수의 신규 모델이 추가되고 mlx_lm.server의 도구 호출 및 추론 지원이 크게 개선되며, mxfp8 및 nvfp4 양자화 형식 지원이 포함됩니다(사전 릴리스 mlx 필요). 기여자로 kernelpool, John Mai가 언급됩니다.

https://x.com/awnihannun/status/2008342409386618882

#mlxlm #quantization #mxfp8 #nvfp4 #llm

Awni Hannun (@awnihannun) on X

First release of mlx-lm in 2026 is packed: pip install -U mlx-lm - Bunch of new models (h/t @kernelpool, @JohnMai_Dev) - Much better support for tool calling and reasoning in mlx_lm.server - Support for mxfp8 and nvfp4 quantization (require pre-release mlx)

X (formerly Twitter)

Awni Hannun (@awnihannun)

mlx-lm의 2026년 첫 정식 릴리스가 공개되었습니다. 다수의 신규 모델 추가, mlx_lm.server에서 툴 호출과 추론(reasoning) 지원 대폭 개선, mxfp8 및 nvfp4 양자화 지원 등 주요 기능이 포함되어 있으며 nvfp4/mxfp8 지원은 사전 릴리스 mlx가 필요합니다. (기여자: @kernelpool, @JohnMai_Dev)

https://x.com/awnihannun/status/2008342409386618882

#mlxlm #quantization #mxfp8 #nvfp4 #tooling

Awni Hannun (@awnihannun) on X

First release of mlx-lm in 2026 is packed: pip install -U mlx-lm - Bunch of new models (h/t @kernelpool, @JohnMai_Dev) - Much better support for tool calling and reasoning in mlx_lm.server - Support for mxfp8 and nvfp4 quantization (require pre-release mlx)

X (formerly Twitter)

Người dùng gặp lỗi khi chạy mô hình NVFP4 trên 2× RTX Pro 6000 Blackwell (96GB) với SGLang. Cần cưỡng bức quantization `modelopt_fp4` để khởi động thành công. Cảm báo DeepGemm & FP8-KV có thể ảnh hưởng độ chính xác. Cả 2 GPU hoạt động 100% ngay cả khi rỗi. VRAM sử dụng ~87–88GB. #GPU #AI #Blackwell #NVFP4 #SGLang #VấnNạnAI

https://www.reddit.com/r/LocalLLaMA/comments/1puzsm5/2_rtx_pro_6000_blackwell_96gb_sglang_nvfp4_loads/

VLLM v0.12.0 đã ra mắt, hỗ trợ NVFP4 cho GPU SM120 (RTX 50xx, RTX PRO 6000 Blackwell)! Điều này giúp tăng tốc hiệu suất suy luận cho các mô hình ngôn ngữ lớn (LLM) trên phần cứng NVIDIA mới nhất. Nhiều cải tiến lượng tử hóa khác cũng được bổ sung.
#VLLM #NVFP4 #SM120 #Blackwell #RTX50xx #LLM #AI #DeepLearning #Quantization #CôngNghệ

https://www.reddit.com/r/LocalLLaMA/comments/1pe4xm4/vllm_v0120_supports_nvfp4_for_sm120_rtx_50xx_and/