Mastodawn

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.

https://habr.com/ru/articles/1033342/

#vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

Хабр

Donweb Media Apr 27

NVIDIA Blackwell: 3.500 tokens/seg con DeepSeek V4

NVIDIA lanzó soporte Day-0 para DeepSeek V4 en Blackwell con NVFP4: 3.500 tokens/seg, 73% menos FLOPs y modelos de hasta 1,6T parámetros. Todo lo que ne...

https://blog.donweb.com/nvidia-blackwell-deepseek-v4-tokens-nvfp4/

#nvidiablackwell #deepseekv4 #nvfp4 #inferenciallm #modelosdelenguaje

NVIDIA Blackwell DeepSeek V4: 3.500 tokens/seg

NVIDIA lanzó soporte Day-0 para DeepSeek V4 en Blackwell con NVFP4: 3.500 tokens/seg, 73% menos FLOPs y modelos de hasta 1,6T parámetros. Todo lo que ne...

Blog Donweb

sayzard Apr 2

Ollama가 Apple의 ML 프레임워크 MLX 기반으로 Apple Silicon(M5/M5 Pro/M5 Max)에서 미리보기로 가속됩니다. Qwen3.5-35B-A3B에서 prefill·decode 속도 크게 향상되고 NVFP4 양자화로 생산 환경과 동등한 품질 유지가 가능해졌습니다. 캐시 재사용·스마트 체크포인트·스마트 삭제로 응답성·메모리 효율 개선. Ollama 0.19 공개(통합메모리 32GB 권장).

https://ollama.com/blog/mlx

#applesilicon #mlx #nvfp4 #localllm #performance

Ollama is now powered by MLX on Apple Silicon in preview · Ollama Blog

Today, we're previewing the fastest way to run Ollama on Apple silicon, powered by MLX, Apple's machine learning framework.

HGPU group Mar 15

Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

#LLM #FP4 #NVFP4 #MXFP4 #Precision #AMD #NVIDIA

https://hgpu.org/?p=30661

Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

Quantization addresses the high resource demand for large language models (LLMs) by alleviating memory pressure and bandwidth congestion and providing significantly scaled compute power with a tole…

hgpu.org

AI Sparkup Feb 17

AI 모델 실행 비용 절반으로, Dropbox가 설명하는 Low-bit 추론 최적화

AI 모델 실행 비용을 절반으로 줄이는 Low-bit 추론 기술. Dropbox가 설명하는 양자화 기법과 MXFP 포맷의 실무 적용 사례를 소개합니다.

https://aisparkup.com/posts/9287

sayzard Feb 15

AISatoshi (@AiXsatoshi)

CUDA13.0으로 업그레이드했더니 NVFP4 단일 추론(single inference)에서 5~10%의 속도 개선을 관찰했다고 보고함 — CUDA 버전 업그레이드로 인한 실질적 추론 속도 향상 사례.

https://x.com/AiXsatoshi/status/2023036717926936656

#cuda13 #nvfp4 #inference #gpu

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

CUDA13.0にしたら、NVFP4 single inferenceで5-10%の速度改善

X (formerly Twitter)

sayzard Feb 15

AISatoshi (@AiXsatoshi)

Minimax-m2.5-NVFP4 모델을 vllm에서 CUDA12.8로 구동한 성능 보고: NVFP4에서 84.5 tok/s, AWQ에서 109.6 tok/s를 기록. 작성자는 CUDA13이 FP4 최적화가 더 잘 된 것 같아 업그레이드를 고려 중이라고 언급함 — GPU/CUDA 버전이 양자화 성능에 미치는 영향에 대한 실사용 벤치마크 정보.

https://x.com/AiXsatoshi/status/2023016702318129524

#minimax #vllm #cuda #nvfp4

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

Minimax-m2.5-NVFP4 vllm CUDA12.8 84.5 tok/s@NVFP4、109.6 tok/s@AWQ CUDA13のほうがFP4最適化されてる？アップグレードしてみる

X (formerly Twitter)

AI Daily Post Feb 6

🚀 NVIDIA’s new NVFP4 training recipe slashes AI model training time and cost, powering Blackwell Ultra GPUs to set new MLPerf Training records on large language models like Llama 3.1. Discover how GPU acceleration is reshaping open‑source AI development. #NVFP4 #BlackwellUltra #MLPerf #Llama3_1

🔗 https://aidailypost.com/news/nvidias-nvfp4-training-recipe-boosts-ai-speed-cuts-costs

Reddit Tech VN Bot Jan 26

Thử nghiệm hiệu năng NVFP4 trên NVIDIA DGX Spark đang gặp vấn đề về tốc độ. Người dùng báo cáo rằng khi chạy mô hình Llama-4-Scout-17B-NVFP4, tốc độ chỉ đạt 15-20 T/s, thấp hơn nhiều so với kỳ vọng dù đã sử dụng image Docker tối ưu (avarok/vllm-dgx-spark:v14).

Nghi vấn đặt ra là vLLM hiện tại chưa hỗ trợ tốt native NVFP4 dẫn đến nghẽn cổ chai. Cộng đồng đang tìm kiếm các giải pháp hoặc Docker image chuyên dụng để tối ưu hóa inference cho định dạng này trên DGX Spark.

#NVIDIA #DGXSpark #NVFP4 #

sayzard Jan 6

Awni Hannun (@awnihannun)

2026년 첫 mlx-lm 릴리스를 발표했습니다. pip로 mlx-lm을 업그레이드하면 다수의 신규 모델이 추가되고 mlx_lm.server의 도구 호출 및 추론 지원이 크게 개선되며, mxfp8 및 nvfp4 양자화 형식 지원이 포함됩니다(사전 릴리스 mlx 필요). 기여자로 kernelpool, John Mai가 언급됩니다.

https://x.com/awnihannun/status/2008342409386618882

#mlxlm #quantization #mxfp8 #nvfp4 #llm

Awni Hannun (@awnihannun) on X

First release of mlx-lm in 2026 is packed: pip install -U mlx-lm - Bunch of new models (h/t @kernelpool, @JohnMai_Dev) - Much better support for tool calling and reasoning in mlx_lm.server - Support for mxfp8 and nvfp4 quantization (require pre-release mlx)

X (formerly Twitter)