NVIDA Introduces RTX Spark: An Arm SoC for Windows PCs
RT @mr_r0b0t: Hier ist ein sehr beliebtes Modell, das wirklich vom richtigen Einsatz Ihrer @NVIDIAAI Blackwell GPU/GB10 mit NVFP4 und dem @AlibabaQwen 3.6-27B nativen MTP profitiert. Dies wurde auf einer einzelnen GB10 ausgeführt. Vollständige Benchmark-Ergebnisse und Methoden finden Sie unten ⏬
mehr auf Arint.info
#Benchmarking #BlackwellGPU #GB10 #NVFP4 #NVIDIAAI #Qwen3 #arint_info
<p>RT @mr_r0b0t: Hier ist ein sehr beliebtes Modell, das wirklich vom richtigen Einsatz Ihrer @NVIDIAAI Blackwell GPU/GB10 mit NVFP4 und dem @AlibabaQwen 3.6-27B nativen MTP profitiert. Dies wurde auf einer einzelnen GB10 ausgeführt. Vollständige Benchmark-Ergebnisse und Methoden finden Sie unten ⏬</p> <p><a href="https://arint.info/@Arint/116606335699001813">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#Benchmarking #BlackwellGPU #GB10 #NVFP4 #NVIDIAAI #Qwen3 #arint_info</p> <p><a href="https://x.com/mr_r0b0t/status/2056953515092619474#m">https://x.com/mr_r0b0t/status/2056953515092619474#m</a></p>
DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан
NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.
https://habr.com/ru/articles/1033342/
#vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии

After nearly a decade, SPEC has released a new version of its industry-defining CPU benchmark, SPEC CPU 2026. We take a look at what's new, as well as the new benchmark's performance on a modern AMD, Intel, and NVIDIA CPU trio
DGX Spark: мониторинг unified memory, когда NVML и dcgm‑exporter молчат
Свежепоставленный мониторинг на DGX Spark. Открываю NVIDIA‑дашборд в Grafana — половина memory‑панелей пустые, прямые линии по нулю. Сначала кажется, что что‑то не настроил. Через полчаса доходит: это не у меня сломалось, это NVML на GB10 так работает. Это та область, где на GB10 половина стандартного observability‑стека просто не работает: NVML отдаёт [N/A] на memory.used и memory.total, dcgm‑exporter не ставится, nvtop в memory‑колонке показывает пустоту. В Grafana NVIDIA‑дашборды по умолчанию выглядят так, будто GPU вообще нет — и это не очевидно, потому что Grafana при отсутствии данных не кричит, а молча рисует ровную линию по нулю. Статья — про то, как я это место обошёл и что в итоге увидел в Grafana. Трёхуровневая схема: textfile collector для базовых метрик, per‑container attribution через docker top + nvidia-smi , и CLI‑фоллбэк на /proc/meminfo , который оказался полезен не только на Spark, но и на других Linux‑системах с единой памятью (unified memory) — AMD Strix Halo и подобные.
https://habr.com/ru/articles/1031904/
#dgx_spark #grafana #monitoring #nodeexporter #gb10 #arm64 #prometheus #observability
Как я собрал на DGX Spark приватный AI-сервер, и теперь рассказываю, что туда вошло
У меня на столе стоит небольшая золотистая коробочка размером чуть больше Mac mini. Внутри — приватный AI-сервер: чат с локальной 26B-моделью, поисковая индексация моих документов с GPU-парсингом, конструктор агентов в Dify, RAGFlow для тяжёлого парсинга PDF, мониторинг, бэкапы, опциональный кластер из двух машин по QSFP 200G. Тридцать контейнеров, пять минут на установку через sudo bash install.sh , ноль обращений к внешним API. Я делал это не как pet-project, а под себя — мне нужна была машина для работы с корпоративными документами, договорами и регламентами, которые ни при каких условиях нельзя отдавать в облачные ассистенты. Сборка получилась самостоятельным дистрибутивом — назвал его AGmind, выложил на GitHub под Apache 2.0. В статье разберу: — из чего собран стек и зачем там каждый компонент; — почему RAGFlow пришлось пересобрать с нуля и что я туда добавил; — как устроен кластер из двух Spark'ов; — пять конкретных грабель GB10, которые я ловил вечерами; — почему Claude Code за месяц превратил один из этих компонентов в работающий продукт, но при этом не заменил собственно программиста.