Mastodawn

John (@jrysana)

Cerebras 추론 성능이 과거에는 Groq보다 2~5배 빨랐고, NVIDIA Blackwell이 최신 세대 기준 GPU-LPU 성능 격차를 상당 부분 좁혔다는 비교 의견입니다. 다만 차세대 Groq 칩 성능은 아직 지켜봐야 한다는 뉘앙스입니다.

https://x.com/jrysana/status/2055222018618819031

#cerebras #groq #nvidia #blackwell #inference

John (@jrysana) on X

@Scobleizer @GroqInc Maybe not when you consider that Cerebras inference has historically been ~2-5x faster than Groq, and NVIDIA Blackwell closed most of the GPU-LPU gap as of the last available generation of LPU inference. But who knows... Maybe the next gen Groq chips are phenomenal.

X (formerly Twitter)

Yonhap Infomax News 4d ago

Wells Fargo raises Nvidia price target to $315 from $265, maintaining Overweight rating, citing continued computing demand exceeding supply and projecting AI pipeline to surpass $1 trillion by 2027, while arguing stock remains undervalued at less than 20x 2027 consensus earnings despite 18% year-to-date gain
#YonhapInfomax #Nvidia #WellsFargo #PriceTarget #Blackwell #AiInfrastructure #Economics #FinancialMarkets #Banking #Securities #Bonds #StockMarket
https://en.infomaxai.com/news/articleView.html?idxno=120223

sayzard 4d ago

Perplexity (@perplexity_ai)

NVIDIA가 대규모 모델 추론용 인프라에서 GB200/Blackwell 기반 최적화 성과를 소개했다. prefill/decode 분리, Blackwell 네이티브 양자화, 커스텀 커널, 랙 스케일 NVLink를 통해 더 빠른 응답과 낮은 서빙 비용을 구현한다고 밝혔다.

https://x.com/perplexity_ai/status/2054204437535834369

#nvidia #blackwell #inference #gpu #llm

Perplexity (@perplexity_ai) on X

This NVIDIA remains the strongest platform for large-model inference at scale. Prefill/decode disaggregation, Blackwell-native quantization, custom kernels, and rack-scale NVLink turn GB200 into faster answers lower serving cost. Read the full paper here

X (formerly Twitter)

sayzard 4d ago

Perplexity (@perplexity_ai)

Qwen3 235B 후학습 모델을 NVIDIA GB200 NVL72 Blackwell 랙에서 서빙하는 방법에 대한 새로운 연구를 공개했다. GB200은 대규모 MoE 모델의 고처리량 추론에서 Hopper 대비 큰 성능 향상을 보이며, 학습뿐 아니라 추론 플랫폼으로서도 중요성이 강조됐다.

https://x.com/perplexity_ai/status/2054204402144350450

#qwen3 #nvidia #gb200 #blackwell #inference

Perplexity (@perplexity_ai) on X

We published new research on how we serve post-trained Qwen3 235B models on NVIDIA GB200 NVL72 Blackwell racks. GB200 is a major step up over Hopper for high-throughput inference on large MoE models, not just a training platform.

X (formerly Twitter)

SLIMBOOK (Official)5d ago

🎧 The sound of professional performance 🔊

We unbox the PNY RTX PRO 2000 with 16GB of VRAM and the efficiency of the new Blackwell architecture ⚡️

#pny #asmr #unboxing #rtxpro2000 #blackwell

Habr May 9

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.

https://habr.com/ru/articles/1033342/

#vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

Хабр

ServeTheHome May 4

We test the HP ZGX Nano G1n, a NVIDIA GB10-based 128GB small AI workstation with a fast Arm CPU, Blackwell GPU, and 200G networking#ARM #Blackwell #GB10 #Grace #hp #NVIDIA #Spark
HP ZGX Nano G1n Review The HP Take on the NVIDIA GB10

HP ZGX Nano G1n Review The HP Take on the NVIDIA GB10

We test the HP ZGX Nano G1n, a NVIDIA GB10-based 128GB small AI workstation with a fast Arm CPU, Blackwell GPU, and 200G networking

ServeTheHome

Habr May 4

Мы уткнулись в потолок. Почему видеокарты перестали быстро расти — и что с этим делать

H100 стоит $30 000 и потребляет 700 Вт. RTX 5090 — $2 000 (де-факто больше) и 575 Вт. Прирост производительности между поколениями сжался с 80% до 15–20%. Разбираемся, почему это структурная проблема и что индустрия делает, чтобы с ней жить.

https://habr.com/ru/articles/1031370/

#GPU #NVIDIA #закон_Мура #HBM #AI_инфраструктура #чиплеты #архитектура_GPU #LLM #H100 #Blackwell

Мы уткнулись в потолок. Почему видеокарты перестали быстро расти — и что с этим делать

О смерти закона Мура применительно к GPU, стене памяти, которую никто не хочет замечать, и архитектурах, которые пытаются с этим жить. H100 стоит $30 000 и потребляет 700 Вт. RTX 5090 — $2 000...

Хабр

ServeTheHome May 1

We review the Lenovo ThinkPad P16 Gen 3, a powerful Intel Arrow Lake-HX mobile workstation laptop with an NVIDIA RTX PRO 5000 Blackwell GPU#ArrowLake #Blackwell #laptops #Lenovo #ThinkPad #Thunderbolt #Thunderbolt5 #USB4 #USB4v2
Lenovo ThinkPad P16 Gen 3 Review Portably Powerful

Lenovo ThinkPad P16 Gen 3 Review Portably Powerful

We review the Lenovo ThinkPad P16 Gen 3, a powerful Intel Arrow Lake-HX mobile workstation laptop with an NVIDIA RTX PRO 5000 Blackwell GPU

ServeTheHome

ServeTheHome Apr 30

Catering to the small form factor PC market, Gigabyte has released a low-profile version of its GeForce RTX 5060 card. The RTX 5060 OC LP delivers all of the performance of a full-sized card, but in half the volume#Blackwell #geforce #Gigabyte #lowprofile #NVIDIA
Gigabyte GeForce RTX 5060 OC Low Profile 8G Mini-Review

Gigabyte GeForce RTX 5060 OC Low Profile 8G Mini-Review

ServeTheHome