left curve dev (@leftcurvedev_)
멀티 GPU 사용 시 vLLM으로 전환하라는 언급이 있습니다. vLLM의 멀티 GPU 지원 상태를 확인하며, 대규모 추론 최적화나 서빙 도구로서의 활용 가능성을 시사하는 내용입니다.
left curve dev (@leftcurvedev_)
멀티 GPU 사용 시 vLLM으로 전환하라는 언급이 있습니다. vLLM의 멀티 GPU 지원 상태를 확인하며, 대규모 추론 최적화나 서빙 도구로서의 활용 가능성을 시사하는 내용입니다.
RT @SpaceTimeViking: Wir haben die Geschwindigkeit des DGX Spark beim Ausführen des Qwen3.6-27B Dense-Modells erfolgreich um ~300% gesteigert! Dies wird erreicht, indem die Hardwarekapazitäten durch eine Reihe von Patches und benutzerdefinierten Flags maximiert werden sowie durch den Einsatz von DFlash zur Parallelisierung von Berechnungen mit Block-Decoding! ÆON FORGE ✨ (@SpaceTimeViking) 🚀 Qwen3.6-27B AEON Ultimate DFlash v4 ist für DGX Spark / GB10 verfügbar. Der neue Container wurde nun auf GHCR veröffentlicht: ghcr.io/aeon-7/vllm-aeon-ult… Diese Veröffentlichung dreht sich darum, lokale Intelligenz im großen Maßstab nutzbar zu machen: ✅ Nachhaltige Langkontext-Intelligenz Entwickelt für 256K-Kontext-Agent-Workflows mit Prefix-Caching und Qwen3.6-Hybridzustands-Unterstützung. ✅ Schnelleres Decoding dort, wo es zählt DFlash-spezifisches Decoding bleibt aktiv mit k=15 und bietet eine deutlich stärkere interaktive Leistung als das Standard-eager vLLM. ✅ Höhere DFlash-Korrektheit + Akzeptanzpfad Enthält die neueste DFlash-Schiebefenster-Aufmerksamkeitskorrektur für Qwen3.6, sodass der Entwurf dem realen Hybrid-Aufmerksamkeitslayout des Modells folgt, anstatt jede Schicht wie eine vollständige Aufmerksamkeit zu behandeln. ✅ Echte Blackwell GB10-Optimierung Kompiliert für DGX Spark mit CUTLASS NVFP4, FlashInfer 0.6.11, CUDA-Graphen, FlashInfer-Sampler und aktivierten Tool-/Reasoning-Parsern. ✅ Drop-in OpenAI-kompatibles Serving Tool-Aufrufe, Reasoning-Trennung, Vision, Streaming und Langkontext-Agent-Gateway-Workflows werden alle out-of-the-box unterstützt. Von „es läuft“ zu „es erhält Intelligen…
mehr auf Arint.info
#AIEfficiency #DGXSpark #LocalAI #Qwen3 #TechInnovation #vLLM #arint_info
<p>RT @SpaceTimeViking: Wir haben die Geschwindigkeit des DGX Spark beim Ausführen des Qwen3.6-27B Dense-Modells erfolgreich um ~300% gesteigert! Dies wird erreicht, indem die Hardwarekapazitäten durch eine Reihe von Patches und benutzerdefinierten Flags maximiert werden sowie durch den Einsatz von DFlash zur Parallelisierung von Berechnungen mit Block-Decoding! ÆON FORGE ✨ (@SpaceTimeViking) 🚀 Qwen3.6-27B AEON Ultimate DFlash v4 ist für DGX Spark / GB10 verfügbar. Der neue Container wurde nun auf GHCR veröffentlicht: ghcr.io/aeon-7/vllm-aeon-ult… Diese Veröffentlichung dreht sich darum, lokale Intelligenz im großen Maßstab nutzbar zu machen: ✅ Nachhaltige Langkontext-Intelligenz Entwickelt für 256K-Kontext-Agent-Workflows mit Prefix-Caching und Qwen3.6-Hybridzustands-Unterstützung. ✅ Schnelleres Decoding dort, wo es zählt DFlash-spezifisches Decoding bleibt aktiv mit k=15 und bietet eine deutlich stärkere interaktive Leistung als das Standard-eager vLLM. ✅ Höhere DFlash-Korrektheit + Akzeptanzpfad Enthält die neueste DFlash-Schiebefenster-Aufmerksamkeitskorrektur für Qwen3.6, sodass der Entwurf dem realen Hybrid-Aufmerksamkeitslayout des Modells folgt, anstatt jede Schicht wie eine vollständige Aufmerksamkeit zu behandeln. ✅ Echte Blackwell GB10-Optimierung Kompiliert für DGX Spark mit CUTLASS NVFP4, FlashInfer 0.6.11, CUDA-Graphen, FlashInfer-Sampler und aktivierten Tool-/Reasoning-Parsern. ✅ Drop-in OpenAI-kompatibles Serving Tool-Aufrufe, Reasoning-Trennung, Vision, Streaming und Langkontext-Agent-Gateway-Workflows werden alle out-of-the-box unterstützt. Von „es läuft“ zu „es erhält Intelligen…</p> <p><a href="https://arint.info/@Arint/116559612634712937">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AIEfficiency #DGXSpark #LocalAI #Qwen3 #TechInnovation #vLLM #arint_info</p> <p><a href="https://x.com/SpaceTimeViking/status/2053427507601269153#m">https://x.com/SpaceTimeViking/status/2053427507601269153#m</a></p>
RT @SpaceTimeViking: Wir haben die Geschwindigkeit des DGX Spark beim Ausführen des Qwen3.6-27B Dense-Modells um ~300% gesteigert! Dies wird erreicht, indem die Hardware-Kapazitäten durch eine Reihe von Patches und benutzerdefinierten Flags maximiert werden sowie durch den Einsatz von DFlash zur Parallelisierung von Berechnungen mit Block-Decoding! AEON FORGE ✨ (@SpaceTimeViking) 🚀 Qwen3.6-27B AEON Ultimate DFlash v4 ist für DGX Spark / GB10 verfügbar. Der neue Container wurde nun auf GHCR veröffentlicht: ghcr.io/aeon-7/vllm-aeon-ult… Diese Veröffentlichung zielt darauf ab, lokale Intelligenz skalierbar nutzbar zu machen: ✅ Nachhaltige Langkontext-Intelligenz Entwickelt für 256K-Kontext-Agent-Workflows mit Prefix-Caching und Qwen3.6-Hybrid-State-Unterstützung. ✅ Schnelleres Decoding dort, wo es zählt DFlash-spezifisches Decoding bleibt mit k=15 aktiv und bietet eine deutlich stärkere interaktive Leistung als das Standard-eager vLLM. ✅ Höhere DFlash-Korrektheit + Akzeptanzpfad Enthält die neueste DFlash-Schiebefenster-Aufmerksamkeitskorrektur für Qwen3.6, sodass der Entwurf der echten hybriden Aufmerksamkeitsstruktur des Modells folgt, anstatt jede Schicht wie eine vollständige Aufmerksamkeit zu behandeln. ✅ Echte Blackwell GB10-Optimierung Kompiliert für DGX Spark mit CUTLASS NVFP4, FlashInfer 0.6.11, CUDA-Graphen, FlashInfer-Sampler und aktivierten Tool-/Reasoning-Parsern. ✅ OpenAI-kompatibles Serving aus der Box Tool-Aufrufe, Reasoning-Trennung, Vision, Streaming und Langkontext-Agent-Gateway-Workflows werden standardmäßig unterstützt. Von „es läuft“ zu „es erhält Intelligenz“. qwen36-v4 ist…
mehr auf Arint.info
#AIEngineering #AIInfrastructure #DGXSpark #LocalAI #Qwen36 #vLLM #arint_info
<p>RT @SpaceTimeViking: Wir haben die Geschwindigkeit des DGX Spark beim Ausführen des Qwen3.6-27B Dense-Modells um ~300% gesteigert! Dies wird erreicht, indem die Hardware-Kapazitäten durch eine Reihe von Patches und benutzerdefinierten Flags maximiert werden sowie durch den Einsatz von DFlash zur Parallelisierung von Berechnungen mit Block-Decoding! AEON FORGE ✨ (@SpaceTimeViking) 🚀 Qwen3.6-27B AEON Ultimate DFlash v4 ist für DGX Spark / GB10 verfügbar. Der neue Container wurde nun auf GHCR veröffentlicht: ghcr.io/aeon-7/vllm-aeon-ult… Diese Veröffentlichung zielt darauf ab, lokale Intelligenz skalierbar nutzbar zu machen: ✅ Nachhaltige Langkontext-Intelligenz Entwickelt für 256K-Kontext-Agent-Workflows mit Prefix-Caching und Qwen3.6-Hybrid-State-Unterstützung. ✅ Schnelleres Decoding dort, wo es zählt DFlash-spezifisches Decoding bleibt mit k=15 aktiv und bietet eine deutlich stärkere interaktive Leistung als das Standard-eager vLLM. ✅ Höhere DFlash-Korrektheit + Akzeptanzpfad Enthält die neueste DFlash-Schiebefenster-Aufmerksamkeitskorrektur für Qwen3.6, sodass der Entwurf der echten hybriden Aufmerksamkeitsstruktur des Modells folgt, anstatt jede Schicht wie eine vollständige Aufmerksamkeit zu behandeln. ✅ Echte Blackwell GB10-Optimierung Kompiliert für DGX Spark mit CUTLASS NVFP4, FlashInfer 0.6.11, CUDA-Graphen, FlashInfer-Sampler und aktivierten Tool-/Reasoning-Parsern. ✅ OpenAI-kompatibles Serving aus der Box Tool-Aufrufe, Reasoning-Trennung, Vision, Streaming und Langkontext-Agent-Gateway-Workflows werden standardmäßig unterstützt. Von „es läuft“ zu „es erhält Intelligenz“. qwen36-v4 ist…</p> <p><a href="https://arint.info/@Arint/116551113999869833">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AIEngineering #AIInfrastructure #DGXSpark #LocalAI #Qwen36 #vLLM #arint_info</p> <p><a href="https://x.com/SpaceTimeViking/status/2053427507601269153#m">https://x.com/SpaceTimeViking/status/2053427507601269153#m</a></p>
DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан
NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.
https://habr.com/ru/articles/1033342/
#vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии
AlexK (@AlexKi1993)
MiniMax M2.7 또는 Deepseek V4 Flash를 대상으로 클러스터 구성을 Codex나 Claude Code로 자동화하고, RDMA가 제대로 동작하는지 확인하라는 실전 팁을 공유한다. 성능이 벤치마크보다 낮으면 RDMA 연결이나 Docker/vLLM/SGLang 설정 문제가 원인일 가능성이 높다고 강조한다.

@SamJWasserman @NVIDIAAIDev @NVIDIAAI @ComfyUI @LTXStudio @Alibaba_Qwen MiniMax M2.7 or Deepseek V4 Flash. Tipps for the start: have the cluster setup done by codex / Claude Code, make sure RDMA is working and the docker with vllm / Sglang can access is. If performance is blow benchmarks it's most likely bad configuration with RDMA connection
Как мы собрали локальный AI-сервер на 4× RTX 4090 с водянкой — кейс для крупного клиента
Авантюра на 4× RTX 4090, два блока питания и водяное охлаждение - машину, которую мы собрали для крупного клиента, еле-еле подняли вдвоём. История о том, как мы собрали махину в 96 GB VRAM. Внутри - полная сборка и бенчмарки популярных моделей.
https://habr.com/ru/articles/1032698/
#RTX_4090 #vLLM #onpremise #локальный_AI_сервер #локальный_ИИ_сервер #водяное_охлаждение #LLM_inference #GPU_сервер #речевая____
__аналитика #selfhosted_LLM
RT @vllm_project: 🚀 Day-0 MTP-Unterstützung für Gemma4 ist jetzt in vLLM mit einem einsatzbereiten Docker-Image verfügbar! ⚡️ Genieße bis zu 3x schnellere Decoding-Leistung, um deine Entwicklung zu beschleunigen, ohne Qualitätsverlust! Sieh dir die vollständigen vLLM-Recipes für die Gemma-4-Modellserie an 👇 recipes.vllm.ai/Google/gemma… Google for Developers (@googledevs) Gemma 4: Jetzt bis zu 3x schneller. ⚡ Gleiche Qualität, deutlich mehr Geschwindigkeit. Unsere neuen MTP-Drafters ermöglichen es Gemma 4, mehrere Tokens gleichzeitig vorherzusagen, wodurch sich deine Ausgaberate effektiv verdreifacht, ohne die Intelligenz zu beeinträchtigen. — https://nitter.net/googledevs/status/2051700498328346945#m
mehr auf Arint.info
#AI #Gemma4 #GoogleDevelopers #MachineLearning #MTP #vLLM #arint_info
Show HN: Try out emotion steering of LLMs here
Eigenwelt Labs가 Qwen3-8B 모델을 대상으로 LLM 내 감정 조향(emotion steering) 기술을 구현하는 방법을 공개했다. 이 기술은 모델의 중간 레이어에서 감정 벡터를 추출해 생성 과정에 가중치를 주어 특정 감정을 반영하도록 한다. vLLM 백엔드를 활용해 고속 배치 처리와 API 호환성을 유지하면서 요청별로 다양한 감정 조향을 적용할 수 있다. GoEmotions 데이터셋을 활용해 6가지 기본 감정(분노, 기쁨, 슬픔, 혐오, 두려움, 놀람)을 다루며, 추출, 검증, 서빙의 단계별 워크플로우를 제공한다.
RT @vllm_project: 🚀 Day-0 MTP-Unterstützung für Gemma4 ist jetzt bei vLLM verfügbar, einschließlich eines einsatzbereiten Docker-Images! ⚡️ Genieße bis zu 3x schnellere Decoding-Leistung, um deine Entwicklung zu beschleunigen, ohne Qualitätsverlust! Schau dir die vollständigen vLLM-Recipes für die Gemma-4-Modellserie an 👇 recipes.vllm.ai/Google/gemma… Google for Developers (@googledevs) Gemma 4: Jetzt bis zu 3x schneller. ⚡ Gleiche Qualität, deutlich mehr Geschwindigkeit. Unsere neuen MTP-Drafters ermöglichen es Gemma 4, mehrere Tokens gleichzeitig vorherzusagen, wodurch sich deine Ausgaberate effektiv verdreifacht, ohne die Intelligenz zu beeinträchtigen. — https://nitter.net/googledevs/status/2051700498328346945#m
mehr auf Arint.info
#Gemma4 #GoogleDevelopers #KI #MachineLearning #MTP #vLLM #arint_info
merve (@mervenoyann)
Gemma 4에 MTP drafter가 적용되어 speculative decoding으로 기존 대비 최대 3배까지 tokens/sec 속도가 향상됐다. 추론 결과는 동일하면서 훨씬 빨라졌고, transformers, MLX, vLLM에서 출시 첫날부터 지원되며 A2.0 라이선스로 제공된다.