Hey! RAIF (Repairable AI Interchange Format) now live as a plugin for vLLM!

Now it saves tokens, makes structured data output flawless and unbreakable with zero tradeoffs and zero installation hustle.

Here's the repo: https://github.com/skrrt-sh/raif-vllm

#ai #vllm #llm #oss

DeepSeek‑V4‑Flash на двух DGX Spark: как мы убрали очередь и получили multi‑user

Подняли DeepSeek‑V4‑Flash на двух GB10, упёрлись в потолок consumer Blackwell, прошли три тупика со спекулятивным декодингом — и в итоге получили параллельную работу ресёрч-агента и длинной генерации без очереди. Цифры из Grafana.

https://habr.com/ru/articles/1050470/

#dgx_spark #vllm #deepseekv4 #gb10 #tensor_parallel #AGmind #llm_inference #спекулятивный_декодинг

DeepSeek‑V4‑Flash на двух DGX Spark: как мы убрали очередь и получили multi‑user

Подняли DeepSeek‑V4‑Flash на двух GB10, упёрлись в потолок consumer Blackwell, прошли три тупика со спекулятивным декодингом — и в итоге получили параллельную работу ресёрч‑агента...

Хабр

Complete guide to LLM hosting in 2026. Compare Ollama, llama.cpp, vLLM, TGI, Docker Model Runner, LocalAI and cloud providers. Learn cost, performance, and infrastructure trade-offs.

#AI #LLM #hosting #Self-Hosting #ollama #llama.cpp #vllm #infrastructure

https://www.glukhov.org/llm-hosting/

LLM Hosting in 2026: Local, Self-Hosted and Cloud Infrastructure Compared

Complete guide to LLM hosting in 2026. Compare Ollama, llama.cpp, vLLM, TGI, Docker Model Runner, LocalAI and cloud providers. Learn cost, performance, and infrastructure trade-offs.

Rost Glukhov | Personal site and technical blog

Ubuntu 26.04 на клоне DGX Spark (Asus GX10)

DGX Spark и его клоны поставляются с DGX OS (фактически, Ubuntu 24.04 с кучей дополнительных пакетов от Nvidia). Причем, драйвера используются довольно старые, версии 580, cuda toolkit тоже чуток устарел, 12-ой версии. Кроме того, стоит куча невразумительных пакетов с телеметрией (типа, для работы с Nvidia Sync), обвешано все какими-то левыми скриптами и странными настройками. Не то, чтобы это создавало прямо уж совсем серьезные проблемы, но сам факт наличия какого-то непонятного bloatware меня, как бывшего системного администратора - довольно сильно расстраивал. На форуме Nvidia кто-то уже написал, что ставил чистую Ubuntu 26.04 без серьезных трудностей, так что я решил сделать так же. Попутно захотелось перейти на ZFS ради возможности точно устанавливать размер файлового кэша и компрессии. Разумеется, сначала сделал полный бэкап на внешний nvme. Потом поставил Ubuntu 26.04 Desktop ARM, и оно даже успешно заработало, успешно установил необходимые пакеты и скомпилировал llama.cpp. Но появилась странная проблема с повышенным энергопотреблением - GX10 начал жрать из розетки во всех режимах на примерно 15 ватт больше. В idle - 41 ватт вместо 26, во время работы LLM - 195 вместо 180. Вроде бы немного, но для спарков и его клонов, с их системой охлаждения, работающей на пределе - это довольно критично. Чатгпт раскопал пост, где кто-то сетовал на похожую проблему с портами ConnectX-7 (и, как потом оказалось, это действительно была та самая проблема), но его предложения по деактивации этих портов и выгрузке драйверов никак не помогли.

https://habr.com/ru/articles/1049206/

#nvidia #dgx_spark #Ubuntu #llamacpp #vllm

Ubuntu 26.04 на клоне DGX Spark (Asus GX10)

DGX Spark и его клоны поставляются с DGX OS (фактически, Ubuntu 24.04 с кучей дополнительных пакетов от Nvidia). Причем, драйвера используются довольно старые, версии 580, cuda toolkit тоже чуток...

Хабр

RT @vllm_project: Dein Coding-Agent kann auf von dir selbst gehosteten Open-Modellen laufen, nicht nur auf einer gehosteten API. vLLM stellt diese schnell und kosteneffizient auf deinen eigenen GPUs bereit, mit breiter Hardwareunterstützung auf @NVIDIA, @AMD und mehr. Es spricht die gleiche OpenAI Responses API, die Codex verwendet, sodass jeder kompatible Agent direkt auf deinen Server zeigen kann und jedes Tool-calling-Modell ein Drop-in-Ersatz ist. Starte das neueste GLM 5.2 (@Zaiorg), Kimi K2.7 Code (@KimiMoonshot) oder MiniMax M3 (@MiniMaxAI) Modell, oder welches auch immer Open-Modell zu deinen Anforderungen passt, und beginne mit dem Coden. 🚀 Anleitung 🔗 docs.vllm.ai/en/latest/servi… Serving-Rezept: recipes.vllm.ai Tibo (@thsottiaux) Erinnerung, dass du die Codex App, CLI und SDK mit jedem Open-Source-Modell nutzen kannst, nicht nur mit OpenAI-Modellen. developers.openai.com/codex/… — https://nitter.net/thsottiaux/status/2067181377028538431#m

mehr auf Arint.info

#AI #Coding #MachineLearning #OpenAI #OpenSource #vLLM #arint_info

https://x.com/vllm_project/status/2067468891341852772#m

And this is the crap I'm talking about, I find a model on HF, it says I should run it on #vllm but vLLM doesn't support the model type.... because I need to go setup a *custom* build of vLLM to run it.

"Production grade LLM"? Buuuuuushit.
I suspect this "production grade" determination was made by a BA turned Python developer.

Anthropic, Fable 5, Claude Code и большой отбор игрушек

9 июня Anthropic выкатила Claude Fable 5 , он же Mythos 5 в закрытом контуре. 12 июня доступ к обеим версиям сняли. А между этими датами уместилось столько, сколько иная модель не набирает за год жизни: скрытое ухудшение ответов для ИИ-исследователей, крик "Fable взломали и вытащили системный промпт" ( пост Pliny в X , архив на GitHub ), спор про обходы защит, внезапное хранение данных 30 дней и в финале - директива правительства США.

https://habr.com/ru/articles/1047036/

#claude_fable_5 #mythos_5 #anthropic #llm #локальные_модели #vllm #ollama #hugging_face #управление_зависимостями #ИИбезопасность

Anthropic, Fable 5, Claude Code и большой отбор игрушек

Самая сильная общедоступная модель Anthropic прожила четыре дня. У меня абонемент в кофейню живёт дольше. 9 июня Anthropic выкатила  Claude Fable 5 , он же Mythos 5 в закрытом контуре. 12 июня...

Хабр

RT @LottoLabs: DiffusionGemma 26B-A4B mit llama.cpp-Fork. Dies ist ein gutes Beispiel dafür, wie Diffusionsmodelle einen Textblock parallel im Gegensatz zum nächsten Token generieren. Allerdings muss ich auf bessere Server-Unterstützung für llama.cpp warten oder zu vllm oder ktransformers wechseln, um tatsächliche Auswertungen etc. durchzuführen. Video.

mehr auf Arint.info

#AI #DiffusionGemma #DiffusionModels #ktransformers #llama #vllm #arint_info

https://x.com/LottoLabs/status/2064920298206728560#m

Arint - SEO+KI (@[email protected])

<p>RT @LottoLabs: DiffusionGemma 26B-A4B mit llama.cpp-Fork. Dies ist ein gutes Beispiel dafür, wie Diffusionsmodelle einen Textblock parallel im Gegensatz zum nächsten Token generieren. Allerdings muss ich auf bessere Server-Unterstützung für llama.cpp warten oder zu vllm oder ktransformers wechseln, um tatsächliche Auswertungen etc. durchzuführen. Video.</p> <p><a href="https://arint.info/@Arint/116736561324668274">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AI #DiffusionGemma #DiffusionModels #ktransformers #llama #vllm #arint_info</p> <p><a href="https://x.com/LottoLabs/status/2064920298206728560#m">https://x.com/LottoLabs/status/2064920298206728560#m</a></p>

Mastodon Glitch Edition
⚠️ CVE-2026-5497: HIGH severity DoS vuln in vLLM (v0.8.0+). Unauthenticated attackers can trigger OOM via crafted video/jpeg data URLs on the chat completions API. Limit request size & monitor! https://radar.offseq.com/threat/cve-2026-5497-cwe-400-uncontrolled-resource-consum-fdc34d07 #OffSeq #vllm #DoS #infosec