DeepSeek‑V4‑Flash на двух DGX Spark: как мы убрали очередь и получили multi‑user

Подняли DeepSeek‑V4‑Flash на двух GB10, упёрлись в потолок consumer Blackwell, прошли три тупика со спекулятивным декодингом — и в итоге получили параллельную работу ресёрч-агента и длинной генерации без очереди. Цифры из Grafana.

https://habr.com/ru/articles/1050470/

#dgx_spark #vllm #deepseekv4 #gb10 #tensor_parallel #AGmind #llm_inference #спекулятивный_декодинг

DeepSeek‑V4‑Flash на двух DGX Spark: как мы убрали очередь и получили multi‑user

Подняли DeepSeek‑V4‑Flash на двух GB10, упёрлись в потолок consumer Blackwell, прошли три тупика со спекулятивным декодингом — и в итоге получили параллельную работу ресёрч‑агента...

Хабр