DeepSeek‑V4‑Flash на двух DGX Spark: как мы убрали очередь и получили multi‑user
Подняли DeepSeek‑V4‑Flash на двух GB10, упёрлись в потолок consumer Blackwell, прошли три тупика со спекулятивным декодингом — и в итоге получили параллельную работу ресёрч-агента и длинной генерации без очереди. Цифры из Grafana.
https://habr.com/ru/articles/1050470/
#dgx_spark #vllm #deepseekv4 #gb10 #tensor_parallel #AGmind #llm_inference #спекулятивный_декодинг
