Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз

На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Один из самых частых вопросов от бизнеса: «Сколько и какого железа нужно, чтобы развернуть ИИ-агента у нас на серверах?». В новом on-premise проекте нам нужно было оценить, сколько одновременных диалогов вытянет связка из двух RTX Pro 6000 Blackwell и модели GPT-OSS-120B. Популярный калькулятор пообещал 5000 токенов в секунду, но реальность оказалась в 5 раз медленнее! В статье рассказываю, как правильно считать ресурсы под LLM, почему формулы ломаются на нестандартном железе и как мы устроили хардкорный краш-тест, чтобы дать заказчику железные гарантии.

https://habr.com/ru/companies/llmstart/articles/1046722/

#llm #ai #gpu #onpremise #agent #performance #tps #ttft #tokens

Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз

Сколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM Мы в LLMStart.ru делаем AI-системы для бизнеса. Часто работаем с on-premise — это закрытые контуры, где безопасность не...

Хабр

KVBoost – chunk-level KV cache reuse for HuggingFace, 5–48x faster TTFT

https://pythongiant.github.io/KVBoost/

#HackerNews #KVBoost #HuggingFace #AI #Performance #Optimization #CacheReuse #TTFT

KVBoost

NVIDIA’s new co‑design with Sarvam AI slashes time‑to‑first‑token to under a second for LLM inference. By marrying Mixture‑of‑Experts models with GPU acceleration, they boost throughput while trimming latency. This hardware‑software synergy could reshape how we deploy large language models at scale. Read more to see the numbers and tech behind the breakthrough. #NVIDIA #SarvamAI #MixtureOfExperts #TTFT

🔗 https://aidailypost.com/news/nvidia-co-design-boosts-sarvam-ai-inference-cuts-ttft-below-one-second