Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз
На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Один из самых частых вопросов от бизнеса: «Сколько и какого железа нужно, чтобы развернуть ИИ-агента у нас на серверах?». В новом on-premise проекте нам нужно было оценить, сколько одновременных диалогов вытянет связка из двух RTX Pro 6000 Blackwell и модели GPT-OSS-120B. Популярный калькулятор пообещал 5000 токенов в секунду, но реальность оказалась в 5 раз медленнее! В статье рассказываю, как правильно считать ресурсы под LLM, почему формулы ломаются на нестандартном железе и как мы устроили хардкорный краш-тест, чтобы дать заказчику железные гарантии.
https://habr.com/ru/companies/llmstart/articles/1046722/
#llm #ai #gpu #onpremise #agent #performance #tps #ttft #tokens

Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз
Сколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM Мы в LLMStart.ru делаем AI-системы для бизнеса. Часто работаем с on-premise — это закрытые контуры, где безопасность не...






