Как мы собрали локальный AI-сервер на 4× RTX 4090 с водянкой — кейс для крупного клиента

Авантюра на 4× RTX 4090, два блока питания и водяное охлаждение - машину, которую мы собрали для крупного клиента, еле-еле подняли вдвоём. История о том, как мы собрали махину в 96 GB VRAM. Внутри - полная сборка и бенчмарки популярных моделей.

https://habr.com/ru/articles/1032698/

#RTX_4090 #vLLM #onpremise #локальный_AI_сервер #локальный_ИИ_сервер #водяное_охлаждение #LLM_inference #GPU_сервер #речевая____
__аналитика #selfhosted_LLM

Как мы собрали локальный AI-сервер на 4× RTX 4090 с водянкой — кейс для крупного клиента

Предыстория Год назад к нам пришёл заказ: собрать локальный сервер под задачи аналитики звонков для крупной компании в России. Поток — 10 000+ звонков в месяц. По требованию службы безопасности —...

Хабр

[Перевод] Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью

Привет! Этот пост — перевод очень хардовой статьи про внутренности vLLM и того, как устроен инференс LLM. Переводить было сложно из-за англицизмов и отсутствия устоявшегося перевода многих терминов, но это слишком классная статья, и она обязана быть на русском языке! А дальше — слово автору: От paged attention, непрерывного батчинга, кэширования префиксов , specdec и т.д. — до мульти-GPU и мультинодового динамического сервинга LLM под нагрузкой. В этом посте я постепенно представлю все основные системные компоненты и продвинутые функции, которые составляют современную систему инференса LLM с высокой пропускной способностью. И детально разберу, как внутри работает vLLM.

https://habr.com/ru/articles/957748/

#vllm #llm #инференс_ллм #llm_inference

Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью

Привет! Этот пост — перевод очень хардовой статьи про внутренности vLLM и того, как устроен инференс LLM. Переводить было сложно из-за англицизмов и отсутствия устоявшегося перевода многих терминов,...

Хабр
Introduction | LLM Inference in Production

A practical handbook for engineers building, optimizing, scaling and operating LLM inference systems in production.

LLM для кодинга и локальный тест открытых моделей на AMD

LLM кодеры уже показывают отличные результаты на бенчмарках и в реальных задачах. Кажется, сейчас хорошее время, чтобы начать пробовать ими пользоваться. В статье разберем открытые LLM для кодинга. Сравнимы ли они с подписочными моделями? Можно ли их использовать для работы? А есть ли вариант начать локально? В части туториала: 1. Запустим через docker с помощью llama.cpp. 2. Сделаем замеры скорости генерации. 3. Ускорим за счет спекулятивного декодинга. 4. Подключим в vscode, заставим работать локально и через ssh.

https://habr.com/ru/articles/889310/

#llm_coder #llm #copilot #coding #llm_inference #qwen25coder #sonnet37

LLM для кодинга и локальный тест открытых моделей на AMD

LLM кодеры уже показывают отличные результаты на бенчмарках и в реальных задачах. Кажется, сейчас хорошее время, чтобы начать пробовать ими пользоваться. В статье разберем открытые LLM для кодинга....

Хабр