[Перевод] Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью

Привет! Этот пост — перевод очень хардовой статьи про внутренности vLLM и того, как устроен инференс LLM. Переводить было сложно из-за англицизмов и отсутствия устоявшегося перевода многих терминов, но это слишком классная статья, и она обязана быть на русском языке! А дальше — слово автору: От paged attention, непрерывного батчинга, кэширования префиксов , specdec и т.д. — до мульти-GPU и мультинодового динамического сервинга LLM под нагрузкой. В этом посте я постепенно представлю все основные системные компоненты и продвинутые функции, которые составляют современную систему инференса LLM с высокой пропускной способностью. И детально разберу, как внутри работает vLLM.

https://habr.com/ru/articles/957748/

#vllm #llm #инференс_ллм #llm_inference

Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью

Привет! Этот пост — перевод очень хардовой статьи про внутренности vLLM и того, как устроен инференс LLM. Переводить было сложно из-за англицизмов и отсутствия устоявшегося перевода многих терминов,...

Хабр
Introduction | LLM Inference in Production

A practical handbook for engineers building, optimizing, scaling and operating LLM inference systems in production.

LLM для кодинга и локальный тест открытых моделей на AMD

LLM кодеры уже показывают отличные результаты на бенчмарках и в реальных задачах. Кажется, сейчас хорошее время, чтобы начать пробовать ими пользоваться. В статье разберем открытые LLM для кодинга. Сравнимы ли они с подписочными моделями? Можно ли их использовать для работы? А есть ли вариант начать локально? В части туториала: 1. Запустим через docker с помощью llama.cpp. 2. Сделаем замеры скорости генерации. 3. Ускорим за счет спекулятивного декодинга. 4. Подключим в vscode, заставим работать локально и через ssh.

https://habr.com/ru/articles/889310/

#llm_coder #llm #copilot #coding #llm_inference #qwen25coder #sonnet37

LLM для кодинга и локальный тест открытых моделей на AMD

LLM кодеры уже показывают отличные результаты на бенчмарках и в реальных задачах. Кажется, сейчас хорошее время, чтобы начать пробовать ими пользоваться. В статье разберем открытые LLM для кодинга....

Хабр