AI inference на K8s: как выживать с LLM в кубере. DRA, GIE, LLM-D

Для многих обывателей, да и инженеров, которые не углублялись в тему, работа с LLM выглядит как работа с обычным сервисом: мы просто кидаем запросы по нужному endpoint и получаем JSON с ответом. Но на деле появляется много вопросов: как здесь работает кэш? От чего зависит время ответа? Что делать с огромным контекстным окном? И если у нас один GPU-сервер, на котором происходят все вычисления, то это не так и важно. Но что делать с масштабными распределёнными системами? Обычный Kubernetes не понимает, как устроен запрос языковой модели. Однако за последний год платформенные инженеры очень хорошо продвинулись в этом вопросе. И в этой статье я хочу подробно разобрать, как именно строится K8s-кластер под высоконагруженные LLM.

https://habr.com/ru/companies/ruvds/articles/1042292/

#llm #kubernetes #dra #gie #llmd #kserve #ruvds_статьи

AI inference на K8s: как выживать с LLM в кубере. DRA, GIE, LLM-D

Дрейк тоже шарит за AI inference Для многих обывателей, да и инженеров, которые не углублялись в тему, работа с LLM выглядит как работа с обычным сервисом: мы просто кидаем запросы по нужному endpoint...

Хабр

AI inference на K8s: как выживать с LLM в кубере. DRA, GIE, LLM-D

Для многих обывателей, да и инженеров, которые не углублялись в тему, работа с LLM выглядит как работа с обычным сервисом: мы просто кидаем запросы по нужному endpoint и получаем JSON с ответом. Но на деле появляется много вопросов: как здесь работает кэш? От чего зависит время ответа? Что делать с огромным контекстным окном? И если у нас один GPU-сервер, на котором происходят все вычисления, то это не так и важно. Но что делать с масштабными распределёнными системами? Обычный Kubernetes не понимает, как устроен запрос языковой модели. Однако за последний год платформенные инженеры очень хорошо продвинулись в этом вопросе. И в этой статье я хочу подробно разобрать, как именно строится K8s-кластер под высоконагруженные LLM.

https://habr.com/ru/companies/ruvds/articles/1042292/

#llm #kubernetes #dra #gie #llmd #kserve #ruvds_статьи

AI inference на K8s: как выживать с LLM в кубере. DRA, GIE, LLM-D

Дрейк тоже шарит за AI inference Для многих обывателей, да и инженеров, которые не углублялись в тему, работа с LLM выглядит как работа с обычным сервисом: мы просто кидаем запросы по нужному endpoint...

Хабр

Salud femenina: experta explica los avances en tratamientos para la endometriosis y miomas

Salud femenina: experta explica los avances en tratamientos para la endometriosis y miomas
San José, 31 may (elmundo.cr) – La endometriosis y los miomas uterinos son dos de las afecciones ginecológicas más frecuentes. Aunque presentan diferencias importantes, también tienen aspectos en común. Ambas p [...]

#Dra.Wasson #Endometrosis #Estudio #Fertilidad #Mioma #Periodo #Tendencias

https://elmundo.cr/tendencias/salud-femenina-experta-explica-los-avances-en-tratamientos-para-la-endometriosis-y-miomas-2/

Salud femenina: experta explica los avances en tratamientos para la endometriosis y miomas

Salud femenina: experta explica los avances en tratamientos para la endometriosis y miomas Tendencias - El Mundo CR

El Mundo CR

Salud femenina: experta explica los avances en tratamientos para la endometriosis y miomas

Salud femenina: experta explica los avances en tratamientos para la endometriosis y miomas
San José, 30 may (elmundo.cr) – La endometriosis y los miomas uterinos son dos de las afecciones ginecológicas más frecuentes. Aunque presentan diferencias importantes, también tienen aspectos en común. Ambas pueden provocar complicaci [...]

#Dra.Wasson #MayoClinic #Menstruación #Tendencias

https://elmundo.cr/tendencias/salud-femenina-experta-explica-los-avances-en-tratamientos-para-la-endometriosis-y-miomas/

Salud femenina: experta explica los avances en tratamientos para la endometriosis y miomas

Salud femenina: experta explica los avances en tratamientos para la endometriosis y miomas Tendencias - El Mundo CR

El Mundo CR

DRAйверы для GPU: как Kubernetes научился выделять устройства через стандартный API

Device Plugin в Kubernetes сводит GPU к счётчику на узле: планировщик видит только количество устройств, но не их профиль, объём памяти или режим шаринга. Для ML-задач это быстро становится ограничением. Обучению нужны выделенные карточки целиком, инференсу — управляемые доли, а CI хватит и четвертинки NVIDIA H100 на пять минут. Dynamic Resource Allocation полностью меняет модель управления устройствами. GPU становятся сущностью с инвентарём, атрибутами и правилами выбора. В статье я разбираю устройство DRA и показываю миграцию с device plugin на примере кластера из 8 узлов × 8 NVIDIA H100 без полного переписывания манифестов. А ещё объясняю, почему мы в Deckhouse пишем свой DRA-драйвер. Разобраться с DRA

https://habr.com/ru/companies/flant/articles/1038000/

#gpu #kubernetes #deckhouse_kubernetes_platform #ai #ml #dra #machine_learning

DRAйверы для GPU: как Kubernetes научился выделять устройства через стандартный API

Dynamic Resource Allocation — это стандартный механизм Kubernetes для запроса и совместного использования устройств. Он даёт фильтрацию по атрибутам (CEL), шаринг, централизованные классы...

Хабр

Обзор релиза Kubernetes 1.36: перестаём пересобирать образы, чистим «зомби» PVC и читаем логи без SSH. Разбор 68 фич

Вышел Kubernetes 1.36 — релиз, который наконец-то закрывает старые боли админов и разработчиков. Больше не нужно пересобирать образы ради одного сигнала остановки: его теперь можно прописать прямо в манифесте. А «зомби-томы», которые висят мёртвым грузом и жрут место, стало легко находить по дате последнего использования. Собрали в статье разбор всех 68 изменений на русском языке.

https://habr.com/ru/companies/flant/articles/1024116/

#kubernetes #136 #KEP #kubernetes_enhancement_proposal #DRA #kubelet_gRPC_API #Pod_Level_Resource #Container_Stop_Signals #pvc #kubelet

Обзор релиза Kubernetes 1.36: перестаём пересобирать образы, чистим «зомби» PVC и читаем логи без SSH. Разбор 68 фич

Сегодня официально выпустили новую версию Kubernetes — 1.36.  Среди главных фич — новый API для kubelet'а, который работает непосредственно на узле, возможность задавать сигнал остановки...

Хабр

DRAматургия GPU в Kubernetes: зачем нужен DRA, если Device Plugin работает? Разбираем грабли AI-инфраструктуры

Device plugin умеет выделять только целочисленные ресурсы: одну карту, две карты — или одну MIG‑партицию, но не «полкарты» и не «30% памяти». В реальности же нужны доли памяти, учёт топологии, предсказуемые обновления и изоляция, а не пулы лейблов и кастомные шедулеры. Разобрал, почему индустрия устала от костылей, как это проявляется в настоящем AI‑кластере и что именно пытается исправить DRA. Читать, если хотите управлять ресурсами явно, а не тушить пожары по расписанию. Понять, куда двигаться

https://habr.com/ru/companies/flant/articles/1020276/

#gpu #device_plugin #dra #nvidia #mig #volcano #volcano_scheduler #инференс #gpu_operator #llm

DRAматургия GPU в Kubernetes: зачем нужен DRA, если Device Plugin работает? Разбираем грабли AI-инфраструктуры

Device Plugin честно отработал свою эпоху: он научил Kubernetes видеть GPU и выдавать их подам. Но с AI‑бумом GPU превратились в общий ресурс для десятков команд. Тут уже не «лишь бы запустилось», а...

Хабр

Recomendaciones de especialista para mujeres con adelgazamiento capilar

Recomendaciones de especialista para mujeres con adelgazamiento capilar
San José, 23 mar (elmundo.cr) – El adelgazamiento capilar es frecuente a medida que envejecemos, afirma la Dra. Dawn Davis, dermatóloga de Mayo Clinic. Y aunque los signos pueden no ser tan evidentes como en los hombres, alrededor del 55% de las mujeres [...]

#AdelgazamientoCapilar #Calvicie #Dra.DawnDavis #Mujeres #Tendencias

https://elmundo.cr/tendencias/recomendaciones-de-especialista-para-mujeres-con-adelgazamiento-capilar/

Recomendaciones de especialista para mujeres con adelgazamiento capilar

Recomendaciones de especialista para mujeres con adelgazamiento capilar Tendencias - El Mundo CR

El Mundo CR

Dra Gibbs-Lawhorn’s 42-point masterpiece lifts UNLV past Nevada in OT

https://misryoum.com/us/sports/dra-gibbs-lawhorns-42-point-masterpiece-lifts-unlv/

Rivalry games are tense and dramatic, with the potential to become instant classics. Saturday night at the Thomas & Mack Center was the latter, and the story of the night was Dra Gibbs-Lawhorn.He scored a career-high 42 points, shooting 14-of-22...

#Dra #GibbsLawhorns #42point #masterpiece #lifts #UNLV #past #Nevada #US_News_Hub #misryoum_com

Dra Gibbs-Lawhorn’s 42-point masterpiece lifts UNLV past Nevada in OT

Rivalry games are tense and dramatic, with the potential to become instant classics. Saturday night at the Thomas & Mack Center was the latter, and

US News Hub