ML-пайплайны в Kubernetes: от первой строки кода до автоскейлинга и за его пределами

Ваша ML-модель работает в ноутбуке, а в продакшене — нет. Бывало такое? Именно здесь начинается настоящая инженерная задача: взять эксперимент из Jupyter-ноутбука и превратить его в воспроизводимый, наблюдаемый и масштабируемый пайплайн — от сырых данных до стабильного инференса под реальной нагрузкой. Kubernetes давно стал де-факто стандартом для этой работы: более 70% компаний используют его в продакшене — это не дань хайпу, это прагматичный выбор тех, кто уже наступал на грабли. В этой статье разберем, почему K8s выигрывает у альтернатив именно для ML-нагрузок, а также обсудим какие мифы и анти-паттерны тормозят команды на пути к продакшену. Пройдемся по полному стеку: от подготовки кластера и фиксации данных через DVC до canary-деплоя модели и автоскейлинга GPU-подов. В конце вас ждет взгляд на то, куда движется индустрия: serverless-ML, multi-LLM-ops и edge-развертывания. Если вы DevOps- или MLOps-инженер, которому приходится запускать обучение и инференс в одном кластере, или R&D-инженер, чьи модели «магически ломаются» при переходе в прод — читать обязательно.

https://habr.com/ru/companies/cloud_ru/articles/1011810/

#Kubernetes #MLOps #ML_pipeline #KServe #TFX #DVC #HPA #Prometheus #Grafana #DevOps

ML-пайплайны в Kubernetes: от первой строки кода до автоскейлинга и за его пределами

Ваша ML-модель работает в ноутбуке, а в продакшене — нет. Бывало такое? Именно здесь начинается настоящая инженерная задача: взять эксперимент из Jupyter-ноутбука и превратить его в...

Хабр
Get started with consuming GPU-hosted large language models on Developer Sandbox | Red Hat Developer

Learn the many ways you can interact with GPU-hosted large language models (LLMs) on Developer Sandbox, including connecting the model endpoints, interacting with the API endpoints using the hosted

Red Hat Developer

Đang thảo luận cách tích hợp router ngữ nghĩa với vLLM và triển khai qua KServe. Các thắc mắc: đặt router ở client, predictor KServe hay service riêng? Cách expose endpoint vLLM sau KServe? Mẹo scaling, giảm latency? Ai đã thử hoặc có mẫu tham khảo, chia sẻ nhé! #AI #MachineLearning #vLLM #KServe #SemanticRouting #CôngNghệ #AIVietnam #LLM

https://www.reddit.com/r/LocalLLaMA/comments/1qh8k2q/integrating_semantic_routing_with_vllm_and/

Red Hat AI | 3 | Red Hat Documentation

Red Hat AI | 3 | Red Hat Documentation

KServe joins CNCF as an incubating project

KServe, the leading standardized AI inference platform on Kubernetes, has been accepted as an incubating project by the Cloud Native Computing Foundation (CNCF).

🙌 Huge thanks to everyone who contributed to this journey from writing code, reviewing docs, to supporting governance and community growth.

Stay tuned! We’ll be publishing a detailed announcement blog soon with more insights on what this means for users, contributors, and the future of model serving on Kubernetes.

For now: thank you to the community for making this possible. 💙

#KServe #CNCF #OpenSource #ModelServing #AI #MLOps #CloudNative #Kubeflow #Kubernetes #k8s Kubeflow

#KubeCon #Keynote #K8s #CNCF #KServe CNCF Kubernetes Red Hat AI
This is a big step for the KServe community, and we’re excited about the road ahead in making cloud-native model serving more accessible and production-ready for everyone. #KServe #CNCF #OpenSource #ModelServing #AI #MLOps #CloudNative @cncf.io @kubernetes.io @kubefloworg.bsky.social