Гайды по nxs-universal-chart v3.0: AI Inference контур на основе KServe

Итак, вы обучили модель и она показывает ожидаемые результаты. Теперь осталось выкатить её на контур, однако для этого необходим ряд компонентов: нужна маршрутизация трафика, непосредственно инференс. Желателен autoscaling модели, передача чувствительных данных, например креды до хранилища моделей. Ну и мониторинг не помешал бы. Каждый компонент - это отдельный Helm-чарт, отдельные CRD и отдельная документация. В итоге, вместо быстрого тестирования модели и гипотез, приходится заниматься YAML-инжинирингом и громко ругаться благим матом. Всем привет, на связи Пётр, инженер

https://habr.com/ru/articles/1030440/

#devops #kubernetes #mlops #helm #kserve #istio #machine_learning #inference #ai #deploy

Гайды по nxs-universal-chart v3.0: AI Inference контур на основе KServe

Итак, вы обучили модель и она показывает ожидаемые результаты. Теперь осталось выкатить её на контур, однако для этого необходим ряд компонентов: нужна маршрутизация трафика, непосредственно инференс....

Хабр

Red Hat and Tesla engineers tackled a real production problem together.

3x output tokens/sec, 2x faster TTFT on Llama 3.1 70B with KServe + llm-d + vLLM. Fixes pushed upstream to KServe along the way.

This is what open source looks like. 🤝 🚀

https://llm-d.ai/blog/production-grade-llm-inference-at-scale-kserve-llm-d-vllm

#RedHat #Tesla #RedHatAI #vLLM #Pytorch #Kubernetes #OpenShift #KServe #llmd #Llama #OpenSource

Production-Grade LLM Inference at Scale with KServe, llm-d, and vLLM | llm-d

How migrating from a simple vLLM deployment to a robust MLOps platform utilizing KServe, llm-d's intelligent routing, and vLLM solved significant scaling and operational challenges in LLM deployment through deep customization and prefix-cache aware routing to maximize GPU utilization.

llm-d

ML-пайплайны в Kubernetes: от первой строки кода до автоскейлинга и за его пределами

Ваша ML-модель работает в ноутбуке, а в продакшене — нет. Бывало такое? Именно здесь начинается настоящая инженерная задача: взять эксперимент из Jupyter-ноутбука и превратить его в воспроизводимый, наблюдаемый и масштабируемый пайплайн — от сырых данных до стабильного инференса под реальной нагрузкой. Kubernetes давно стал де-факто стандартом для этой работы: более 70% компаний используют его в продакшене — это не дань хайпу, это прагматичный выбор тех, кто уже наступал на грабли. В этой статье разберем, почему K8s выигрывает у альтернатив именно для ML-нагрузок, а также обсудим какие мифы и анти-паттерны тормозят команды на пути к продакшену. Пройдемся по полному стеку: от подготовки кластера и фиксации данных через DVC до canary-деплоя модели и автоскейлинга GPU-подов. В конце вас ждет взгляд на то, куда движется индустрия: serverless-ML, multi-LLM-ops и edge-развертывания. Если вы DevOps- или MLOps-инженер, которому приходится запускать обучение и инференс в одном кластере, или R&D-инженер, чьи модели «магически ломаются» при переходе в прод — читать обязательно.

https://habr.com/ru/companies/cloud_ru/articles/1011810/

#Kubernetes #MLOps #ML_pipeline #KServe #TFX #DVC #HPA #Prometheus #Grafana #DevOps

ML-пайплайны в Kubernetes: от первой строки кода до автоскейлинга и за его пределами

Ваша ML-модель работает в ноутбуке, а в продакшене — нет. Бывало такое? Именно здесь начинается настоящая инженерная задача: взять эксперимент из Jupyter-ноутбука и превратить его в...

Хабр
Get started with consuming GPU-hosted large language models on Developer Sandbox | Red Hat Developer

Learn the many ways you can interact with GPU-hosted large language models (LLMs) on Developer Sandbox, including connecting the model endpoints, interacting with the API endpoints using the hosted

Red Hat Developer

Đang thảo luận cách tích hợp router ngữ nghĩa với vLLM và triển khai qua KServe. Các thắc mắc: đặt router ở client, predictor KServe hay service riêng? Cách expose endpoint vLLM sau KServe? Mẹo scaling, giảm latency? Ai đã thử hoặc có mẫu tham khảo, chia sẻ nhé! #AI #MachineLearning #vLLM #KServe #SemanticRouting #CôngNghệ #AIVietnam #LLM

https://www.reddit.com/r/LocalLLaMA/comments/1qh8k2q/integrating_semantic_routing_with_vllm_and/

Red Hat AI | 3 | Red Hat Documentation

Red Hat AI | 3 | Red Hat Documentation

KServe joins CNCF as an incubating project

KServe, the leading standardized AI inference platform on Kubernetes, has been accepted as an incubating project by the Cloud Native Computing Foundation (CNCF).

🙌 Huge thanks to everyone who contributed to this journey from writing code, reviewing docs, to supporting governance and community growth.

Stay tuned! We’ll be publishing a detailed announcement blog soon with more insights on what this means for users, contributors, and the future of model serving on Kubernetes.

For now: thank you to the community for making this possible. 💙

#KServe #CNCF #OpenSource #ModelServing #AI #MLOps #CloudNative #Kubeflow #Kubernetes #k8s Kubeflow