Как мы внедряли QoS InfiniBand для приоритизации ML-обучений с точки зрения сети

В статье расскажем, как мы командой Yandex Infrastructure внедрили QoS в сетях InfiniBand при ограниченной вендорской поддержке и скудной практической документации. Обсудим мотивацию: рост смешанных нагрузок во внутреннем облаке и необходимость предсказуемых SLO для различных обучений. Отдельно рассмотрим как могут быть связаны QoS и топология сети DragonFly+.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/1015226/

#infiniband #qos #ml #mlops #gpu #dragonfly+

Как мы внедряли QoS InfiniBand для приоритизации ML-обучений с точки зрения сети

Привет! Меня зовут Роман, в Yandex Infrastructure я работаю в команде Network Operations Center (NOC) и занимаюсь фабриками сетей дата‑центров. Это включает в себя и сети нашего...

Хабр

Как компании строят MLOps: три архитектурных подхода

Всем привет! Меня зовут Катерина Цаплина, я программный эксперт курса

https://habr.com/ru/companies/yandex_praktikum/articles/1014322/

#MLOps #MLплатформа #Uber_Michelangelo #Netflix_Metaflow #Vertex_AI #SageMaker #yandex_datasphere #Yandex_AI_Studio #MLинфраструктура #внедрение_MLOps

Как компании строят MLOps: три архитектурных подхода

Всем привет! Меня зовут Катерина Цаплина, я программный эксперт курса «MLOps для разработки и мониторинга моделей» . Работаю на стыке ML, инфраструктуры и корпоративной архитектуры в крупной...

Хабр

LLM 실시간 서빙 비용 줄이는 팁 공유해요 — 모델 선택, 인프라 사이징, 요청 패턴 관리가 핵심이라고 합니다. 여러분은 피크 트래픽이나 컨텍스트 최적화 중 어떤 걸 먼저 건드리시나요? 의견 공유해 주세요! 💬 #MLOps #AI운영 #비용절감

https://aipages.net/llm-%ec%8b%a4%ec%8b%9c%ea%b0%84-%ec%84%9c%eb%b9%99-%eb%b9%84%ec%9a%a9-%ec%b5%9c%ec%a0%81%ed%99%94/

LLM 실시간 서빙 비용 최적화 - 인공지능 인사이트

인프라·모델·요청 패턴 3축 최적화로 실시간 LLM 서빙 비용을 30~70%까지 낮추는 실무 가이드.

인공지능 인사이트

Тестирование ML-систем: сложности, факапы и рабочие практики

Привет, Habr! Сегодня хочу поделиться опытом тестирования на ML-проекте. По моему опыту, о машинном обучении говорят много, а вот о его тестировании — заметно реже. В этой статье я расскажу: 1. кратко о нашем ML-проекте 2. с какими трудностями мы столкнулись 3. как решали их на практике Ну и конечно, наши факапы, куда без них? Ура, факапы, погнали!

https://habr.com/ru/articles/1012480/

#ml #машинное_обучение #mlops #разработка #тестирование #опыт #production

Тестирование ML-систем: сложности, факапы и рабочие практики

Привет! Сегодня хочу поделиться опытом тестирования на ML-проекте. По моему опыту, о машинном обучении говорят много, а вот о его тестировании — заметно реже. На истину в последней инстанции не...

Хабр

🔥 Dokumentasi arsitektur terbaru sudah live.

"Cracking the Databricks Generative AI Engineer: A Comprehensive Guide"

🔗 Akses repositori/dokumentasi: https://dev.to/living_palace_033483e788f/cracking-the-databricks-generative-ai-engineer-a-comprehensive-guide-1k5p

#databricks #generativeai #mlops

Cracking the Databricks Generative AI Engineer: A Comprehensive Guide

Cracking the Databricks GenAI Engineer: A Deep Dive The neon glow of the Databricks...

DEV Community

Is AI taking your job, or just changing it?

Two talks at tomorrow's Leeds Data Science Meetup are tackling that question head-on.

📍 Venue: Parallax @ The Elbow Rooms, Leeds

📅 Date: Tuesday 24 March · doors open 6 pm · food included

RSVP link: https://www.meetup.com/leeds-data-science-meetup/events/312986110/ — 95 people already in, grab a spot before it fills!

#DataScience #AI #MachineLearning #MLOps

Every MLOX-created project comes with a secret manager integrated from day one. Credentials for DBs, object stores, and services are handled consistently, so you don’t end up with ad-hoc env var sprawl in CI/CD and local dev.
#security #MLOps

От вет-ИИ для коров до имперского глянца: хардкорный MLOps на бесплатных GPU

В начале 2026 года ленты новостей принесли тревожные сообщения из Сибири: массовые вспышки опасных заболеваний у КРС (крупного рогатого скота) привели к необходимости вынужденного забоя тысяч голов. Для многих фермеров это означало потерю бизнеса и средств к существованию. Мы задались вопросом: может ли доступный Computer Vision стать первой линией обороны? Инструментом, который позволит фермеру в отдаленном районе провести первичный скрининг (триаж) животного с помощью обычного смартфона и вовремя вызвать ветеринара, не дожидаясь начала эпидемии. Так родился проект AI-Vet-Scanner ( наше пространство на Hugging Face ), определяющий признаки заболеваний по фотографии.

https://habr.com/ru/articles/1013214/

#MLOps #Kaggle #Computer_Vision #OpenCV #PyMuPDF #Hugging_Face #датасет #парсинг #оптимизация_памяти #SDXL_LoRA

От вет-ИИ для коров до имперского глянца: хардкорный MLOps на бесплатных GPU

Введение. Контекст как катализатор В начале 2026 года ленты новостей принесли тревожные сообщения из Сибири: массовые вспышки опасных заболеваний у КРС (крупного рогатого скота) привели к...

Хабр

Observability by default: using OpenTelemetry in MLOX, you can track traces, logs, and metrics from the start. No more "we'll add monitoring later": the infra is ready when your first model ships.

#selfhosting #ai #mlops

ML-пайплайны в Kubernetes: от первой строки кода до автоскейлинга и за его пределами

Ваша ML-модель работает в ноутбуке, а в продакшене — нет. Бывало такое? Именно здесь начинается настоящая инженерная задача: взять эксперимент из Jupyter-ноутбука и превратить его в воспроизводимый, наблюдаемый и масштабируемый пайплайн — от сырых данных до стабильного инференса под реальной нагрузкой. Kubernetes давно стал де-факто стандартом для этой работы: более 70% компаний используют его в продакшене — это не дань хайпу, это прагматичный выбор тех, кто уже наступал на грабли. В этой статье разберем, почему K8s выигрывает у альтернатив именно для ML-нагрузок, а также обсудим какие мифы и анти-паттерны тормозят команды на пути к продакшену. Пройдемся по полному стеку: от подготовки кластера и фиксации данных через DVC до canary-деплоя модели и автоскейлинга GPU-подов. В конце вас ждет взгляд на то, куда движется индустрия: serverless-ML, multi-LLM-ops и edge-развертывания. Если вы DevOps- или MLOps-инженер, которому приходится запускать обучение и инференс в одном кластере, или R&D-инженер, чьи модели «магически ломаются» при переходе в прод — читать обязательно.

https://habr.com/ru/companies/cloud_ru/articles/1011810/

#Kubernetes #MLOps #ML_pipeline #KServe #TFX #DVC #HPA #Prometheus #Grafana #DevOps

ML-пайплайны в Kubernetes: от первой строки кода до автоскейлинга и за его пределами

Ваша ML-модель работает в ноутбуке, а в продакшене — нет. Бывало такое? Именно здесь начинается настоящая инженерная задача: взять эксперимент из Jupyter-ноутбука и превратить его в...

Хабр