Anyone has implemented gang scheduling for Ray clusters with per ray cluster granularity. I do not need ”fancy” borrowing or fairness. But I do want per Ray cluster not per let’s say namespace shared quota. Any tips?

#Ray #Kueue #Volcano

Anyone has implemented gang scheduling for Ray clusters with per ray cluster granularity. I do not need ”fancy” borrowing or fairness. But I do want per Ray cluster not per let’s say namespace shared quota. Any tips?

#Ray #Kueue #Volcano

Планируем GPU-нагрузку в Kubernetes: от стандартных механизмов до кастомных решений

Привет, Хабр! Меня зовут Макарий, и как Senior SRE в Yandex Cloud я не только участвовал в разработке Managed Service for Kubernetes, но и всегда любил в свободное время посмотреть, что интересного понавыпускали для «кубика». Kubernetes, как де‑факто стандарт оркестрации контейнеров, предлагает базовые механизмы для управления вычислительными ресурсами. Однако стандартный планировщик Kubernetes (kube‑scheduler) разрабатывался с учётом общих принципов балансировки нагрузки и не специализирован для уникальных особенностей рабочих GPU‑нагрузок. Предлагаю рассмотреть весь спектр возможностей — от встроенных механизмов шедулинга K8s до специализированных планировщиков, таких как Volcano, Apache YuniKorn и KAI‑Scheduler. Проанализирую конкретные сценарии, в которых каждый из этих инструментов демонстрирует свои преимущества, и предложу рекомендации по выбору оптимального решения для ваших рабочих GPU‑нагрузок.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/971026/

#kubernetes #scheduler #scheduling #kai #Apache_YuniKorn #JobSet #Volcano_Scheduler #Kueue

Планируем GPU-нагрузку в Kubernetes: от стандартных механизмов до кастомных решений

Привет, Хабр! Меня зовут Макарий, и как Senior SRE в Yandex Cloud я не только участвовал в разработке Managed Service for Kubernetes, но и всегда любил в свободное время...

Хабр

I’ve been investigating Kueue to bring you a concise analysis that explains what it is and how it can be integrated into your platform.

☝🏼 Whether you’re managing AI tasks, large-scale data processing, or multi-user machine learning experiments, Kueue offers an intriguing approach to resource management and job scheduling in Kubernetes.

https://newsletter.optimistengineer.com/p/introduction-to-kueue?r=nw9bj&utm_campaign=post&utm_medium=web&showWelcomeOnShare=false

#softwareengineering #leadership #kueue #kubernetes

Introduction to Kueue

A cloud-native job queueing system for batch, HPC and AI/ML

CERN's Ricardo Rocha and Google's Marcin Wielgus present #Kueue project during #kubecon Day 1 keynote. I wrote about work @RedHat @openshift is doing with Kueue in yesterday's story from #openshiftcommons: https://www.techtarget.com/searchitoperations/news/366615732/OpenShift-AI-boosts-LLMOps-chops-with-Neural-Magic-deal
OpenShift AI boosts LLMOps chops with Neural Magic deal

The acquisition of a top contributor to an open source library already linked to OpenShift AI comes as LLMOps fundamentally alters the platform engineering scene.

TechTarget
Specifically, I discuss several levels to think about scheduling workloads in #Kubernetes, moving from the top level to custom plugins and controllers, scheduler ecosystems (#kueue and #volcanosh), and down to partition based scheduling. Are there gotchas in there? You bet! 😆