Как мы внедряли QoS InfiniBand для приоритизации ML-обучений с точки зрения сети

В статье расскажем, как мы командой Yandex Infrastructure внедрили QoS в сетях InfiniBand при ограниченной вендорской поддержке и скудной практической документации. Обсудим мотивацию: рост смешанных нагрузок во внутреннем облаке и необходимость предсказуемых SLO для различных обучений. Отдельно рассмотрим как могут быть связаны QoS и топология сети DragonFly+.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/1015226/

#infiniband #qos #ml #mlops #gpu #dragonfly+

Как мы внедряли QoS InfiniBand для приоритизации ML-обучений с точки зрения сети

Привет! Меня зовут Роман, в Yandex Infrastructure я работаю в команде Network Operations Center (NOC) и занимаюсь фабриками сетей дата‑центров. Это включает в себя и сети нашего...

Хабр