Как мы внедряли QoS InfiniBand для приоритизации ML-обучений с точки зрения сети
В статье расскажем, как мы командой Yandex Infrastructure внедрили QoS в сетях InfiniBand при ограниченной вендорской поддержке и скудной практической документации. Обсудим мотивацию: рост смешанных нагрузок во внутреннем облаке и необходимость предсказуемых SLO для различных обучений. Отдельно рассмотрим как могут быть связаны QoS и топология сети DragonFly+.
https://habr.com/ru/companies/yandex_cloud_and_infra/articles/1015226/
