Kubernetes 1.29.15 и GPU: как починить пропавшие видеокарты и настроить Time-Slicing
В Ситидрайве Kubernetes обновляют регулярно — инфраструктура большая, и актуальность версий критически важна. После апгрейда до версии 1.29.15 один из GPU-узлов внезапно «забыл» о своей видеокарте, и нам пришлось срочно искать решение. В этой статье я расскажу, в чём была причина бага и как Time-Slicing помог повысить утилизацию GPU. Статья будет полезна всем, кто работает с GPU в Kubernetes и хочет избежать подобных сюрпризов в продакшене.
https://habr.com/ru/companies/citydrive/articles/956684/
#kubernetes #GPU #GPU_Operator #TimeSlicing #DevOps #каршеринг #Kubernetes_129 #GPU_Resource_Management