Ваш Kubernetes упал: найдёте root cause за 15 минут?
Вторник, 14:00. Кластер Kubernetes перестал отвечать, команда в панике, а вам нужно за 15 минут найти первопричину. В этой статье пройдём диагностику реального отказа вместе с SRE: увидим логи, манифест etcd и ошибки, которые совершают даже опытные инженеры. Попробуйте сначала решить задачу сами, а потом сверьтесь с пошаговым разбором и проверьте, насколько вы готовы к такому инциденту.
https://habr.com/ru/companies/otus/articles/1031260/
#Kubernetes #etcd #kubelet #SRE #DevOps #productionинцидент #отказ_кластера #root_cause #control_plane #runbook

