Ваш Kubernetes упал: найдёте root cause за 15 минут?

Вторник, 14:00. Кластер Kubernetes перестал отвечать, команда в панике, а вам нужно за 15 минут найти первопричину. В этой статье пройдём диагностику реального отказа вместе с SRE: увидим логи, манифест etcd и ошибки, которые совершают даже опытные инженеры. Попробуйте сначала решить задачу сами, а потом сверьтесь с пошаговым разбором и проверьте, насколько вы готовы к такому инциденту.

https://habr.com/ru/companies/otus/articles/1031260/

#Kubernetes #etcd #kubelet #SRE #DevOps #productionинцидент #отказ_кластера #root_cause #control_plane #runbook

Ваш Kubernetes упал: найдёте root cause за 15 минут?

Всем привет, меня зовут Сергей Прощаев. Я Tech Lead и руководитель направления Java | Kotlin‑разработки в FinTech & E‑commerce, а ещё преподаю на курсах разработки и архитектуры...

Хабр
👀 LOOKING FOR ROOT CAUSE .. is not an exact science. There is #art involved that surpasses #science and roams into the jungles of #human_condition before #logic and #mathematics and #statistics can produce meaningful and useful results. #Politics is considered a #root_cause my fellow #errtlings. 🎡

a cartoon of a coyote with bin...