https://queue.acm.org/detail.cfm?id=2898444
Как мы построили распределённый мониторинг аптайма
В прошлый раз я писал про рекурсивную задачу мониторинга : кто мониторит монитор? Если Prometheus упал — вы не видите ничего, и самое коварное тут в том, что отвалившийся мониторинг внешне неотличим от идеальной стабильности. Та статья заканчивалась честно и немного грустно: чистого решения нет, есть только слои подстраховки и остаточный риск, с которым приходится жить. Или всё таки есть?
https://habr.com/ru/articles/1049518/
#monitoring #uptime #distributed #federation #decentralized #peertopeer #observability