Антипаттерны Zabbix в крупной инфраструктуре: каталог базовых граблей
Две сцены, которые видел в разных компаниях в последний год. Сцена первая. На стене в кабинете директора по ИТ висит большой телек, на нём дашборд: «Availability 99.83%», зелёные плашки, всё хорошо. В этот же момент этажом ниже бухгалтерия пишет в поддержку: «1С зависла, не можем закрыть смену». Дашборд не врёт — 99.83% хостов реально доступны. Просто из этих хостов 78 — тестовые стенды, 12 — резервные узлы, и ещё пачка в SCADA‑сегменте, который вообще про другое. Сцена вторая. Заходишь в Zabbix новой компании после предыдущего админа. Четыре тысячи хостов, двенадцать тысяч триггеров, средний возраст триггера три года. Runbook'ов нет. У всего severity High . Алерты падают в один телеграм‑чат на пятьдесят человек, который дежурный молча мьютит первым делом после прихода на смену. Если хоть одна сцена узнаваемая — статья для вас. Это попытка структурировать ошибки, на которых ломается большинство Zabbix‑инсталляций в крупных компаниях с 1С, Exchange, SCADA, legacy‑Windows‑стеком и КИИ‑сегментами. Это не учебник и не пошаговая инструкция — каталог граблей из практики работы с крупной разнородной инфрой: 1000+ хостов, 1С, SCADA, КИИ‑сегменты, legacy Zabbix от предшественников. На облачной 20-хостовой инсталляции половина пунктов будет избыточна. Конкретные пороги (CPU > 85%) — отправная точка, не догма. Если текст расходится с реальностью — побеждает реальность.
https://habr.com/ru/articles/1040166/
#zabbix #monitoring #operation_framework #infrastucture