Как мы мониторинг SMART-данных дисков в оVirt экосистеме прикручивали

Представьте, что на одной из множества ваших виртуальных машин, работающих на oVirt, начнет давать сбой диск в одном из узлов? Мы в Hostkey используем связку smartctl_exporter совместно с Prometheus и Grafana чтобы отследить этот момент и успеть принять меры и хотим поделиться с вами нашим опытом.

https://habr.com/ru/companies/hostkey/articles/869658/

#prometeus #grafana #алертинг #smartctl #hdd #sdd #nvme #хостинг #ovirt #hostkey

Как мы мониторинг SMART-данных дисков в оVirt экосистеме прикручивали

«Предупреждение болезни HDD или SDD может спасти вашу рабочую неделю», — учили старейшины DevOps. И они были правы! Представьте: у вас целая когорта виртуальных машин, работающих на oVirt. Но что...

Хабр

CMDB в ИТ-мониторинге или как устранять инциденты в 3 раза быстрей

Сегодня расскажем про то, как модуль управления инцидентами и модуль CMDB работают в паре для общей цели — сокращения времени на устранение аварий в несколько раз. Традиционно — все примеры из статьи можно реализовать в бесплатной комьюнити версии Monq.

https://habr.com/ru/companies/monq/articles/861858/

#мониторинг #мониторинг_сервера #инцидентменеджмент #инциденты #мониторинг_логов #мониторинг_итинфраструктуры #мониторинг_инфраструктуры #зонтичный_мониторинг #алертинг #cmdb

CMDB в ИТ-мониторинге или как устранять инциденты в 3 раза быстрей

Сегодня расскажем про то, как модуль управления инцидентами и модуль CMDB работают в паре для общей цели — сокращения времени на устранение аварий в несколько раз. Традиционно — все примеры из статьи...

Хабр

Современный on-call менеджмент: 5 основных шагов от мониторинга до постмортема

Управление инцидентами - это порой ночной кошмар любого ИТ-директора. Поднимите руку те, у кого не было ночных сообщений, что упал критический сервис! Почему так мало рук? Да потому что этот самый процесс в большинстве компаний устроен криво. Каждый раз его придумывают заново, проходя путь от ручного режима, далее общей почты или телеграмм группы до самописной системы управления инцидентами. И чем позже мы приходим в компанию выправлять процесс, тем больше сопротивления и непонимания “А что так можно было?”. Помню, как 8 лет назад я руководил сервисной службой в компании, которая предоставляла услуги поддержки важной внутренней системы крупного клиента. Однажды ночью, примерно в три часа, мой телефон разрывается от звонка. На экране — заказчик. Не успеваю сказать "алло", как слышу: "Вы там спите что ли? У нас АСУ ПОБСУ лежит! Вы в курсе почему? (Я молчу) Мы больше не будем с вами работать!" — и бросает трубку.

https://habr.com/ru/companies/monq/articles/859446/

#мониторинг_логов #мониторинг #инцидентменеджмент #инцидент #алерты #алертинг #oncall #lowcode #low_code #nocode

Современный on-call менеджмент: 5 основных шагов от мониторинга до постмортема

Управление инцидентами - это порой ночной кошмар любого ИТ-директора. Поднимите руку те, у кого не было ночных сообщений, что упал критический сервис! Почему так мало рук? Да потому что этот самый...

Хабр

Тернистый путь к единому хранилищу метрик

Метрики — один из трёх базовых типов телеметрии и основа мониторинга любого приложения. Но что, если необходимо собирать их в рамках крупной и высоконагруженной экосистемы? Как собрать метрики с десятков тысяч хостов разных ЦОДов и сотен типов приложений? И как упростить инженерам настройку правил алертинга и создание дашбордов? Привет, Хабр! Я Филипп Бочаров, руководитель стрима мониторинга и наблюдаемости в МТС Digital. Мы занимаемся всеми типами телеметрии: логами, трассировкой и, конечно, метриками. Единое хранилище метрик экосистемы — часть нашей платформы наблюдаемости. Для этих целей мы используем агент Telegraf и большой кластер VictoriaMetrics, принимающий 10+ миллионов сэмплов в секунду. В этой статье расскажу, как мы реализовали централизованное управление конфигурацией агентов, удобный интерфейс для настройки алертинга и правил сбора метрик. Покажу, как менялась архитектура решения с ростом нагрузки, как мы боролись с отставанием и потерей данных. Посмотрим, как это позволило собрать все метрики в единое хранилище и построить дашборды здоровья по ключевым продуктам.

https://habr.com/ru/companies/oleg-bunin/articles/851024/

#observability #victoriametrics #метрики #датацентр #цоды #алертинг #дашборды #telegraf #кардинальность #лаги

Тернистый путь к единому хранилищу метрик

Метрики — один из трёх базовых типов телеметрии и основа мониторинга любого приложения. Но что, если необходимо собирать их в рамках крупной и высоконагруженной экосистемы? Как получить метрики с...

Хабр

Мониторинг простыми словами, или как я объяснил маме работу SRE

Несмотря на то, что я не единственный айтишник в семье, объяснить свою профессию выходило немного накладно. "Что такое SRE? Как сис.админ что ли? А в чем разница-то?". И ведь действительно, с учетом того, что в РФ границы между теми же DevOps и SRE размыты , а на должность системного администратора ищут чернокнижника с опытом стабилизации прода, неудивительно, что человек и вовсе не связанный с этой сферой может запутаться.

https://habr.com/ru/articles/841714/

#sre #devops #sysadmin #простыми_словами #мониторинг #алертинг

Мониторинг простыми словами, или как я объяснил маме работу SRE

Несмотря на то, что я не единственный айтишник в семье, объяснить свою профессию выходило немного накладно. "Что такое SRE? Как сис.админ что ли? А в чем разница-то?". И ведь действительно, с учетом...

Хабр

Разбираемся, как настроить алертинг из OpenSearch по email

Ни одно внедрение платформ для запуска контейнеризованных приложений в продуктивном контуре не должно обходиться без настройки логирования происходящих событий. В нашей платформе для управления контейнерами «Штурвал» для этих целей используется модуль OpenSearch. На одном из проектов мне понадобилось настроить алертинг, чтобы администраторы k8s получали по электронной почте оповещение, если происходят те или иные события. Например, когда назначается ClusterRole с высоким уровнем доступа, при попытке запуска привилегированного контейнера или изменении конфигурации узла. Изначально в кластере была настроена Audit Policy, определяющая, какие события должны записываться в журнал аудита и какие данные они должны содержать, а также Fluentbit Operator, отправляющий всё в OpenSearch. Кстати, подробнее о том, как мы настраиваем политику аудита в «Штурвале», я буду рассказывать 5 июня на конференции БеКон . Казалось бы, дело за малым — изучить документацию и настроить алертинг, который доступен непосредственно в интерфейсе OpenSearch. Но этой статьи бы не было, если бы не дьявол, спрятавшийся в деталях. С настройкой SMTP действительно не возникло никаких проблем, алертинг на нужные ресурсы тоже настраивался нативно. Но когда понадобилось вытащить данные из тела запроса и добавить их в отправляемое письмо, OpenSearch сказал, что «у него лапки». В открытых источниках я нашла множество тикетов без ответов или с сомнительными советами, которые не помогали решить проблему. В итоге алертинг я настроила и попутно сделала инструкцию. Надеюсь, она будет для вас полезной.

https://habr.com/ru/companies/jetinfosystems/articles/819027/

#opensearch_* #email #алертинг #оповещение #логирование #kubernetes #контейнеризация #алерты

Разбираемся, как настроить алертинг из OpenSearch по email

Ни одно внедрение платформ для запуска контейнеризованных приложений в продуктивном контуре не должно обходиться без настройки логирования происходящих событий. В нашей платформе для управления...

Хабр

Tenis: как загнать все мячи на один корт, или Как мы решились на создание своего алерт менеджера

Мы в Ivinco помогаем нашим клиентам строить, развивать и поддерживать инфраструктуру. C некоторыми из них мы работаем уже более 10 лет, с другими только начинаем. Все это естественным образом предполагает, во-первых, гетерогенную среду для работы и, во-вторых, соседство легаси и современных систем и подходов. И поскольку поддержка инфраструктуры само собой подразумевает ее мониторинг, то мы обязаны следить за всем этим IT ландшафтом и оперативно реагировать на инциденты. Долгое время основным инструментом мониторинга у нас был Nagios. Те, кто имеет опыт работы с ним, знают, что это хороший инструмент, но его GUI абсолютно не функционален. Поэтому мы использовали nagios API от проекта Zorkian и самописный GUI. У нас были вопросы по производительности и к API, и к нашему собственному GUI, однако в целом нам этого хватало. Но по мере роста количества проектов добавлялись новые системы мониторинга: Zabbix, Prometheus. А поскольку мы предоставляем услугу по поддержке 24/7, то нам крайне важно, чтобы дежурный инженер получал актуальную информацию о событиях с разных систем из разных проектов на одном экране. Так мы пришли к пониманию, что нам нужен алерт менеджер, который способен агрегировать алерты из разных инструментов мониторинга.

https://habr.com/ru/articles/805411/

#мониторинг #алертинг

Tenis: как загнать все мячи на один корт, или Как мы решились на создание своего алерт менеджера

Проблематика Мы в Ivinco помогаем нашим клиентам строить, развивать и поддерживать инфраструктуру. C некоторыми из них мы работаем уже более 10 лет, с другими только начинаем. Все это естественным...

Хабр

Настройка алертингов из Opensearch в Telegram

В «Магните» только по 1С-системам суточный объем логов переваливает за 100 Гб. Их нужно обрабатывать, использовать, выделять ценные данные. Конечно, мы пользуемся Discover и различными дашбордами и визуализациями. Но иногда необходима оперативность. Тогда пригождается система алертингов: она позволяет создавать оповещения и уведомлять пользователей о различных событиях или изменениях в данных. В рунете не так много материалов по настройке алертингов, поэтому мы решили поделиться своим мануалом в надежде, что это поможет кому-то сберечь драгоценное время. В статье познакомимся с основами работы с алертингами в OpenSearch и настроим один способ доставки оповещений — в Telegram.

https://habr.com/ru/companies/magnit/articles/777862/

#opensearch #telegram #алертинг #1с #оповещения #логирование #elasticsearch #сопровождение

Настройка алертингов из Opensearch в Telegram

В «Магните» только по 1С-системам суточный объем логов переваливает за 100 Гб. Их нужно обрабатывать, использовать, выделять ценные данные. Конечно, мы пользуемся Discover с различными дашбордами и...

Хабр