IncidentRelay: self-hosted on-call, alert routing и уведомления без SaaS и канадских номеров

Привет, Habr! Мы разрабатываем IncidentRelay - self-hosted систему для on-call scheduling, маршрутизации алертов и доставки уведомлений. Идея простая: дать командам SRE, DevOps, platform и operations понятный инструмент, который можно развернуть у себя, подключить к мониторингу и использовать без зависимости от внешней incident-management платформы.

https://habr.com/ru/articles/1044068/

#monitoring #alertmanager #oncall #incident_management #duty

IncidentRelay: self-hosted on-call, alert routing и уведомления без SaaS и канадских номеров

Привет, Habr! Мы разрабатываем  IncidentRelay  - self-hosted систему для on-call scheduling, маршрутизации алертов и доставки уведомлений. Идея простая: дать командам SRE, DevOps, platform и...

Хабр

Multi-region quorum: «все регионы согласны» против «N из M»

К-of-N или all-must-agree? Два подхода к quorum-логике в multi-region мониторинге. Я остановился на all-must-agree с consecutive-failure threshold. С Redis-схемой, кодом и разбором edge-кейсов где каждый подход ломается.

https://habr.com/ru/articles/1035600/

#мониторинг #quorum #SRE #false_positive #Redis #distributed_systems #alerting #threshold #uptime #incident_management

Multi-region quorum: «все регионы согласны» против «N из M»

Привет, Хабр! В моём uptime-мониторинге Valpero сейчас семь production-мониторов и десять probe-регионов. Когда я только начал, false-positive алёрты приходили часто — типичная история с single-region...

Хабр

도구 선택보다 ITSM 성숙도가 더 중요한 이유

IT 서비스 관리의 실패는 도구의 부재가 아니라 낮은 ITSM 성숙도와 불명확한 프로세스, 책임 소재의 부재에서 기인한다.

🔗 원문 보기

도구 선택보다 ITSM 성숙도가 더 중요한 이유

IT 서비스 관리의 실패는 도구의 부재가 아니라 낮은 ITSM 성숙도와 불명확한 프로세스, 책임 소재의 부재에서 기인한다.

Ruby-News | 루비 AI 뉴스

Как не поехать кукухой и всё успеть: выстраиваем рабочую систему из привычек

Уже вечер, ты активно пишешь код. Тревожность вместе с тобой. Утром на дейли сказал, что добьёшь таску: да она не сложная, каких‑то 2 стори поинта. Но вот вечер, и ты точно не успеваешь. Завтра на дейли спросят статус задачи, а ты — не сделал. Да, ты общался с архитектором по решению, отвечал на вопросы поддержки и помогал решать проблемы с тестовым окружением. Ещё был синк с другой командой, помог решить проблему с локальным окружением другому разработчику и готовил контракт для фронта для будущей таски. И на обед ты не сходил. Но кого это заботит, если твоя задача все ещё в InDev? Точно придётся посидеть ещё пару часов ночью, чтобы закрыть должок. Или другой вариант. Ты — менеджер. У тебя за день от 5–6 встреч. Всё нужно решить. Ну и текучка не отпускает: нужно решить конфликт в команде «А», есть запрос на согласование обучения для Иванова, нужно ещё согласовать технические работы и выдать пару доступов. А ещё Сергей из команды «B» недостаточно открыто ответил на вопрос своего коллеги, и тут просят твоего внимания. И, кстати, ещё нужно запланировать изменение процесса и предложить расчёт новой метрики. Знакомо? Тогда тебе точно нужен курс по time management ряд привычек, которые каждый может внедрить в свою работу.

https://habr.com/ru/articles/1004270/

#soft_skills #soft_skills_руководителя #soft_skills_для_разработчиков #time_management #knowledge_management #incident_management #communication

Как не поехать кукухой и всё успеть: выстраиваем рабочую систему из привычек

Уже вечер, ты активно пишешь код. Тревожность вместе с тобой. Утром на дейли сказал, что добьёшь таску: да она не сложная, каких‑то 2 стори поинта. Но вот вечер, и...

Хабр

Как мы случайно сделали стартап, пока учили ИИ работать с реальной инфраструктурой

Когда мы впервые увидели AI-чаты, это выглядело впечатляюще. Они писали код, помогали с документацией, объясняли архитектурные решения. Это было хорошо. Но довольно быстро стало понятно главное:

https://habr.com/ru/articles/980648/

#DevOps #SRE #Kubernetes #AI #LLM #Production #Infrastructure #SSH #Incident_management #Automation

Как мы случайно сделали стартап, пока учили ИИ работать с реальной инфраструктурой

Когда мы впервые увидели AI-чаты, это выглядело впечатляюще. Они писали код, помогали с документацией, объясняли архитектурные решения. Это было хорошо. Но довольно быстро стало понятно главное: Для...

Хабр

Следствие вели, или Культура инцидент- и проблем-менеджмента в Ozon

Обрыв каналов связи, багованный релиз, мискоммуникация… Серия загадочных событий, авантюрный детектив из цикла «Следствие вели…» — нет, не с Леонидом Каневским, и даже не Колобки, а команда разбора инцидентов, или просто Post. Хей-хей! Я Юля, и я специалист по сопровождению инцидентов в команде Post департамента SRE (Site Reliability Engineering). Когда я рассказываю своим друзьям, чем я занимаюсь на работе, мне часто говорят, что я работаю в детективном агентстве. Поэтому сегодня поговорим о том, как устроено управление инцидентами и проблемами в Ozon и чем оно схоже с работой детективов. Статья-расследование будет интересна всем, кто хоть раз задумывался о том, как большие компании не только справляются с форс-мажорами, но и учатся на своих ошибках. Расскажу о внутренней кухне и почему инцидент- и проблем-менеджмент — не «бюрократия», а палочка-выручалочка на пути к стабильности. Вперед вперед!

https://habr.com/ru/companies/ozontech/articles/925046/

#incident_management #incident #problem_management #postmortem #troubleshooting #инцидентменеджмент #управление_проблемами #управление_инцидентами #sre

Следствие вели, или Культура инцидент- и проблем-менеджмента в Ozon

Обрыв каналов связи, багованный релиз, мискоммуникация… Серия загадочных событий, авантюрный детектив из цикла «Следствие вели…» — нет, не с Леонидом Каневским, и даже не Колобки — а команда разбора...

Хабр
Tracking developer build times to decide if the M3 MacBook is worth upgrading | incident.io

When our CTO said "I'll upgrade your MacBook if you can prove it's worthwhile" we embarked on a journey including (re)building a Go hot-reloader, instrumenting developer builds, analysing compiler performance and feeding an AI model the data until we had an answer.