The Challenge?
- Performance bottlenecks with individual #Prometheus instances hitting CPU and memory ceilings
- #Alerting pipelines where reliability is non-negotiable
- Heavy operational overhead from managing a complex federated architecture
With #VictoriaMetrics, DSV optimized efficiency, scalability, and reliability across their Kubernetes environments.
👉 Learn more in our case study
https://bit.ly/4vmBI5r
Scalable Prometheus: Why DSV Chose VictoriaMetrics

World's largest freight forwarder DSV chose VictoriaMetrics for observability: Stability & Reliability, Operational Simplicity, Proven Scale. 800k datapoints/second, 72M ATS

VictoriaMetrics

Heartbeat-мониторинг cron-job'ов: dead-man-switch на FastAPI

Обычный uptime-мониторинг проверяет, отвечает ли сервис на запросы. Cron-job ничего не отвечает — он запускается раз в N часов, делает работу и молча завершается. Если cron перестал запускаться (uptime daemon упал, машина в read-only mode после fsck, disk full) — обычный мониторинг этого не видит. Решение известно с 70-х — паттерн dead-man-switch (он же heartbeat). Я недавно делал heartbeat-эндпоинты для Valpero. Здесь разберу серверную часть на FastAPI + клиентский bash-pattern, и edge-кейсы которые их ломают. В конце готовый код, который можно адаптировать под свой стек.

https://habr.com/ru/articles/1035624/

#cron #heartbeat #deadmanswitch #monitoring #alerting #bash #FastAPI #Celery #devops #linux

Heartbeat-мониторинг cron-job'ов: dead-man-switch на FastAPI

Привет, Хабр! Обычный uptime-мониторинг проверяет, отвечает ли сервис на запросы. Cron-job ничего не отвечает — он запускается раз в N часов, делает работу и молча завершается. Если cron перестал...

Хабр

Multi-region quorum: «все регионы согласны» против «N из M»

К-of-N или all-must-agree? Два подхода к quorum-логике в multi-region мониторинге. Я остановился на all-must-agree с consecutive-failure threshold. С Redis-схемой, кодом и разбором edge-кейсов где каждый подход ломается.

https://habr.com/ru/articles/1035600/

#мониторинг #quorum #SRE #false_positive #Redis #distributed_systems #alerting #threshold #uptime #incident_management

Multi-region quorum: «все регионы согласны» против «N из M»

Привет, Хабр! В моём uptime-мониторинге Valpero сейчас семь production-мониторов и десять probe-регионов. Когда я только начал, false-positive алёрты приходили часто — типичная история с single-region...

Хабр
The big thing is that #VictoriaLogs is now Generally Available in VictoriaMetrics #Cloud: fast, cost-effective, fully managed #log management, built with the same philosophy as VictoriaMetrics. Beyond that, we made it significantly easier to talk to your #metrics through a hosted #MCP Server, expanded #alerting with a new rules editor and a much longer catalog of presets, notifications via generic webhooks, and launched a new product page with a cost calculator.

Monitor your devices with LibreNMS on FreeBSD

A guide on how to set up LibreNMS inside a FreeBSD jail.

https://it-notes.dragas.net/2026/05/07/monitor-your-services-with-librenms-on-freebsd/

#ITNotes #FreeBSD #Monitoring #Server #OwnYourData #Alerting #IT #SysAdmin #LibreNMS

Monitor your devices with LibreNMS on FreeBSD

A guide on how to set up LibreNMS inside a FreeBSD jail.

IT Notes

Deep dive on Slack webhooks and apps for alerts, approvals, and workflow automation. Block Kit buttons, signature verification, Go and Python examples.

#integration #alerting #observability #golang #python #Architecture #Dev #Go

https://www.glukhov.org/app-architecture/integration-patterns/slack/

Slack Integration Patterns for Alerts and Workflows

Deep dive on Slack webhooks and apps for alerts, approvals, and workflow automation. Block Kit buttons, signature verification, Go and Python examples.

Rost Glukhov | Personal site and technical blog

Deep dive on Discord webhooks and bots for alerts, approvals, and human-in-the-loop control. Go and Python examples, security, idempotency, and routing.

#integration #observability #alerting #bots #python #Architecture #Dev #Go #Golang

https://www.glukhov.org/app-architecture/integration-patterns/discord/

Discord Integration Pattern for Alerts and Control Loops

Deep dive on Discord webhooks and bots for alerts, approvals, and human-in-the-loop control. Go and Python examples, security, idempotency, and routing.

Rost Glukhov | Personal site and technical blog

A practical pillar page on alerting design, routing, noise reduction, and human response across observability systems, paging tools, and chat platforms.

#observability #alerting #prometheus #Architecture #Dev

https://www.glukhov.org/observability/alerting/

Modern Alerting Systems Design for Observability Teams

A practical pillar page on alerting design, routing, noise reduction, and human response across observability systems, paging tools, and chat platforms.

Rost Glukhov | Personal site and technical blog

Колобок-стек: я от бабушки ушёл, или как мы написали свой сервер алертов на 16 МБ

Pusk — self-hosted сервер алертов на 16 МБ. Один бинарник, без внешних сервисов, частично совместим с Telegram Bot API (13 методов из 80+). Типичная ситуация: несколько серверов, Zabbix собирает метрики, Python‑боты шлют алерты в Telegram. У кого‑то это веб‑проект, у кого‑то видеонаблюдение, у кого‑то живые эфиры, где 2 минут без алерта = зрители видят чёрный экран. Работало годами. А потом канал до API отвалился. Причина неважна — лимиты, блокировки, авария на стороне провайдера. Алерты встали. Нужен был свой канал доставки, который не зависит от внешних сервисов. Покатились →

https://habr.com/ru/articles/1018932/

#pusk #selfhosted #alerting #telegram_bot_api #go #sqlite #devops #monitoring #alertmanager #pwa

Колобок-стек: я от бабушки ушёл, или как мы написали свой сервер алертов на 16 МБ

Нет повести печальнее на свете, чем повесть о лежачем алерте. Pusk  — self‑hosted сервер алертов на 16 МБ. Один бинарник, без внешних сервисов, частично совместим с Telegram Bot API...

Хабр

Our latest lightning talk shows you a simple way to know if your alerting pipeline actually works.

https://www.youtube.com/watch?v=zlA-d5Bxn_c

#Zeek #NetworkSecurity #OpenSource #Alerting

Test Your Zeek Alerting Pipeline with a Simple Script

YouTube