MSTDN væltede imens jeg var i biffen. Endnu en databaseting, og lur mig om jeg ikke har fundet fejlen! Jeg skal lave lidt cleanup i morgen og kommer med en art post-mortem, men den korte version er at off-site backup af transaktionslogs for databaserne ikke kunne nåes fra clusteret, og som resultat løb de volumes der holder transaktionsloggene fulde og databasen fik det så skidt at den ikke kunne magte failover. Der er flere ting der skal graves i, men jeg tror det var root cause.

Endnu en læring rigere - beklager nedetiden.

Jeg skal have kigget på noget alerting der går amok, hvis clusteret hos Hetzner I Tyskland ikke kan nå SAN'et i rackskabet I kælderen. Helt specifikt var det HAProxy på UDMPro'en der ikke var startet efter automatisk opdatering, da /run/haproxy ikke længere eksisterede. Det er sådan noget der skal få alarmklokkerne til at bimle.

Det bliver nok noget med #AlertManager og en HTTP-baseret blackbox probe.

.. Men først skal jeg lige have støbt betongulv I hønsehuset 😀

#udmpro #onbootd

@saustrup
Det lyder som en god prioritering 😀
UDMPro ved jeg hvad er..
og hønsehus. 🫣😬