[Перевод] Когда повторы убивают: метастабильные отказы в распределённых системах

Бывают сбои, которые не исчезают после устранения причины: система залипает, полезная пропускная способность почти нулевая, а петли обратной связи удерживают отказ. В статье формализуем это как метастабильные отказы, разберем цикл «стабильное → уязвимое → метастабильное», характерные метрики и «скрытую ёмкость». Обсудим практики сохранения полезной пропускной способности под перегрузкой: бюджет повторов, приоритеты и отбрасывание запросов, обслуживание «последних первыми», грамотное управление очередями и автомат защиты. Читать про метастабильность

https://habr.com/ru/companies/otus/articles/955442/

#метастабильность #метастабильный_отказ #распределённые_системы #петли_обратной_связи #work_amplification #retry_budget #goodput

Когда повторы убивают: метастабильные отказы в распределённых системах

TL;DR Метастабильный отказ — это когда триггер уводит систему в «плохое» состояние, а поддерживающая петля не даёт вернуться: полезная пропускная способность стремится к нулю. Это не...

Хабр