Mastodawn

Лаконично и по делу:
**Ситуация:**
Разработчик **Джон** пишет в чат:
*Good morning, I'm about to destroy the backend and DB.*
Это читается как:
**«Доброе утро, я сейчас уничтожу бэкенд и базу данных.»**
Коллега **моментально понимает**, что если Джон реально сделает то, что он написал — **проекту пришёл конец**, данные потеряны, сервис упадёт.
Он пытается **срочно его остановить** — звонит, пишет, паникует:
**Пожалуйста, возьми трубку!**
**Возьми выходной!**
**Ничего не делай, просто ничего не трогай!**
Джон отвечает:
*Deploy** (то есть «разворачиваю обновление»).
*Applogies* («Извините». Тоже с ошибкой.)
*I got this, don’t worry, it was a typo.*
(«Я справлюсь, не переживай, это просто опечатка.»)
**Но**:
Когда человек пишет **три подряд ошибки в сообщениях о критически важном деплое**, это значит только одно: **он не в форме** → сонный, больной, нервный, неадекватный.
Поэтому коллега настаивает:
**Я знаю, но ОЧЕНЬ ПРОШУ — НЕ ДЕЛАЙ НИЧЕГО.**
Перевод сути «для тех кто в танке»:
**Джон сообщил, что сейчас случайно может уничтожить сервер и данные.
Коллега понял, что Джон реально в состоянии всё сломать, и пытается его остановить, увести от клавиатуры, дать ему отдых и запретить делать деплой.**
Для закрепления образа:
Это мем о том, что **самая страшная фраза в IT — не «всё сломалось», а «я сейчас всё починю» от человека, который плохо спал**.
И ещё — про корпоративную культуру, где **звонок важнее, чем чат**, потому что **иногда секунды решают судьбу всего проекта**.
Если хочешь, могу сделать **короткую подпись для поста + хэштеги** (к IT, DevOps, SRE, продакшен-панике).

https://bastyon.com/post?s=a7046a4e14dd129ed6957c52b6a972436aa5609aab23f33ee864a5090429fbb7&ref=PDQmXtWJfd8f6fMtwaxzCuqvLpoN3KbS4o

Беру тематику картинки: **деплой, прод, паника, культура разработки, ответственность, DevOps, SRE, осторожность при изменениях.**
Сбалансировано: часть — для массовой аудитории, часть — профессиональные.
**23 хэштега:**
```
#itюмор #разработчики #программисты #девопсжизнь
#продвиживая #деплойвпятницу #неТрогайПрод
#инженернаяэтика #культураразработки #кодревью
#бекапэтомы #синьорскотакнесделает #джунмоменты
#sre #devops #backend #frontend #fullstack
#инцидентывпроде #постмортем #itреальность
#работаскодом #цифроваягигиена #техностресс

```
Если хочешь — могу сделать **очень короткий обозначающий подпост**, например:
*Самое страшное в IT — не когда система падает.
Самое страшное — когда кто-то усталый говорит: «Ща быстро поправлю…».*

Habr Aug 28

Как я перестал гнаться за 100% аптаймом

Когда я только начинал работать, 100% аптайма казались мне священным граалем. Казалось: если сервис никогда не падает — пользователи счастливы, бизнес доволен, инженеры спят спокойно. Но реальность быстро показала: каждая дополнительная «девятка» стоит всё дороже, а выгоды становятся всё менее заметными. В статье делюсь опытом: почему гонка за идеальной надёжностью — тупик, как помогает концепция Error Budget и почему лучше найти баланс между стабильностью и развитием.

https://habr.com/ru/articles/941734/

#sre #slo #sli #error_budget #devops #observability #monitoring #alerting #постмортем #oncall

Как я перестал гнаться за 100% аптаймом

Привет! Меня зовут Егор, я DevOps/SRE-инженер с небольшим (2+ года) стажем. Когда-то давно я мечтал о 100% аптайме – казалось, вот он, священный грааль для любого инженера. Помню, как...

Хабр

Habr Aug 26

Как я перестал бояться алертов и полюбил дежурства

Когда я только начинал дежурить, телефон ночью был моим главным врагом: PagerDuty вырывал из сна десятки раз, а инциденты превращались в хаос. Со временем я понял, что on-call можно превратить в предсказуемый процесс — с правильными алертами, runbook-ами и командной культурой. В этой статье расскажу, как я перестал бояться алертов и научился относиться к дежурствам спокойно. Будет личный опыт, фейлы и практические советы

https://habr.com/ru/articles/941030/

#sre #slo #sli #error_budget #devops #observability #monitoring #alerting #постмортем #oncall

Как я перестал бояться алертов и полюбил дежурства

Привет! Меня зовут Егор, я DevOps/SRE-инженер с небольшим (2+ года) стажем. Ещё пару лет назад мои ночи были полны ужаса: телефон разрывался от PagerDuty, любое уведомление в чате заставляло...

Хабр

Habr Aug 26

Как я перестал тушить пожары и начал говорить с бизнесом на языке SLO

Когда я только начинал работать с инфраструктурой, всё выглядело как бесконечный пожар: сотни алертов, ночные звонки, хаотичные релизы и нервы на пределе. Мы гасили инциденты вручную, но проблема возвращалась снова и снова. Ситуация изменилась, когда я познакомился с практиками SRE: SLO, SLI и error budget. Они помогли превратить хаос в систему и объяснить бизнесу надёжность на понятном языке. Теперь вместо бессмысленного «сервис упал!» мы обсуждаем конкретные цифры: сколько бюджета ошибок потрачено и когда можно катить релиз. В этой статье расскажу, как мы внедрили наблюдаемость на основе golden signals, научились писать постмортемы без поиска виноватых и встроили задачи по надёжности прямо в бэклог. Всё — из реальной практики инженера, который за год прошёл путь от «тушения пожаров» к спокойной работе с прогнозируемой стабильностью. Узнать, как выйти из этого хаоса

https://habr.com/ru/articles/940796/

#sre #slo #sli #error_budget #devops #observability #monitoring #alerting #ci_cd #постмортем

Как я перестал тушить пожары и начал говорить с бизнесом на языке SLO

Горящие релизы и ночные дежурства: мой персональный ад Когда я пришёл на проект, всё было похоже на нескончаемый пожар. В продакшене сыпались алерты один за другим, CI/CD-пайплайны (GitLab и Jenkins)...

Хабр

Andrey [0xdc, 0x09];Oct 7, 2024

#dc09ru #postmortem

Yesterday I did some changes in dc09.ru infrastructure that caused a long downtime, resolved at 18:51 UTC+3.

Before, there were two VPS each with an IPv4 address (it's expensive) and each with nginx reverse proxy sharing the same TLS certificates from Let's Encrypt by copying certs from 1st server to the 2nd by SSH (it's potentially unsafe and was not tested at all).

Now, nginx with TLS is only on the 1st VPS. As for web services on the 2nd, their TCP ports are forwarded to 1st by OpenSSH thanks to its amazing feature (client is started with `-L` flag from 1st VPS, connects to sshd on 2nd).

IPv4 for the second server can be removed, this will save me 150 RUB per month (it's 3 loafs of bread; or $1.57, but doesn't make sense with the current currency rate), because SSH connection is done over IPv6.

And what caused a downtime? It was Timeweb's buggy control panel and my incompetence in networking, more precisely in properly setting up IPv6 on Alpine. Everything was working only after I had installed dhcpcd instead of trying to configure network manually.

#постмортем

Вчера делал некоторые изменения в инфре dc09.ru, из-за чего долгое время сервер был недоступен, до 18:51 по МСК.

Раньше было 2 впски, каждая с IPv4-адресом (что дорого) и каждая с реверс-прокси nginx, с одинаковыми TLS-сертификатами от Let's Encrypt, которые передавались с первого сервера на второй по ссш (что потенциально небезопасно и вообще не тестировалось).

Теперь nginx с TLS-сертами стоит только на первом VPS. TCP-порты сервисов со второго VPS пробрасываются на первый через OpenSSH благодаря его крутой фиче (на первом запускается клиент с флагом `-L`, подключается к sshd на втором).

IPv4 у второй впски теперь можно убрать, сэкономлю 150 рублей в месяц, ибо SSH-подключение у меня по IPv6.

Причина даунтайма: баганая панель управления у Timeweb и моя некомпетентность в сетях, точнее в правильной настройке IPv6 на Alpine. Заработало только когда я наконец поставил dhcpcd вместо попыток настроить сеть вручную.

Habr Jun 7, 2024

Подборка видео с последнего SREcon24

Всем привет меня зовут Максим, я SRE инженер в группе компаний Тинькофф. И я продолжаю делать подборки видео с SRECon, которые показались мне интересными Так вот, я просмотрел все доклады с SREcon24, составил для вас подборку из докладов, вырезав все доклады, в которых было больше болтовни или рекламы, чем пользы. Так же в этом году я добавил субъективный рейтинг для каждого видео.

https://habr.com/ru/articles/818967/

#sre #конференции #opentelemetry #менеджмент_в_it #k8s_operator #постмортем #стабильность #культура #сбои #обучение

Подборка видео с последнего SREcon24

Всем привет меня зовут Максим, я SRE инженер в группе компаний Тинькофф. И я продолжаю делать подборки видео с SRECon, Которые показались мне интересными Так вот, я просмотрел все доклады с ...

Хабр