Как построить и проверить катастрофоустойчивость в облаке: от плана до Game Day
Довольно много компаний при работе в облаке выстраивают катастрофоустойчивость, ориентируясь на условные «лучшие практики»: составляют планы, предусматривают резервные площадки, настраивают репликацию. Вместе с тем во время реальных инцидентов многие сталкиваются с тем, что все предусмотренное не работает или работает не так, как ожидалось: восстановление занимает часы вместо минут, данные теряются в критическом для бизнеса объеме, а команды оказываются не готовы к действиям в условиях стресса. Причина часто кроется в том, что меры обеспечения катастрофоустойчивости либо обеспечиваются формально («чтобы было»), либо проектируются без учета полного цикла рисков — от технических ограничений до организационной готовности. В статье разберем, как проектировать решения, которые переживают не отдельные сбои, а крупные аварии.
https://habr.com/ru/companies/vktech/articles/1034702/
#катастрофоустойчивость #облачные_технологии #disaster_recovery #high_availability #rto #rpo #cloud_native #отказоустойчивость #kubernetes #vk_tech
Business Continuity: Don't Wait for Disaster! 🏢🛡️
BIA (Business Impact Analysis)
• What happens if robot's ARM breaks?
• What if EYE stops working?
• How much loss = $$$?
BC (Business Continuity)
• Plan BEFORE disaster hits
• High Court stay order ready
• Duplicate parts sourced
RTO = How long can system be down? (4 hours?)
RPO = How much data can you lose? (15 mins?)
Plan like your business depends on it!
Акура-тное приземление. 5 ошибок бэкапа, которые могут стоить вам инфраструктуры
Представьте: вы прыгаете с парашютом, дергаете кольцо, а из ранца вместо купола вылетает записка: «404: Not Found». В ИТ-инфраструктуре бэкап — именно такой парашют. И проблема в том, что 90% инженеров уверены: раз ранец за спиной висит, значит, гравитация им не страшна. Мало кто проверяет его «укладку» (валидацию) и тренирует само приземление (DR). Чаще всего процесс строится либо на слепой вере в собственную память, либо на тотальном доверии древним скриптам, которые DevOps-археолог написал еще пять лет назад. В момент свободного падения времени на исправление конфигов этих скриптов уже не будет. Поэтому под катом — краткая инструкция по «укладке парашюта»: быстро и без воды про классические ошибки и как их обойти. Дернуть кольцо
https://habr.com/ru/companies/hstx/articles/995750/
#бэкап #резервное_копирование #Disaster_Recovery #системное_администрирование #информационная_безопасность #RPO #автоматизация #RTO #отказоустойчивость #репликация_данных