Как строить отказоустойчивые кластеры Kubernetes: краткий разбор от команды VK Cloud

Миграция в облако и переход к микросервисной архитектуре сделали Kubernetes (k8s) де-факто стандартом для управления контейнерами. По данным 2025 года, технологию уже применяют 60% крупных российских компаний, а ещё 15% планируют внедрение в будущем. Причем 59% компаний называют отказоустойчивость ключевым критерием при выборе Kubernetes, но лишь единицы реализуют его на практике. Проблема кроется в недооценке системных рисков — от отсутствия резервирования control plane до некорректных таймингов readiness-проб, пропускающих «полуживые» поды в балансировщик. В этой статье мы кратко разберем ключевые принципы проектирования и эксплуатации отказоустойчивых кластеров, типовые сценарии сбоев и рекомендации по исключению рисков на всех уровнях.

https://habr.com/ru/companies/vktech/articles/1042084/

#vk_cloud #kubernetes #отказоустойчивость #high_availability #devops #etcd #storage #statefulset #gitops #backup

Как строить отказоустойчивые кластеры Kubernetes: краткий разбор от команды VK Cloud

Миграция в облако и переход к микросервисной архитектуре сделали Kubernetes (k8s) де-факто стандартом для управления контейнерами. По данным 2025 года, технологию уже применяют 60% крупных российских...

Хабр

Как построить и проверить катастрофоустойчивость в облаке: от плана до Game Day

Довольно много компаний при работе в облаке выстраивают катастрофоустойчивость, ориентируясь на условные «лучшие практики»: составляют планы, предусматривают резервные площадки, настраивают репликацию. Вместе с тем во время реальных инцидентов многие сталкиваются с тем, что все предусмотренное не работает или работает не так, как ожидалось: восстановление занимает часы вместо минут, данные теряются в критическом для бизнеса объеме, а команды оказываются не готовы к действиям в условиях стресса. Причина часто кроется в том, что меры обеспечения катастрофоустойчивости либо обеспечиваются формально («чтобы было»), либо проектируются без учета полного цикла рисков — от технических ограничений до организационной готовности. В статье разберем, как проектировать решения, которые переживают не отдельные сбои, а крупные аварии.

https://habr.com/ru/companies/vktech/articles/1034702/

#катастрофоустойчивость #облачные_технологии #disaster_recovery #high_availability #rto #rpo #cloud_native #отказоустойчивость #kubernetes #vk_tech

Как построить и проверить катастрофоустойчивость в облаке: от плана до Game Day

Довольно много компаний при работе в облаке выстраивают катастрофоустойчивость, ориентируясь на условные «лучшие практики»: составляют планы, предусматривают резервные площадки, настраивают...

Хабр

Не только про производительность — балансировщик как основа отказоустойчивости современных инфраструктур

Когда говорят о балансировщике нагрузки, чаще всего имеют в виду распределение трафика между серверами. Но в реальной инфраструктуре его ключевая роль проявляется в другом — в способности системы продолжать работать, когда что-то ломается. Причём ломаться может всё: отдельные серверы, сервисы, целые дата-центры. В этой статье разбираем, как балансировщик становится точкой принятия решений в сценариях отказоустойчивости — от health checks до переключения между ЦОД — и почему без этих механизмов одной «балансировки» недостаточно.

https://habr.com/ru/companies/dsol/articles/1029114/

#балансировщик #балансировка_нагрузки #отказоустойчивость #отказоустойчивый_кластер #масштабирование #high_availability #высокая_доступность

Не только про производительность — балансировщик как основа отказоустойчивости современных инфраструктур

Когда мы говорим балансировщик нагрузки, обычно имеем в виду устройство для распределения трафика между серверами, чтобы избежать их перегрузки. Но в реальной инфраструктуре не менее важна и другая...

Хабр

Как Redis Auto Failover повышает отказоустойчивость наших БД

Привет! Меня зовут Иван Откидач, я DevOps-инженер в команде DBA. Моя основная специализация — NoSQL-базы данных, в частности Redis и MongoDB. С каждым месяцем количество Redis, находящихся на нашей поддержке, растёт, поэтому обеспечение их стабильной и надёжной работы — один из приоритетов нашего подразделения. В этой статье мы разберем, как устроен механизм отказоустойчивости в Redis Cluster и почему он может давать сбои в multi-AZ-инфраструктуре. Также покажем один из практических подходов к решению этой проблемы.

https://habr.com/ru/companies/wildberries/articles/1013760/

#redis #базы_данных #devops #nosql #high_availability #sre

Как Redis Auto Failover повышает отказоустойчивость наших БД

Введение Привет! Меня зовут Иван Откидач, я DevOps-инженер в команде DBA. Моя основная специализация — NoSQL-базы данных, в частности Redis и MongoDB. С каждым месяцем количество Redis, находящихся на...

Хабр

[Bus Factor] Почему ваша незаменимость — это архитектурная уязвимость (SPOF), а не повод для гордости

Понедельник, 09:30. Вы открываете Slack, Telegram и Jira. Там уже горит. В личке пять непрочитанных: «Посмотри, тут прод упал», «Ты единственный знаешь, как работает этот костыль», «Без твоего аппрува не можем покатить релиз» . В этот момент в лимбической системе происходит мощный выброс дофамина. Включается режим Атланта. «Без меня тут всё рухнет. Я несущая стена этого карточного домика. Я избранный». Мысленно надевается плащ Супермена (поверх офисной рубашки или мятой футболки), расправляются плечи, берется ведро кофе и начинается операция «Спасение проекта». К вечеру ресурс батареи на нуле, глаз дергается, но есть глубокое удовлетворение. ЧСВ почесано, ценность для человечества доказана. Спойлер: Я сам жил в этом режиме несколько лет. И сейчас, глядя на логи, могу сказать честно. С точки зрения системной архитектуры это не героизм. Это классический паттерн SPOF (Single Point of Failure). Единая точка отказа. Инженер в такой позиции совсем не Супермен. Он тот самый старый сервер в углу, на который боятся дышать, потому что он держится на изоленте и честном слове. Сегодня поговорим о Bus Factor. Почему быть «священной коровой» проекта означает тупиковую ветвь эволюции для Сеньора. И как перестать быть инженером, которого боятся отправить в отпуск.

https://habr.com/ru/articles/996612/

#Bus_factor #карьера_в_it #управление_командой #архитектура #технический_долг #делегирование #knowledge_sharing #документация #отказоустойчивость #high_availability

[Bus Factor] Почему ваша незаменимость — это архитектурная уязвимость (SPOF), а не повод для гордости

Понедельник, 09:30. Вы открываете Slack, Telegram и Jira. Там уже горит. В личке пять непрочитанных: «Посмотри, тут прод упал», «Ты единственный знаешь, как работает этот костыль», «Без твоего аппрува...

Хабр

Записки самозванца. Защита кольцевой топологии с помощью RRPP

Документация по RRPP у Huawei обширная, но разобраться в ней с первого раза — то ещё приключение. Собрал в одном месте всё, что нужно знать про защиту кольцевых топологий: от базовых понятий до подводных камней при работе с несколькими кольцами. Пролистать и забить

https://habr.com/ru/articles/991396/

#протокол #huawei #rrpp #high_availability

Записки самозванца. Защита кольцевой топологии с помощью RRPP

Прежде чем читать эту статью, настоятельно рекомендую изучить официальную документацию! Ссылки в разделе "Источники" Содержание Вступление Зачем использовать протоколы защиты кольцевой топологии? Как...

Хабр
SQLite AI - Smart Edge Databases with Cloud Sync and Intelligence

SQLite AI transforms SQLite into a distributed AI-native database for the Edge—combining the simplicity of SQLite with cloud-powered scalability, fault tolerance, automatic backups, and powerful new extensions like SQLite-AI, SQLite-Vector, SQLite-Sync, and SQLite-JS to enable intelligent applications across devices, IoT, and mobile platforms.

Масштабируемый мониторинг: Настраиваем VictoriaMetrics в HA-конфигурации с VMAgent и Grafana

Сегодня мы построим масштабируемую, отказоустойчивую систему , которая будет расти вместе с вашей инфраструктурой и не сломается в самый неподходящий момент. Вместо 3 часов дебага падающего Prometheus вы смотрите дашборд, который показывает 99.9% uptime вашего мониторинга. Это реальность с правильно настроенным стеком на основе VictoriaMetrics .

https://habr.com/ru/articles/970490/

#victoriametrics #мониторинг #kubernetes #devops #prometheus #grafana #monitoring #time_series #high_availability #кластер

Масштабируемый мониторинг: Настраиваем VictoriaMetrics в HA-конфигурации с VMAgent и Grafana

Когда ваш стек мониторинга перерастает масштаб нескольких серверов, классический Prometheus показывает свои ограничения : Проблемы с производительностью при миллионах метрик Вертикальное...

Хабр

Proxmox VE + ZFS/CEPH для малого продакшена: экономим, но без авантюр

В современном IT-ландшафте малый и средний бизнес (SMB) сталкивается с фундаментальным противоречием: необходимость в инфраструктуре корпоративного уровня надежности при бюджете, который редко можно назвать корпоративным. Требования к аптайму, целостности данных и катастрофоустойчивости сегодня высоки как никогда, но традиционные решения от лидеров рынка становятся все менее доступными. Недавние изменения на рынке виртуализации, в частности, последствия приобретения VMware компанией Broadcom, лишь усилили эту тенденцию, заставив многих искать мощные и экономически эффективные альтернативы. В этом контексте Proxmox Virtual Environment (VE) выделяется как один из ведущих претендентов на роль стандартной платформы для SMB. Это комплексное решение с открытым исходным кодом, которое объединяет в себе гипервизор KVM, контейнеризацию LXC, программно-определяемые хранилища (SDS) и сети (SDN) в едином управляемом интерфейсе. Proxmox VE предлагает функциональность, ранее доступную только в дорогостоящих коммерческих продуктах, делая ее доступной для широкого круга компаний. Однако внедрение Proxmox в прод ставит перед системным архитектором ключевой выбор, определяющий всю дальнейшую архитектуру, стоимость и уровень отказоустойчивости системы. Этот выбор — технология хранения данных. Настоящая статья посвящена детальному разбору двух основных путей. К сути дела

https://habr.com/ru/articles/948696/

#proxmox #zfs #ceph #sds #виртуализация #гиперконвергенция #pbs #high_availability #open_source #smb

Proxmox VE + ZFS/CEPH для малого продакшена: экономим, но без авантюр

Привет, Хабр! В современном IT-ландшафте малый и средний бизнес (SMB) сталкивается с фундаментальным противоречием: необходимость в инфраструктуре корпоративного уровня надежности при бюджете, который...

Хабр

Записки самозванца. Защита от петель коммутации в локальной сети

С этого момента я начну, спонтанную и нерегулярную серию статей по сетевым технологиям, читай, дневник. В этой серии не будут рассматриваться основы сетей, разбора базовых принципов и так далее. Если вы тут за этим, то ребята из LinkMeUp со своей СДСМ справились настолько великолепно, что лучше уже, как говорится, не будет. Я же хочу поговорить про более, если угодно, скучные и рутинные задачи сетевого инженера в маленьком провайдере последней мили, предоставляющим услуги связи нескольких видов на территории некоторого количества объектов. То есть, клиент - бизнес. А бизнес крайне чувствителен к любым задержкам в предоставлении сервиса. И среди этой рутины, выделить, как минимум, для себя, какие-то интересные, не очень очевидные моменты, а так же поделиться опытом работы с оборудованием конкретных вендоров и моделей, перенять опыт хабровчан, если повезет.

https://habr.com/ru/articles/946214/

#high_availability #case #networking #qtech #hp #switching

Записки самозванца. Защита от петель коммутации в локальной сети

Всем привет! С этого момента я начну, спонтанную и нерегулярную серию статей по сетевым технологиям, читай, дневник. В этой серии не будут рассматриваться основы сетей, разбора базовых принципов и так...

Хабр