Как Redis Auto Failover повышает отказоустойчивость наших БД

Привет! Меня зовут Иван Откидач, я DevOps-инженер в команде DBA. Моя основная специализация — NoSQL-базы данных, в частности Redis и MongoDB. С каждым месяцем количество Redis, находящихся на нашей поддержке, растёт, поэтому обеспечение их стабильной и надёжной работы — один из приоритетов нашего подразделения. В этой статье мы разберем, как устроен механизм отказоустойчивости в Redis Cluster и почему он может давать сбои в multi-AZ-инфраструктуре. Также покажем один из практических подходов к решению этой проблемы.

https://habr.com/ru/companies/wildberries/articles/1013760/

#redis #базы_данных #devops #nosql #high_availability #sre

Как Redis Auto Failover повышает отказоустойчивость наших БД

Введение Привет! Меня зовут Иван Откидач, я DevOps-инженер в команде DBA. Моя основная специализация — NoSQL-базы данных, в частности Redis и MongoDB. С каждым месяцем количество Redis, находящихся на...

Хабр

[Bus Factor] Почему ваша незаменимость — это архитектурная уязвимость (SPOF), а не повод для гордости

Понедельник, 09:30. Вы открываете Slack, Telegram и Jira. Там уже горит. В личке пять непрочитанных: «Посмотри, тут прод упал», «Ты единственный знаешь, как работает этот костыль», «Без твоего аппрува не можем покатить релиз» . В этот момент в лимбической системе происходит мощный выброс дофамина. Включается режим Атланта. «Без меня тут всё рухнет. Я несущая стена этого карточного домика. Я избранный». Мысленно надевается плащ Супермена (поверх офисной рубашки или мятой футболки), расправляются плечи, берется ведро кофе и начинается операция «Спасение проекта». К вечеру ресурс батареи на нуле, глаз дергается, но есть глубокое удовлетворение. ЧСВ почесано, ценность для человечества доказана. Спойлер: Я сам жил в этом режиме несколько лет. И сейчас, глядя на логи, могу сказать честно. С точки зрения системной архитектуры это не героизм. Это классический паттерн SPOF (Single Point of Failure). Единая точка отказа. Инженер в такой позиции совсем не Супермен. Он тот самый старый сервер в углу, на который боятся дышать, потому что он держится на изоленте и честном слове. Сегодня поговорим о Bus Factor. Почему быть «священной коровой» проекта означает тупиковую ветвь эволюции для Сеньора. И как перестать быть инженером, которого боятся отправить в отпуск.

https://habr.com/ru/articles/996612/

#Bus_factor #карьера_в_it #управление_командой #архитектура #технический_долг #делегирование #knowledge_sharing #документация #отказоустойчивость #high_availability

[Bus Factor] Почему ваша незаменимость — это архитектурная уязвимость (SPOF), а не повод для гордости

Понедельник, 09:30. Вы открываете Slack, Telegram и Jira. Там уже горит. В личке пять непрочитанных: «Посмотри, тут прод упал», «Ты единственный знаешь, как работает этот костыль», «Без твоего аппрува...

Хабр

Записки самозванца. Защита кольцевой топологии с помощью RRPP

Документация по RRPP у Huawei обширная, но разобраться в ней с первого раза — то ещё приключение. Собрал в одном месте всё, что нужно знать про защиту кольцевых топологий: от базовых понятий до подводных камней при работе с несколькими кольцами. Пролистать и забить

https://habr.com/ru/articles/991396/

#протокол #huawei #rrpp #high_availability

Записки самозванца. Защита кольцевой топологии с помощью RRPP

Прежде чем читать эту статью, настоятельно рекомендую изучить официальную документацию! Ссылки в разделе "Источники" Содержание Вступление Зачем использовать протоколы защиты кольцевой топологии? Как...

Хабр
SQLite AI - Smart Edge Databases with Cloud Sync and Intelligence

SQLite AI transforms SQLite into a distributed AI-native database for the Edge—combining the simplicity of SQLite with cloud-powered scalability, fault tolerance, automatic backups, and powerful new extensions like SQLite-AI, SQLite-Vector, SQLite-Sync, and SQLite-JS to enable intelligent applications across devices, IoT, and mobile platforms.

Масштабируемый мониторинг: Настраиваем VictoriaMetrics в HA-конфигурации с VMAgent и Grafana

Сегодня мы построим масштабируемую, отказоустойчивую систему , которая будет расти вместе с вашей инфраструктурой и не сломается в самый неподходящий момент. Вместо 3 часов дебага падающего Prometheus вы смотрите дашборд, который показывает 99.9% uptime вашего мониторинга. Это реальность с правильно настроенным стеком на основе VictoriaMetrics .

https://habr.com/ru/articles/970490/

#victoriametrics #мониторинг #kubernetes #devops #prometheus #grafana #monitoring #time_series #high_availability #кластер

Масштабируемый мониторинг: Настраиваем VictoriaMetrics в HA-конфигурации с VMAgent и Grafana

Когда ваш стек мониторинга перерастает масштаб нескольких серверов, классический Prometheus показывает свои ограничения : Проблемы с производительностью при миллионах метрик Вертикальное...

Хабр

Proxmox VE + ZFS/CEPH для малого продакшена: экономим, но без авантюр

В современном IT-ландшафте малый и средний бизнес (SMB) сталкивается с фундаментальным противоречием: необходимость в инфраструктуре корпоративного уровня надежности при бюджете, который редко можно назвать корпоративным. Требования к аптайму, целостности данных и катастрофоустойчивости сегодня высоки как никогда, но традиционные решения от лидеров рынка становятся все менее доступными. Недавние изменения на рынке виртуализации, в частности, последствия приобретения VMware компанией Broadcom, лишь усилили эту тенденцию, заставив многих искать мощные и экономически эффективные альтернативы. В этом контексте Proxmox Virtual Environment (VE) выделяется как один из ведущих претендентов на роль стандартной платформы для SMB. Это комплексное решение с открытым исходным кодом, которое объединяет в себе гипервизор KVM, контейнеризацию LXC, программно-определяемые хранилища (SDS) и сети (SDN) в едином управляемом интерфейсе. Proxmox VE предлагает функциональность, ранее доступную только в дорогостоящих коммерческих продуктах, делая ее доступной для широкого круга компаний. Однако внедрение Proxmox в прод ставит перед системным архитектором ключевой выбор, определяющий всю дальнейшую архитектуру, стоимость и уровень отказоустойчивости системы. Этот выбор — технология хранения данных. Настоящая статья посвящена детальному разбору двух основных путей. К сути дела

https://habr.com/ru/articles/948696/

#proxmox #zfs #ceph #sds #виртуализация #гиперконвергенция #pbs #high_availability #open_source #smb

Proxmox VE + ZFS/CEPH для малого продакшена: экономим, но без авантюр

Привет, Хабр! В современном IT-ландшафте малый и средний бизнес (SMB) сталкивается с фундаментальным противоречием: необходимость в инфраструктуре корпоративного уровня надежности при бюджете, который...

Хабр

Записки самозванца. Защита от петель коммутации в локальной сети

С этого момента я начну, спонтанную и нерегулярную серию статей по сетевым технологиям, читай, дневник. В этой серии не будут рассматриваться основы сетей, разбора базовых принципов и так далее. Если вы тут за этим, то ребята из LinkMeUp со своей СДСМ справились настолько великолепно, что лучше уже, как говорится, не будет. Я же хочу поговорить про более, если угодно, скучные и рутинные задачи сетевого инженера в маленьком провайдере последней мили, предоставляющим услуги связи нескольких видов на территории некоторого количества объектов. То есть, клиент - бизнес. А бизнес крайне чувствителен к любым задержкам в предоставлении сервиса. И среди этой рутины, выделить, как минимум, для себя, какие-то интересные, не очень очевидные моменты, а так же поделиться опытом работы с оборудованием конкретных вендоров и моделей, перенять опыт хабровчан, если повезет.

https://habr.com/ru/articles/946214/

#high_availability #case #networking #qtech #hp #switching

Записки самозванца. Защита от петель коммутации в локальной сети

Всем привет! С этого момента я начну, спонтанную и нерегулярную серию статей по сетевым технологиям, читай, дневник. В этой серии не будут рассматриваться основы сетей, разбора базовых принципов и так...

Хабр

Как мы помогли Piklema Predictive создать надежную и масштабируемую IT-инфраструктуру

Piklema Predictive — российская компания, разрабатывающая решения для оптимизации горного производства через анализ данных диспетчеризации, цифровые советчики, MES-систем и планирования. За 4 года сотрудничества AvantIT выполнил три миграции их инфраструктуры между облаками (Azure → AWS → GCP → Azure), внедрил Kubernetes и настроил мониторинг, что позволило клиентам Piklema снизить затраты на производство на 15–20%. Проблема: Piklema столкнулась с двумя критичными ограничениями. Во-первых, их инфраструктура на Docker Compose не обеспечивала отказоустойчивость, требуемую промышленными заказчиками. Во-вторых, зависимость от грантов вынуждала ежегодно менять облачного провайдера, что приводило к ручным миграциям длительностью до 2 месяцев. Отсутствие мониторинга усугубляло риски: о нехватке ресурсов (например, места на диске) узнавали только после сбоев. Цель проекта: Создать гибкую, отказоустойчивую инфраструктуру, которую относительно просто переносить между облаками при завершении гранта. Она должна...

https://habr.com/ru/articles/903564/

#Миграция_между_облаками #Kubernetes #Terraform #Ansible #cicd #Hashicorp_Vault #GitOps #ArgoCD #high_availability

Как мы помогли Piklema Predictive создать надежную и масштабируемую IT-инфраструктуру

Piklema Predictive — российская компания, разрабатывающая решения для оптимизации горного производства через анализ данных диспетчеризации, цифровые советчики, MES-систем и планирования. За 4 года...

Хабр

Балансировка в Angie: Алгоритмы

Сергей Каличев, старший разработчик, Angie Software Это вторая статья из цикла "Балансировка в Angie". Первая была посвящена обзору и общим принципам работы балансировки в продуктах Angie и почти не касалась конкретных алгоритмов. В этой статье разберём алгоритмы балансировки более предметно, с привязкой к характеристикам, обозначенным в первой статье. Если характеристика была подробно рассмотрена в первой статье, то повторяться не буду. В тексте алгоритмы балансировки называются просто "балансировщиками", поскольку каждый алгоритм представлен отдельным модулем.

https://habr.com/ru/articles/902052/

#angie #балансировка_нагрузки #nginx #balancing #upstream #angie_pro #angie_adc #highload #high_availability #backend

Балансировка в Angie: Алгоритмы

Сергей Каличев, старший разработчик, Angie Software Балансировка протокола WHEEL Это вторая статья из цикла "Балансировка в Angie". Первая была посвящена обзору и общим принципам работы балансировки в...

Хабр

IPsecHub+. Отказоустойчивость и динамическая маршрутизация

В этой статье цикла мы поднимем один из самых важных вопросов построения любой топологии - вопрос отказоустойчивости. Предлагаю вам рассмотреть, как мы можем сделать наш концентратор отказоустойчивым.

https://habr.com/ru/companies/1cupis/articles/897644/

#ipsec #gre #vti #high_availability #bgp

IPsecHub+. Отказоустойчивость и динамическая маршрутизация

Всем привет! На связи Николай Едомский, руководитель группы сетевых инженеров в ЕДИНОМ ЦУПИС. Представляю вашему вниманию  пятую статью  из цикла " IPsecHub+ ". В предыдущих статьях мы...

Хабр