Mastodawn

FHRP: Надежный шлюз в мире нестабильных сетей

Привет, Хабр! Меня зовут Никита Николайчук, и я преподаю на курсе «Сетевой инженер». В этой статье мы подробно рассмотрим протоколы FHRP, которые обеспечивают отказоустойчивость сетевых шлюзов, а также разберемся, как HSRP, VRRP и GLBP помогают минимизировать потери трафика при сбоях. Вы узнаете о тонкостях их реализации и о том, как избежать распространенных ошибок при настройке этих протоколов.

https://habr.com/ru/companies/otus/articles/919128/

#fhrp #hsrp #vrrp #glbp #отказоустойчивость

FHRP: Надежный шлюз в мире нестабильных сетей

Привет, Хабр! Меня зовут Никита Николайчук и в настоящее время я являюсь преподавателем курса «Сетевой инженер» в OTUS. Я подготовил статью по FHRP, которая позволит...

Хабр

Habr 4d ago

10 Принципов отказоустойчивости (с примерами на Javascript)

С хорошей отказоустойчивостью интерфейс остаётся стабильным и понятным, пользователь получает предсказуемый и комфортный опыт, а сбои отдельных компонентов не приводят к сбоям всей системы. В этой статье речь не будет идти о конкретных примерах реализации повышения отказоустойчивости. Понять то, что нужно подключать сервисы мониторинга ошибок вы можете и без меня. Хорошая отказоустойчивость начинается с мышления. Я хочу, чтобы эта фраза въелась вам в самую подкорку. Важно не просто латать ошибки по мере их появления, а комплексно подходить к решению — формировать правильное понимание, разрабатывать устойчивые подходы и строить систему, способную адекватно реагировать на возможные сбои. Принципы описанные далее универсальные и подойдут к большому количеству сфер, даже вне области информационных технологий. Перейти к 10 принципам

https://habr.com/ru/articles/918574/

#отказоустойчивость #UX #архитектура #ошибки #стабильность #fallback #устойчивость #frontend #error_handling #надежность

10 Принципов отказоустойчивости (с примерами на Javascript)

Отказоустойчивость (англ. resilience , fault tolerance ) — это способность системы продолжать работу, несмотря на внутренние ошибки, сбои в зависимостях или непредвиденные...

Хабр

Habr Jun 5

Что не убивает, делает сильней: как мы тестируем СХД, «ломая» его по частям

Большинство серьезных сбоев в системах хранения данных происходят не из-за глобальных катастроф, а из-за незаметных повторяющихся отказов, на которые никто не рассчитывал: перегруженный контроллер, зависание диска, сбой питания в неподходящий момент. Такие ошибки не поймать быстрыми и однократными тестами. В целом, надежность системы хранения данных невозможно проверить абстрактно — только вживую, на реальном железе, часами, с полным погружением в нагрузку и нестабильность. Я Наталья Грязнова, ведущий инженер по разработке ПО в YADRO. Моя задача — не просто проверить, что СХД работает, а воспроизвести реальные риски отказа системы и проверить ее на устойчивость: высокая нагрузка, внезапные отказы компонентов системы, нестабильные внешние условия, например перебои в сети. В этом тексте расскажу, как мы тестируем отказоустойчивость СХД TATLIN.UNIFIED: какие сбои моделируем, как устроены автотесты и почему короткие прогоны не справляются с поиском критичных багов.

https://habr.com/ru/companies/yadro/articles/915890/

#тестирование #схд #отказоустойчивость #отказоустойчивые_системы #тестирование_отказоустойчивости

Что не убивает, делает сильней: как мы тестируем СХД, «ломая» его по частям

Большинство серьезных сбоев в системах хранения данных происходят не из-за глобальных катастроф, а из-за незаметных повторяющихся отказов, на которые никто не рассчитывал: перегруженный контроллер,...

Хабр

Habr May 28

Как консолидировать данные из разрозненных хранилищ с помощью Tarantool CDC

Компании часто сталкиваются с необходимостью переливать данные между системами. Но нередко это превращается в настоящий квест: форматы данных могут различаться, для интеграции инструментов может не быть готовых коннекторов, самостоятельно гарантировать консистентность данных в целевой системе может быть сложно или невозможно. Поэтому подобные задачи редко обходятся без применения CDC (Change Data Capture). Меня зовут Андрей Капустин. Я менеджер продукта Tarantool CDC в компании VK Tech. В этой статье я расскажу о Tarantool CDC и о том, как инструмент помогает консолидировать данные из разрозненных хранилищ, в том числе проприетарных СУБД, обеспечивая прозрачность, высокую консистентность и скорость. Как разрабатывался Tarantool CDC

https://habr.com/ru/companies/vktech/articles/913352/

#Tarantool #архитектура #отказоустойчивость #postgresql #высокопроизводительные_вычисления #распределенные_системы #субд #Tarantool_Queue_Enterprise #Tarantool_CDC #change_data_capture

Как консолидировать данные из разрозненных хранилищ с помощью Tarantool CDC

Компании часто сталкиваются с необходимостью переливать данные между системами. Но нередко это превращается в настоящий квест: форматы данных могут различаться, для интеграции инструментов может не...

Хабр

Habr May 20

Как построить инфраструктуру, которая не подведет: главное с митапа по отказоустойчивости

23 апреля на OMNI Infrastructure Meetup эксперты из Авито, Магнит OMNI, Лаборатории Касперского и Cloud.ru обсудили, как создавать системы, устойчивые к любым сбоям. Рассказываем о самых важных инсайтах. В московском офисе Магнита и онлайн собрались DevOps-инженеры, платформенные специалисты и разработчики, чтобы разобрать реальные кейсы повышения отказоустойчивости. Гибридный формат позволил присоединиться участникам из разных городов — дискуссия получилась по-настоящему живой. Делимся видео и презентациями докладов.

https://habr.com/ru/companies/magnit/articles/907278/

#devops #devops_инженер #инфраструктура #отказоустойчивость #отказоустойчивые_системы #отказоустойчивые_решения #observability

Как построить инфраструктуру, которая не подведет: главное с митапа по отказоустойчивости

23 апреля на OMNI Infrastructure Meetup эксперты из Авито, Магнит OMNI, Лаборатории Касперского и Cloud.ru обсудили, как создавать системы, устойчивые к любым сбоям. Рассказываем о самых важных...

Хабр

Habr May 18

Хаос-инжиниринг — свежие научные работы и гайды

Chaos Engineering — это практика намеренного создания сбоев в системе для выявления её слабых мест. С её помощью можно обнаружить скрытые проблемы в проектировании, масштабируемости и отказоустойчивости. Сегодня мы собрали статьи и научные работы, посвящённые фреймворкам и инструментам для хаос-инжиниринга. Рассказываем о решениях ChaosETH, ChaosEater, CHESS и паре других, предложенных специалистами ведущих исследовательских институтов и корпораций.

https://habr.com/ru/companies/mws/articles/909668/

#chaos_engineering #отказоустойчивость

Хаос-инжиниринг — свежие научные работы и гайды

Chaos Engineering — это практика намеренного создания сбоев в системе для выявления её слабых мест. С её помощью можно обнаружить скрытые проблемы в проектировании, масштабируемости и...

Хабр

Habr May 6

Работа с кластером DATAREON Platform — обзор основных возможностей, включая модуль горячего восстановления

На связи Сергей Скирдин, технический директор ИТ-интегратора «Белый код». По моим предыдущим статьям, наверно, уже понятно, что я люблю разбираться с разными техническими решениями, поэтому когда DATAREON предложил мне тестовую лицензию на кластер с модулем горячего восстановления, я не стал отказываться. Будем разбираться с тем, как работает кластер серверов DATAREON и для чего нужен модуль горячего восстановления.

https://habr.com/ru/companies/w_code/articles/907372/

#шины_данных #esb #отказоустойчивость #отказоустойчивые_системы #datareon #обзор

Работа с кластером DATAREON Platform — обзор основных возможностей, включая модуль горячего восстановления

На связи Сергей Скирдин, технический директор ИТ-интегратора «Белый код». По моим предыдущим статьям, наверно, уже понятно, что я люблю разбираться с разными техническими решениями, поэтому когда...

Хабр

Habr Apr 22

Maipu MPS5580G2: разгадали секреты функционала от QoS до безопасности

Привет, Хабр! Это вторая часть с результатами наших тестов китайского массива. В первом посте мы рассказали, как проходили нагрузочные испытания и проверка на отказоустойчивость. В этой части поделимся результатами функциональных тестов модели Maipu MPS5580G2. Разберем его ключевые возможности: репликацию, метрокластер, QoS, снепшоты, мониторинг и безопасность. Ведь именно для этого в тест мы взяли не один массив, а сразу два!

https://habr.com/ru/companies/jetinfosystems/articles/902808/

#maipu #метрокластер #срк #резервное_копирование #катастрофоустойчивость #отказоустойчивость #дисковый_массив #тестирование #снэпшоты #qos

Maipu MPS5580G2: разгадали секреты функционала от QoS до безопасности

Привет, Хабр! Это вторая часть с результатами наших тестов китайского массива. В первом посте мы рассказали, как проходили нагрузочные испытания и проверка на отказоустойчивость. В этой части...

Хабр

Habr Apr 14

Мы его нагружали, а он выдержал! Тестируем китайский дисковый массив Maipu

Привет, Хабр! Нам в руки попал китайский массив. Но не прям в руки, а удаленно. И даже не один, а сразу два. И даже не Huawei, а Maipu. Если вы еще не знаете, у этого производителя есть официальный сервисный центр в Москве, но об этом позже. В этом посте мы покажем вам результаты наших тестов, начиная с нагрузки и надежности. А позже, во второй части, расскажем о функционале.

https://habr.com/ru/companies/jetinfosystems/articles/899648/

#maipu #метрокластер #отказоустойчивость #массив #срк

Мы его нагружали, а он выдержал! Тестируем китайский дисковый массив Maipu

Привет, Хабр! Нам в руки попал китайский массив. Но не прям в руки, а удаленно. И даже не один, а сразу два. И даже не Huawei, а Maipu. В этом посте мы покажем вам результаты наших тестов, начиная с...

Хабр

Habr Apr 10

High Availability в Postgres Pro без головной боли

Для тех, кто устал от «зоопарка» решений по созданию отказоустойчивых кластеров, расскажем, как добиться нужной функциональности одним решением. BiHA позволяет данным «выжить», даже если один из ЦОДов был физически уничтожен. Как же мы этого добились?

https://habr.com/ru/companies/postgrespro/articles/898396/

#postresql #postrgres #biha #отказоустойчивость #отказоустойчивые_системы #резервирование #высокая_производительность #высокая_нагрузка #высокая_доступность

High Availability в Postgres Pro без головной боли

BiHA (Built-in High Availability) — это расширение ПО СУБД Postgres Pro Enterprise, которое управляется утилитой bihactl и SQL-функциями. BiHA, вместе с улучшениями в ядре и управляющим процессом...

Хабр