Что не убивает, делает сильней: как мы тестируем СХД, «ломая» его по частям

Большинство серьезных сбоев в системах хранения данных происходят не из-за глобальных катастроф, а из-за незаметных повторяющихся отказов, на которые никто не рассчитывал: перегруженный контроллер, зависание диска, сбой питания в неподходящий момент. Такие ошибки не поймать быстрыми и однократными тестами. В целом, надежность системы хранения данных невозможно проверить абстрактно — только вживую, на реальном железе, часами, с полным погружением в нагрузку и нестабильность. Я Наталья Грязнова, ведущий инженер по разработке ПО в YADRO. Моя задача — не просто проверить, что СХД работает, а воспроизвести реальные риски отказа системы и проверить ее на устойчивость: высокая нагрузка, внезапные отказы компонентов системы, нестабильные внешние условия, например перебои в сети. В этом тексте расскажу, как мы тестируем отказоустойчивость СХД TATLIN.UNIFIED: какие сбои моделируем, как устроены автотесты и почему короткие прогоны не справляются с поиском критичных багов.

https://habr.com/ru/companies/yadro/articles/915890/

#тестирование #схд #отказоустойчивость #отказоустойчивые_системы #тестирование_отказоустойчивости

Что не убивает, делает сильней: как мы тестируем СХД, «ломая» его по частям

Большинство серьезных сбоев в системах хранения данных происходят не из-за глобальных катастроф, а из-за незаметных повторяющихся отказов, на которые никто не рассчитывал: перегруженный контроллер,...

Хабр

Тестирование на отказоустойчивость: ломаем, чтобы сделать лучше. Часть 2

Всем привет! Недавно в блоге выходила статья , в которой мой коллега Александр Волков рассказал про применение практик хаос-инжиниринга, продемонстрировал поведение системы при сбоях на примере демосервиса, оценил его отказоустойчивость и предложил стратегии для улучшения архитектуры. А в этой части я, Екатерина Ильина — QA-инженер Читать дальше

https://habr.com/ru/companies/cloud_ru/articles/865308/

#chaos_engineering #chaos_mesh #кейс #тестирование_отказоустойчивости #хаосинжиниринг

Тестирование на отказоустойчивость: ломаем, чтобы сделать лучше. Часть 2

Всем привет! Недавно в блоге выходила статья , в которой мой коллега Александр Волков рассказал про применение практик хаос-инжиниринга, продемонстрировал поведение системы при сбоях на примере...

Хабр