Spark, DataSphere и немного магии: как мы строим аналитическую платформу в облаке для банка

Для решения классических аналитических задач в банке дата‑специалисты обрабатывают миллиарды транзакций. Поэтому создание единого информационного пространства для работы с большими объёмами данных потребует решить как задачи оптимизации производительности и обеспечения безопасности, так и задачи удобства для пользователей — и найти баланс между ними. Сергей Виноградов на конференции Data&ML2Business рассказал про разработку и построение DWH для задач Яндекс Пэй. В этой статье — дополненный рассказ о том, как устроена аналитическая платформа на базе Greenplum® и ClickHouse®, которую решили строить на базе managed‑сервисов в облаке. А также о том, как жизнь аналитиков облегчает связка Apache Spark™ и Jupyter‑ноутбуков в Yandex DataSphere.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/957470/

#spark #kafka #cdc #debezium #change_data_capture #map_reduce

Spark, DataSphere и немного магии: как мы строим аналитическую платформу в облаке для банка

Для решения классических аналитических задач в банке дата‑специалисты обрабатывают миллиарды транзакций. Поэтому создание единого информационного пространства для работы с большими...

Хабр

Как консолидировать данные из разрозненных хранилищ с помощью Tarantool CDC

Компании часто сталкиваются с необходимостью переливать данные между системами. Но нередко это превращается в настоящий квест: форматы данных могут различаться, для интеграции инструментов может не быть готовых коннекторов, самостоятельно гарантировать консистентность данных в целевой системе может быть сложно или невозможно. Поэтому подобные задачи редко обходятся без применения CDC (Change Data Capture). Меня зовут Андрей Капустин. Я менеджер продукта Tarantool CDC в компании VK Tech. В этой статье я расскажу о Tarantool CDC и о том, как инструмент помогает консолидировать данные из разрозненных хранилищ, в том числе проприетарных СУБД, обеспечивая прозрачность, высокую консистентность и скорость. Как разрабатывался Tarantool CDC

https://habr.com/ru/companies/vktech/articles/913352/

#Tarantool #архитектура #отказоустойчивость #postgresql #высокопроизводительные_вычисления #распределенные_системы #субд #Tarantool_Queue_Enterprise #Tarantool_CDC #change_data_capture

Как консолидировать данные из разрозненных хранилищ с помощью Tarantool CDC

Компании часто сталкиваются с необходимостью переливать данные между системами. Но нередко это превращается в настоящий квест: форматы данных могут различаться, для интеграции инструментов может не...

Хабр

Обновление кешей сервисов в реальном времени с помощью YDB CDC на примере Yandex Monitoring

Меня зовут Егор Литвиненко. Я старший разработчик Yandex Observability Platform. Летом 2023 года я рассказывал на Saint Highload в Санкт-Петербурге про наш путь внедрения YDB CDC для обновления данных в сервисах, чтобы решить проблему инвалидации кэшей. В этой статье будет вся история внедрения с теорией, вопросами, ответами, ошибками, о которых я говорил на выступлении. Но кроме того, в конце есть обновления: что произошло и изменилось за это время. Мы рассмотрим весь процесс от появления задачи до результата: • какие подходы к доставке изменений мы использовали; • почему выбрали переход на CDC и в чем были сложности в работе с изменениями до этого; • чем YDB CDC отличается от других решений, как настроить правильно, и на какие грабли мы наступили в процессе; • какую модель данных выбрать, чтобы решить проблемы с конкурентными изменениями; • как поддерживать решение после внедрения.

https://habr.com/ru/companies/oleg-bunin/articles/801603/

#cdc #change_data_capture #ydb #обновление_кэшей #кэширование_на_практике #кэширование_данных

Обновление кешей сервисов в реальном времени с помощью YDB CDC на примере Yandex Monitoring

Меня зовут Егор Литвиненко. Я старший разработчик Yandex Observability Platform. Летом 2023 года я рассказывал на Saint Highload в Санкт‑Петербурге о нашем пути внедрения YDB...

Хабр