WAP паттерн в data-engineering

Несмотря на бурное развитие дата инжиниринга, WAP паттерн долгое время незаслуженно обходят стороной. Кто-то слышал о нем, но не применяет. Кто-то применяет, но интуитивно. В этой статье хочу на примере детально описать паттерн работы с данными, которому уже почти 8 лет, но за это время ни одна статья не была написана с принципом работы.

https://habr.com/ru/articles/937738/

#data_engineering #bigdata #big_data #data_warehouse #data_quality #warehouse #datalake #etl

WAP паттерн в data-engineering

В русскоязычной части интернета присутствует много статей по теме паттернов разработки, однако я не нашел никакой информации о паттернах работы с данными. В данной статье я хочу рассказать о паттерне...

Хабр

Разработа DWH с нуля – особенности архитектуры

Проект по построению DWH с нуля был запущен по инициативе Заказчика в рамках крупной трансформации управленческой отчетности и аналитики. В статье расскажу, как мы выстроили архитектуру DWH, какие подходы использовали на каждом уровне, с какими подводными камнями столкнулись и как обеспечили стабильную поставку данных для аналитики.

https://habr.com/ru/articles/935212/

#dwh #data_warehouse #архитектура_dwh #разработка_хранилище_данных #bi #business_intelligence #корпоративное_хранилище_данных

Разработа DWH с нуля – особенности архитектуры

Проект по построению DWH с нуля был запущен по инициативе Заказчика в рамках крупной трансформации управленческой отчётности и аналитики. Подход к реализации выбрали классический: многоуровневая...

Хабр

Ускоренная экстракция данных из SAP-систем в DWH и Lakehouse: наш опыт интеграции

В современных условиях возрастает актуальность выгрузки данных из SAP ERP в хранилища данных DWH или Data Lakehouse сторонних вендоров. Интеграция с системами, не входящими в экосистему SAP, зачастую сопровождается сложностями: поставщики программного обеспечения, как правило, не поддерживают использование конкурентных продуктов. Нативный механизм выгрузки данных в SAP BW (Business Warehouse) не может быть применен к системам, не принадлежащим к экосистеме SAP. На нашем проекте внедрения хранилища данных на основе Arenadata DB для одного из крупных банков мы столкнулись со сложностями при интеграции с SAP S/4HANA. В статье рассматривается решение, которое позволяет быстро и надежно производить выгрузку больших объемов данных.

https://habr.com/ru/companies/sapiens_solutions/articles/932854/

#sap #sap_erp #data_warehouse #data_lakehouse #arenadata_db #интеграция

Ускоренная экстракция данных из SAP-систем в DWH и Lakehouse: наш опыт интеграции

Привет! Меня зовут Дмитрий Канатников. Я работаю архитектором информационных систем в компании Sapiens Solutions с 2013 года и занимаюсь внедрением хранилищ данных на базе SAP и open source-систем с...

Хабр

[Перевод] 15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик

Визуализация данных — это не просто способ представить информацию, а настоящий инструмент для открытия новых инсайтов и улучшения принятия решений. В этой статье мы собрали 15 библиотек для визуализации данных, которые стали стандартом в своих областях. Здесь вы найдете как решения для быстрых графиков, так и мощные фреймворки, подходящие для сложных и масштабных задач. Каждая библиотека имеет свои особенности, и в статье мы подробно рассмотрим, какие из них лучше всего подойдут для вашего следующего проекта. Если вы хотите поднять свои визуализации на новый уровень — читайте, разберемся, какие инструменты действительно заслуживают внимания.

https://habr.com/ru/companies/otus/articles/929938/

#data_warehouse #хранилища_данных #sql #Аналитика_данных #ETL #OLAP #Data_Engineering #Data_Mining

15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик

Инструменты, которые выведут ваши информационные панели, документы и рабочие процессы на новый уровень. Причем совершенно бесплатно! Привет, меня зовут Йогеш, и имею довольно большой опыт работы...

Хабр

DWH без иллюзий. Три реальных кейса внедрения корпоративного хранилища в ритейле, производстве и госсекторе

Проект построения хранилища данных — это не просто внедрение технологий, а глубокая трансформация подходов к данным и аналитике, учитывающая текущее состояние процессов, стратегические цели, ресурсы и компетенции команды. Рассказываем про индивидуальный подход как основу успешного проекта DWH и делимся реальными кейсами внедрения: ✔️ Кейс 1. Свой коннектор к Oracle: когда Debezium подвел​ ✔️ Кейс 2. Миграция с Qlik: DWH между командами (в условиях командной фрагментации)​ ✔️ Кейс 3. Бюрократия против DWH: проект в около-госсекторе

https://habr.com/ru/articles/925652/

#dwh #data_engineering #data_warehouse #бизнесанализ #управление_проектами #big_data

DWH без иллюзий. Три реальных кейса внедрения корпоративного хранилища в ритейле, производстве и госсекторе

Data Warehouse – корпоративное хранилище, объединяющее структурированные исторические и текущие данные для последующей аналитики.  Место DWH в архитектуре управления данными Проект создания...

Хабр

Максимизация производительности ScyllaDB

ScyllaDB — это высокопроизводительная распределённая NoSQL-база данных, совместимая с Apache Cassandra, но в разы более быстрая за счет того, что написана на C++. Однако, несмотря на сверхбыструю скорость работы, можно ли сделать ее еще быстрее?

https://habr.com/ru/articles/910656/

#scylladb #nosql #cassandra #iot #bigdata #sql #dwh #storage #data_warehouse #no_sql

Максимизация производительности ScyllaDB

Здравствуйте! Меня зовут Александр Андреев, я старший инженер данных. В своей первой статье на "Хабре" я хочу рассказать об оптимизации производительности NoSQL базы данных ScyllaDB. Введение в...

Хабр

Почему SCD Type 2 медленно работает в DWH, и как это чинится через Merge + Hash

Привет, Хабр! В этом статье рассмотрим, почему классическая реализация SCD Type 2 в DWH начинает жутко тормозить на миллионах строк и как с этим бороться при помощи комбинации MERGE + hash-diff.

https://habr.com/ru/companies/otus/articles/905844/

#dataengineer #dwh #SCD_Type_2 #Hashdiff #Big_Data_Processing #data_warehouse

Почему SCD Type 2 медленно работает в DWH, и как это чинится через Merge + Hash

Привет, Хабр! В этом статье рассмотрим, почему классическая реализация SCD Type 2 в DWH начинает жутко тормозить на миллионах строк и как с этим бороться при помощи...

Хабр

Что такое Ansible и как применяется в DWH-проектах? Сравнение Ansible с Puppet, Chef, SaltStack

В статье рассказываем, что такое Ansible и как инструмент может применяться в проектах DWH: от автоматического развертывания и настройки компонентов до восстановления после сбоев и централизованного управления параметрами. Сравниваем Ansible с другими инструментами для автоматизации управления инфраструктурой: Puppet, Chef, SaltStack.

https://habr.com/ru/articles/901778/

#dwh #data_warehouse #ansible #ansible_playbook #ansible_roles #ansible_inventory #iac #devops

Что такое Ansible и как применяется в DWH-проектах? Сравнение Ansible с Puppet, Chef, SaltStack

Сегодня бизнес-данные стали основой для принятия управленческих решений, а системы бизнес-аналитики и корпоративные хранилища данных (DWH) — ключевыми компонентами инфраструктуры по работе с данными....

Хабр

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории . Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL. В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.

https://habr.com/ru/articles/876834/

#dwh #data_warehouse #data_lake #хранилище_данных #корпоративное_хранилище_данных #архитектура_данных #базы_данных #данные #data #data_engineering

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем...

Хабр

Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями

Эпоха современных хранилищ данных началась с появления реляционных баз данных (далее БД). С появлением бизнес-аналитики следствием развития БД стала концепция Data Warehouse (корпоративное хранилище данных, DWH). Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных. Рассмотрим этапы эволюции архитектуры данных: чем отличаются концепции, какие у них преимущества и недостатки, для каких задач в работе с данными подходят.

https://habr.com/ru/articles/846296/

#dwh #data_warehouse #data_lake #data_lakehouse #data_mesh #data_fabric #хранилище_данных #кхд #корпоративное_хранилище_данных #архитектура_данных

Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями

Данные сегодня стали важным ресурсом для бизнеса, но для того, чтобы на их основе принимать правильные управленческие решения, нужно их правильно хранить и обрабатывать. Хранилища данных предоставляют...

Хабр