WAP паттерн в data-engineering

Несмотря на бурное развитие дата инжиниринга, WAP паттерн долгое время незаслуженно обходят стороной. Кто-то слышал о нем, но не применяет. Кто-то применяет, но интуитивно. В этой статье хочу на примере детально описать паттерн работы с данными, которому уже почти 8 лет, но за это время ни одна статья не была написана с принципом работы.

https://habr.com/ru/articles/937738/

#data_engineering #bigdata #big_data #data_warehouse #data_quality #warehouse #datalake #etl

WAP паттерн в data-engineering

В русскоязычной части интернета присутствует много статей по теме паттернов разработки, однако я не нашел никакой информации о паттернах работы с данными. В данной статье я хочу рассказать о паттерне...

Хабр

Работа с Oracle Data Integrator (ODI): прямой доступ к метаданным

Работая с Oracle Data Integrator (ODI), мы ценим его графический интерфейс за автоматизацию рутины и удобство разработки. Однако, когда проект масштабируется до десятков пакетов и сотен сущностей, GUI перестает быть оптимальным инструментом для отслеживания потоков данных, глубокого анализа и аудита зависимостей. В таких случаях ключом к эффективности становится прямое взаимодействие с метаданными ODI через SQL-запросы к его репозиториям. Эта статья посвящена именно этому – практической работе со структурой репозиториев ODI и детальному разбору SQL-запроса для построения потоков данных.

https://habr.com/ru/companies/megafon/articles/936088/

#odi #oracle #data_lineage #data_engineering

Работа с Oracle Data Integrator (ODI): прямой доступ к метаданным

1. Зачем анализировать ODI через SQL-запросы Работая с Oracle Data Integrator (ODI), мы ценим его графический интерфейс за автоматизацию рутины и удобство разработки. Однако, когда проект...

Хабр

РосНОУ повысил свои позиции в рейтинге вузов-лидеров ИИ

Альянс в сфере искусственного интеллекта опубликовал третий ежегодный рейтинг российских университетов, готовящих специалистов для ИИ-отрасли. В этом году в список вошли 203 вуза из 68 регионов страны.

https://habr.com/ru/articles/934646/

#высшее_образование #рейтинги_вузов #российский_новый_университет #itтехнологии #подготовка_кадров #образовательные_программы #образовательные_ресурсы #data_engineering #data_analysis #data_scientist

РосНОУ повысил свои позиции в рейтинге вузов-лидеров ИИ

Альянс по искусственному интеллекту опубликовал третий ежегодный рейтинг российских университетов, готовящих специалистов для ИИ-отрасли. В этом году в список вошли 203 вуза из 68 регионов страны....

Хабр

Data Vault: моделирование хабов, линков, сателлитов в IDE asapBI

Привет, Хабр! Всем хорош Data Vault, однако схватиться с ним «врукопашную», используя только SQL, захочет не каждый. Останавливает большой объем ручных операций, а также большой объем деталей реализации. Большое количество join, за которые критикуют Data Vault, не является определяющим моментом, так как уже сейчас базы данных способны их эффективно обрабатывать, а с течением времени мощность серверов только возрастает. Но творческая мысль не дремлет, постепенно появляются инструменты для автоматизации построения Data Vault. Например, это пакет AutomateDV для dbt , графическая надстройка над ним Datapulse , построение модели DV в BI.Qube . Data Vault меня заинтересовал — уж много плюшек он сулит, и для его изучения я занимаюсь проектом asapBI — low‑code IDE для моделирования DWH. Требования к создаваемой системе я описал на сайте asapbi.ru . Их достаточно много, поэтому не буду их тут перечислять. Сегодня я хотел поделиться графическим интерфейсом для создания хабов, линков и стеллитов.

https://habr.com/ru/articles/932182/

#data_vault_20 #greenplum #postgresql #ide #data_engineering

Data Vault: моделирование хабов, линков, сателлитов в IDE asapBI

Привет, Хабр! Всем хорош Data Vault, однако схватиться с ним «врукопашную», используя только SQL, захочет не каждый. Останавливает большой объем ручных операций, а также большой объем...

Хабр

ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)

К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах. При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения. Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти. Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы. Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.

https://habr.com/ru/articles/931282/

#dbt #ymlфайл #datalakehouse #data_engineering #etlпроцессы #open_source #trino #clickhouse #dagster

ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)

К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах. При входе на...

Хабр

[Перевод] 15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик

Визуализация данных — это не просто способ представить информацию, а настоящий инструмент для открытия новых инсайтов и улучшения принятия решений. В этой статье мы собрали 15 библиотек для визуализации данных, которые стали стандартом в своих областях. Здесь вы найдете как решения для быстрых графиков, так и мощные фреймворки, подходящие для сложных и масштабных задач. Каждая библиотека имеет свои особенности, и в статье мы подробно рассмотрим, какие из них лучше всего подойдут для вашего следующего проекта. Если вы хотите поднять свои визуализации на новый уровень — читайте, разберемся, какие инструменты действительно заслуживают внимания.

https://habr.com/ru/companies/otus/articles/929938/

#data_warehouse #хранилища_данных #sql #Аналитика_данных #ETL #OLAP #Data_Engineering #Data_Mining

15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик

Инструменты, которые выведут ваши информационные панели, документы и рабочие процессы на новый уровень. Причем совершенно бесплатно! Привет, меня зовут Йогеш, и имею довольно большой опыт работы...

Хабр

[Перевод] Архитектура корпоративных данных: AWS + Snowflake

Одна из самых больших проблем, с которой, как мы видим, сталкиваются дата‑инженеры и инженеры‑аналитики, — это то, что они тратят слишком много времени на поддержание устаревшей инфраструктуры, не имея при этом четкой наблюдаемости сбоев в работе конвейера. Это приводит к тому, что они постоянно находятся в состоянии тушения пожара и не могут сосредоточиться на решении более важных задач. И хуже всего то, что из‑за этого бизнес теряет доверие к данным.

https://habr.com/ru/companies/otus/articles/929890/

#Корпоративная_архитектура #моделирование_данных #AWS #snowflake #архитектура_данных #Облачные_технологии #data_engineering #Data_Mining #AWS_S3

Архитектура корпоративных данных: AWS + Snowflake

Фреймворк для понимания архитектуры корпоративных данных на AWS и Snowflake Одна из самых больших проблем, с которой, как мы видим, сталкиваются дата‑инженеры и...

Хабр

Как мы строим real-time data-пайплайны для анонимных крипто-свапалок: опыт на примере risetocrypto

В мире криптовалют анонимность и безопасность являются ключевыми элементами. Когда речь идет о крипто-свапалках, эффективность обработки данных в реальном времени играет решающую роль для обеспечения высокого качества сервиса. В этой статье расскажем, как мы реализовали масштабируемую архитектуру для обработки данных на платформе risetocrypto с использованием передовых технологий.

https://habr.com/ru/articles/927862/

#Big_Data #Kafka #Apache_Flink #Machine_Learning #Blockchain #Data_Engineering #Realtime_Processing #Security_Analytics #Slippage_Monitoring #ClickHouse

Как мы строим real-time data-пайплайны для анонимных крипто-свапалок: опыт на примере risetocrypto

В мире криптовалют анонимность и безопасность являются ключевыми элементами. Когда речь идет о крипто-свапалках, эффективность обработки данных в реальном времени играет решающую роль для обеспечения...

Хабр

SSIS в Visual Studio: как мы перешли от хаоса к стабильному ETL-процессу

Можно ли хранить данные, строить по ним отчетность, при этом обходясь без ETL процессов? Технически — да. Практически — только до первого серьезного роста данных. Привет, Хабр! Меня зовут Алина, и в этой статье я расскажу о критически важном этапе, через который проходит любая data-driven компания. Речь о переходе: от построения отчетности напрямую из операционных баз (или через примитивное копирование в STG) к структурированным ETL-процессам на специализированном ПО. В нашем случае этим ПО стал SSIS — но важно подчеркнуть: сейчас мы используем NiFi с [N] процессорами для управления data pipeline. Однако именно опыт с SSIS стал для нас тем самым «мостиком» между хаотичным и осознанным подходом к данным. P.S. Если хотите узнать про то, как мы организовали работу в NiFi — пишите в комментах, сделаем отдельный материал! В этой статье — только про этап с SSIS. Не потому что он «лучший», а потому что:

https://habr.com/ru/articles/927416/

#etlпроцессы #ssis #sql #data_engineering #базы_данных

SSIS в Visual Studio: как мы перешли от хаоса к стабильному ETL-процессу

Можно ли хранить данные, строить по ним отчетность, при этом обходясь без ETL процессов? Технически — да. Практически — только до первого серьезного роста данных. Привет, Хабр! В этой статье мы...

Хабр

Краткий обзор платформы данных Т-Банка

Привет, Хабр! Меня зовут Дима Пичугин, и уже семь лет я занимаюсь различными компонентами T Data Platform. Эта статья — результат внутреннего аудита наших инструментов, но я подумал, что она может быть интересна не только нашим аудиторам, но и более широкой аудитории. Enjoy! Платформа данных в Т-Банке существует более 18 лет и за это время прошла значительный путь эволюции. Она помогает более чем 17 тысячам пользователей извлекать из данных ценную информацию для бизнеса. За последние годы подходы к работе с данными заметно изменились: индустрия постепенно отходила от классических концепций хранилищ данных по Инмону и Кимбеллу в сторону Data Lake, а затем — Lakehouse-архитектур. Вместе с отраслью менялась и наша платформа. В статье расскажу, как трансформировалась T Data Platform за 18 лет развития, и опишу ее текущее устройство — без погружения в технические детали, но с акцентом на общую архитектуру. Для тех, кому интересны отдельные инструменты или решения, оставлю ссылки на подробные материалы и выступления.

https://habr.com/ru/companies/tbank/articles/926886/

#data #data_analysis #data_platform #data_engineering #architecture

Краткий обзор платформы данных Т-Банка

Привет, Хабр! Меня зовут Дима Пичугин, и уже семь лет я занимаюсь различными компонентами T Data Platform. Эта статья — результат внутреннего аудита наших инструментов, но я подумал, что она может...

Хабр