Строим машину времени для данных (SCD-2) на движке Trino под управлением Airflow
Сегодня SCD-2-таблицы не только остаются актуальными для медленно меняющихся данных, но и, на мой взгляд, становятся гораздо проще в реализации благодаря новым технологиям и инструментам. Мне поручили пересобрать витрину в ходе миграции в наше новое хранилище данных. Итак, в этой статье мы будем: — строить Iceberg-таблицы SCD-2 с помощью Trino, SQL и Python; — попутно освоим прекрасные функции merge, MD5 и другие полезные инструменты; — напишем свой собственный оператор для Airflow для автоматизации ETL-процесса.
https://habr.com/ru/companies/X5Tech/articles/1034656/
#scd_type_2 #trino #iceberg #airflow #lakehouse #etl #slowly_changing_dimensions #data_mesh #витрина_данных #хранилище_данных









