asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду. Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R. Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно. Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам. В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе. Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок. Как бы нам это все замиксовать? На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано. По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI. «Миксуем… Сегодня мы с тобой миксуем…»

https://habr.com/ru/articles/1011510/

#asapBI #data_platform #trino #spark #postgresql #greenplum #sql #data_engineering #dwh #etlпроцессы

asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

С вами снова Виталий Виноградов, я занимаюсь в свободное время созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс...

Хабр

Хроники тестирования Data Quality

В современных data-процессах ключевую роль играет обеспечение качества данных. Рассмотрим четыре популярных подхода: DBT, SQL, Python (Pandas/SQLAlchemy) и Great Expectations, оценив их эффективность для различных сценариев проверки данных. Эта статья будет интересна и полезна Data-инженерам, аналитикам данных и специалистам Data Quality для выбора оптимального метода валидации данных в зависимости от стека технологий и сложности бизнес-логики. Материал ориентирован на начинающий уровень подготовки: тем, кто еще не сталкивался системно с инструментами управления качеством данных. Привет, Хабр! Меня зовут Мария, я Data-инженер в SimbirSoft, и предлагаю для начала немного познакомиться с каждым из вышеперечисленных инструментов. Читать далее ⚡

https://habr.com/ru/companies/simbirsoft/articles/978504/

#data_engineering #data_quality #dbt #sql #python #pandas #great_expectations #sqlalchemy #greenplum

Хроники тестирования Data Quality

В современных data-процессах ключевую роль играет обеспечение качества данных. Рассмотрим четыре популярных подхода: DBT, SQL, Python (Pandas/SQLAlchemy) и Great Expectations, оценив их эффективность...

Хабр

#PostgreSQL Meetup während der IT-Tage in Frankfurt in zwei Wochen.

Schaut so aus als würde ich da einen zweiten Vortrag halten, über #WarehousePG (#Greenplum Fork, #PostgreSQL Fork).

10. Dezember, 18:30 Uhr.

https://www.meetup.com/postgres-user-group-frankfurt-am-main/events/312056115/

PostgreSQL Meetup in Frankfurt , Wed, Dec 10, 2025, 6:30 PM | Meetup

Hallo zusammen, bitte den Termin vormerken! Wir treffen uns am **10 Dezember ab 18:30 Uhr** im Scandic Frankfurt Museumsufer zu einer weiteren großartigen PostgreSQL-Sessio

Meetup

Impala vs Greenplum vs StarRocks: тестирование производительности на объеме порядка десятков миллионов строк

Задача: быстро выполнять агрегирующие запросы (JOIN, GROUP BY, COUNT) по десяткам миллионов строк в офлайновых сценариях на Big Data‑платформе. Мы сравнили три подхода: Parquet + Impala в экосистеме CDH, MPP‑движок Greenplum и MPP‑СУБД StarRocks. В единой тестовой среде (SAD ~7 млн, ITEM ~3 млн записей) выполнили серию запросов JOIN + GROUP BY + ORDER BY и замерили суммарное время 10 прогонов. Показано, что внедрение MPP заметно ускоряет аналитику (типично 1–2 с на запрос), при этом StarRocks в среднем немного обходит Greenplum. В статье — методика, параметры развертывания, нюансы импорта из Oracle (CloudCanal) и сводные метрики.

https://habr.com/ru/articles/959000/

#impala #greenplum #starrocks

Impala vs Greenplum vs StarRocks: тестирование производительности на объеме порядка десятков миллионов строк

В ходе разработки продукта в области больших данных (Big Data) возникла потребность: при работе с гигантскими объемами данных на платформе пользователям необходимо выполнять агрегирующие запросы по...

Хабр

Гид по Cloudberry ч.2: advanced-возможности, дорожная карта и планы развития

В прошлый раз, в первой части нашего гида по Apache Cloudberry™ , мы поговорили об истории проекта, его архитектуре, ядре СУБД и функциях платформы. Но помимо ядра СУБД, мы также хотим использовать data‑lakehouse‑запросы. В Data Lakehouse есть некоторые проблемы: мы не можем получать данные оттуда напрямую. В Cloudberry разработана технология, с помощью которой можно это делать, так что поговорим об этом подробнее. А также рассмотрим ещё несколько интересных возможностей и расскажем о планах проекта.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/957662/

#greenplum #cloudberry #mpp #postgresql #postgres #vector_database #pgvector #векторная_база_данных

Гид по Cloudberry ч.2: advanced-возможности, дорожная карта и планы развития

В прошлый раз, в первой части нашего гида по Apache Cloudberry™ , мы поговорили об истории проекта, его архитектуре, ядре СУБД и функциях платформы.  Но помимо ядра СУБД,...

Хабр

DBT Proplum: Расширяем возможности DBT для работы с Greenplum и Clickhouse

В современных реалиях всё чаще встаёт вопрос о переходе с вендорских продуктов на open-source. Компании активно рассматривают DBT как стандарт для управления трансформациями данных, но сталкиваются с проблемами: существующие алгоритмы загрузки оказываются недостаточными, а адаптеры для СУБД - устаревшими. В этой статье рассказываем о нашей доработке адаптера для DBT, который расширяет возможности работы с Greenplum и ClickHouse, добавляя новые стратегии загрузки, логирование и интеграцию с внешними источниками. Читать статью

https://habr.com/ru/companies/sapiens_solutions/articles/955122/

#dbt #greenplum #clickhouse #data_engineering #opensourse

DBT Proplum: Расширяем возможности DBT для работы с Greenplum и Clickhouse

Введение В современных реалиях все чаще встает вопрос о переходе с вендорских продуктов на open-source. На основе нашего опыта в Sapiens Solutions мы видим, что компании активно рассматривают DBT (...

Хабр

Apache Cloudberry — открытое будущее Greenplum. Сравнение, архитектура, перспективы

Если вы работаете с аналитическими базами данных, то наверняка слышали о Greenplum — одном из самых мощных MPP-решений (Massively Parallel Processing) на базе PostgreSQL. Однако в последние годы в экосистеме PostgreSQL появилось новое имя — Apache Cloudberry . На первый взгляд, это ещё один форк Greenplum. Но на деле Cloudberry — переосмысление архитектуры MPP-СУБД , выполненное с уважением к наследию Greenplum, но с современным кодом, ядром PostgreSQL 14+, открытым управлением через Apache Foundation и амбициозной целью стать по-настоящему открытой аналитической платформой уровня DWH .

https://habr.com/ru/articles/955244/

#greenplum #bigdata #sql

Apache Cloudberry — открытое будущее Greenplum. Сравнение, архитектура, перспективы

Если вы работаете с аналитическими базами данных, то наверняка слышали о Greenplum — одном из самых мощных MPP-решений (Massively Parallel Processing) на базе PostgreSQL. Однако в последние годы в...

Хабр

Greengage DB: новый open-source монстр MPP-аналитики. Конец эпохи Greenplum?*

Что, если Greenplum пережил перерождение? Новый проект Greengage DB возвращает PostgreSQL в большую игру — теперь с авто-масштабированием, чистым ядром и реальной совместимостью. Разбираемся, почему этот форк может стать «Linux для аналитики».

https://habr.com/ru/articles/954506/

#arenadata #greenplum #postgres

Greengage DB: новый open-source монстр MPP-аналитики. Конец эпохи Greenplum?*

Что, если Greenplum пережил перерождение? Новый проект Greengage DB возвращает PostgreSQL в большую игру — теперь с авто-масштабированием, чистым ядром и реальной совместимостью. Разбираемся, почему...

Хабр

asapBI: импортозамещение SAP Calculation View

Любите ли вы SQL так же, как и я? Недавно, собирая огромный SQL-запрос, я понял, что надо что-то менять. Логическим блоком в SQL является подзапрос или CTE и вроде бы можно разбивать запрос по блокам и работать с ними отдельно, как строится по кирпичикам любое приложение. Однако когда весь текст запроса идет сплошняком на многие экраны, сложно и разрабатывать, и через длительное время понимать алгоритм запроса. А что, если не надо писать SQL? В SAP мы не писали запросы, мы создавали Calculation View, и работать с ними было на порядок быстрее и приятнее. Перефразируя диалог из Матрицы: - Когда я стану избранным, я смогу писать длинный SQL? - Тебе не надо будет писать SQL. Как?

https://habr.com/ru/articles/948888/

#sap_hana #postgresql #clickhouse #data_engineering #greenplum #trino #cedrusdata #sql #построители

asapBI: импортозамещение SAP Calculation View

Любите ли вы SQL так же, как и я? Недавно, собирая огромный SQL-запрос, я понял, что надо что-то менять. Логическим блоком в SQL является подзапрос или CTE и вроде бы можно разбивать запрос по блокам...

Хабр

Гид по Apache Cloudberry ч.1: история появления, архитектура и функции

В конце августа вышел релиз распределённой СУБД Apache Cloudberry 2.0.0 — опенсорс‑проекта, который в режиме инкубации находится в Apache Soft Foundation (ASF). В новой версии состоялся переход на кодовую базу PostgreSQL 14, а также было добавлено множество улучшений. При этом на Хабре до сих пор незаслуженно мало статей, посвящённых этой СУБД. Мы решили исправить это совместно с Максом Янгом, техническим лидером и участником PPMC Apache Cloudberry (Incubating). Эти статьи созданы по материалам совместного митапа Yandex Cloud Data Platform — про Greenplum® и не только . В этот раз пройдёмся по базовым особенностям и функциям этой СУБД, а в следующий — доберёмся до advanced‑возможностей.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/948496/

#cloudberry #greenplum #mpp #postgresql

Гид по Apache Cloudberry ч.1: история появления, архитектура и функции

В конце августа вышел релиз распределённой СУБД Apache Cloudberry 2.0.0  — опенсорс‑проекта, который в режиме инкубации находится в Apache Soft Foundation (ASF). В новой...

Хабр