PostgreSQL и аналитика: что меняется, когда хранилище становится общим

HTAP — одна из главных тем в мире СУБД. Вокруг PostgreSQL массово появляются конструкции с внешними аналитическими движками со своими моделями хранения данных и ограничениями совместимости, однако бизнесу не совсем комфортно жить в архитектуре, где транзакционные данные находятся в одной системе, аналитика - в другой, а между ними - разного рода ETL, CDC и прочие parquet-файлы. В Tantor мы движемся по иному пути, развивая HTAP внутри PostgreSQL, а не рядом с ним. Вокруг этой идеи строятся СУБД Tantor Polar и машина баз данных Tantor XData Gen3, в которой OLTP и аналитика, не теряя совместимости с Postgres, работают поверх общего хранилища данных и общей видимости транзакций. В этой статье хочется поговорить не столько о самом термине HTAP, сколько о том, как меняется архитектура PostgreSQL, когда OLTP и аналитика начинают работать поверх общего хранилища данных.

https://habr.com/ru/companies/tantor/articles/1039680/

#tantor #tantor_postgres #xdata #tantor_xdata #oracle_exadata #duckdb #greenplum #kafka #clickhouse

PostgreSQL и аналитика: что меняется, когда хранилище становится общим

HTAP - одна из главных тем в мире СУБД. Вокруг PostgreSQL массово появляются конструкции с внешними аналитическими движками со своими моделями хранения данных и ограничениями...

Хабр

Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях

В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только по подписке. Greenplum как живой OSS-проект остановился — но сам код, выпускавшийся с октября 2015-го, остался под Apache 2.0. Именно на этой кодовой базе стартанули остальные форки. Те, кто строил аналитику на Greenplum, оказались перед развилкой. Сообщество разделилось: Apache Cloudberry (incubating) , Greengage DB от Arenadata, WarehousePG от EDB. Каждый форк продолжает линию, но в собственной траектории. У компании с боевым кластером появляется конкретный вопрос: переехать/остаться в одном из этих форков или мигрировать на принципиально другую платформу и архитектурную парадигму. Эта статья (сага из трёх эпизодов) будет полезна, если у вас уже есть Greenplum-кластер, вы понимаете его DDL/ETL/backup-процессы и хотите оценить, насколько болезненным будет переход на StarRocks.

https://habr.com/ru/articles/1031358/

#starrocks #Lakehouse #greenplum #sql #миграция_данных #субд #mpp #dwh #olap #etl

Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях

В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только...

Хабр

Apache Cloudberry — преемник Greenplum?

Greenplum много лет был в опенсорсе на GitHub под лицензией Apache 2.0. Казалось бы, лицензия Apache 2.0, что может пойти не так? Осенью 2023 года репозиторий неожиданно перестал принимать наши пул‑реквесты. Все наши CLA отозвали, а новые не подтвердили без каких‑либо пояснений. А в мае 2024-го репозиторий был закрыт. Да, к опенсорс‑проекту могут потерять интерес — и он окажется заброшен. Но здесь, по сути, присвоили наши пул‑реквесты, изменив лицензию у кода, который мы написали, просто потому, что «ничего личного, это бизнес». Обстоятельства менялись, и вот — новые правила использования БД. Твои опыт и достижения либо присваиваются корпорацией, либо обнуляются. В этой статье попробую проанализировать, где вчерашние пользователи и контрибьюторы в Greenplum могут найти решения, у которых есть будущее.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/1025580/

#greenplum #cloudberry #greengage #ymatrix #apache

Apache Cloudberry — преемник Greenplum?

Greenplum много лет был в опенсорсе на GitHub под лицензией Apache 2.0. Казалось бы, лицензия Apache 2.0, что может пойти не так? Осенью 2023 года...

Хабр

asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду. Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R. Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно. Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам. В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе. Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок. Как бы нам это все замиксовать? На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано. По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI. «Миксуем… Сегодня мы с тобой миксуем…»

https://habr.com/ru/articles/1011510/

#asapBI #data_platform #trino #spark #postgresql #greenplum #sql #data_engineering #dwh #etlпроцессы

asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

С вами снова Виталий Виноградов, я занимаюсь в свободное время созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс...

Хабр

Хроники тестирования Data Quality

В современных data-процессах ключевую роль играет обеспечение качества данных. Рассмотрим четыре популярных подхода: DBT, SQL, Python (Pandas/SQLAlchemy) и Great Expectations, оценив их эффективность для различных сценариев проверки данных. Эта статья будет интересна и полезна Data-инженерам, аналитикам данных и специалистам Data Quality для выбора оптимального метода валидации данных в зависимости от стека технологий и сложности бизнес-логики. Материал ориентирован на начинающий уровень подготовки: тем, кто еще не сталкивался системно с инструментами управления качеством данных. Привет, Хабр! Меня зовут Мария, я Data-инженер в SimbirSoft, и предлагаю для начала немного познакомиться с каждым из вышеперечисленных инструментов. Читать далее ⚡

https://habr.com/ru/companies/simbirsoft/articles/978504/

#data_engineering #data_quality #dbt #sql #python #pandas #great_expectations #sqlalchemy #greenplum

Хроники тестирования Data Quality

В современных data-процессах ключевую роль играет обеспечение качества данных. Рассмотрим четыре популярных подхода: DBT, SQL, Python (Pandas/SQLAlchemy) и Great Expectations, оценив их эффективность...

Хабр

#PostgreSQL Meetup während der IT-Tage in Frankfurt in zwei Wochen.

Schaut so aus als würde ich da einen zweiten Vortrag halten, über #WarehousePG (#Greenplum Fork, #PostgreSQL Fork).

10. Dezember, 18:30 Uhr.

https://www.meetup.com/postgres-user-group-frankfurt-am-main/events/312056115/

PostgreSQL Meetup in Frankfurt , Wed, Dec 10, 2025, 6:30 PM | Meetup

Hallo zusammen, bitte den Termin vormerken! Wir treffen uns am **10 Dezember ab 18:30 Uhr** im Scandic Frankfurt Museumsufer zu einer weiteren großartigen PostgreSQL-Sessio

Meetup

Impala vs Greenplum vs StarRocks: тестирование производительности на объеме порядка десятков миллионов строк

Задача: быстро выполнять агрегирующие запросы (JOIN, GROUP BY, COUNT) по десяткам миллионов строк в офлайновых сценариях на Big Data‑платформе. Мы сравнили три подхода: Parquet + Impala в экосистеме CDH, MPP‑движок Greenplum и MPP‑СУБД StarRocks. В единой тестовой среде (SAD ~7 млн, ITEM ~3 млн записей) выполнили серию запросов JOIN + GROUP BY + ORDER BY и замерили суммарное время 10 прогонов. Показано, что внедрение MPP заметно ускоряет аналитику (типично 1–2 с на запрос), при этом StarRocks в среднем немного обходит Greenplum. В статье — методика, параметры развертывания, нюансы импорта из Oracle (CloudCanal) и сводные метрики.

https://habr.com/ru/articles/959000/

#impala #greenplum #starrocks

Impala vs Greenplum vs StarRocks: тестирование производительности на объеме порядка десятков миллионов строк

В ходе разработки продукта в области больших данных (Big Data) возникла потребность: при работе с гигантскими объемами данных на платформе пользователям необходимо выполнять агрегирующие запросы по...

Хабр

Гид по Cloudberry ч.2: advanced-возможности, дорожная карта и планы развития

В прошлый раз, в первой части нашего гида по Apache Cloudberry™ , мы поговорили об истории проекта, его архитектуре, ядре СУБД и функциях платформы. Но помимо ядра СУБД, мы также хотим использовать data‑lakehouse‑запросы. В Data Lakehouse есть некоторые проблемы: мы не можем получать данные оттуда напрямую. В Cloudberry разработана технология, с помощью которой можно это делать, так что поговорим об этом подробнее. А также рассмотрим ещё несколько интересных возможностей и расскажем о планах проекта.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/957662/

#greenplum #cloudberry #mpp #postgresql #postgres #vector_database #pgvector #векторная_база_данных

Гид по Cloudberry ч.2: advanced-возможности, дорожная карта и планы развития

В прошлый раз, в первой части нашего гида по Apache Cloudberry™ , мы поговорили об истории проекта, его архитектуре, ядре СУБД и функциях платформы.  Но помимо ядра СУБД,...

Хабр

DBT Proplum: Расширяем возможности DBT для работы с Greenplum и Clickhouse

В современных реалиях всё чаще встаёт вопрос о переходе с вендорских продуктов на open-source. Компании активно рассматривают DBT как стандарт для управления трансформациями данных, но сталкиваются с проблемами: существующие алгоритмы загрузки оказываются недостаточными, а адаптеры для СУБД - устаревшими. В этой статье рассказываем о нашей доработке адаптера для DBT, который расширяет возможности работы с Greenplum и ClickHouse, добавляя новые стратегии загрузки, логирование и интеграцию с внешними источниками. Читать статью

https://habr.com/ru/companies/sapiens_solutions/articles/955122/

#dbt #greenplum #clickhouse #data_engineering #opensourse

DBT Proplum: Расширяем возможности DBT для работы с Greenplum и Clickhouse

Введение В современных реалиях все чаще встает вопрос о переходе с вендорских продуктов на open-source. На основе нашего опыта в Sapiens Solutions мы видим, что компании активно рассматривают DBT (...

Хабр

Apache Cloudberry — открытое будущее Greenplum. Сравнение, архитектура, перспективы

Если вы работаете с аналитическими базами данных, то наверняка слышали о Greenplum — одном из самых мощных MPP-решений (Massively Parallel Processing) на базе PostgreSQL. Однако в последние годы в экосистеме PostgreSQL появилось новое имя — Apache Cloudberry . На первый взгляд, это ещё один форк Greenplum. Но на деле Cloudberry — переосмысление архитектуры MPP-СУБД , выполненное с уважением к наследию Greenplum, но с современным кодом, ядром PostgreSQL 14+, открытым управлением через Apache Foundation и амбициозной целью стать по-настоящему открытой аналитической платформой уровня DWH .

https://habr.com/ru/articles/955244/

#greenplum #bigdata #sql

Apache Cloudberry — открытое будущее Greenplum. Сравнение, архитектура, перспективы

Если вы работаете с аналитическими базами данных, то наверняка слышали о Greenplum — одном из самых мощных MPP-решений (Massively Parallel Processing) на базе PostgreSQL. Однако в последние годы в...

Хабр