Что делать, когда твои системы становятся legacy

Всем привет. На связи Дмитрий Немчин из Т-Банка. Снова буду говорить про Greenplum, но в необычном контексте. С 2015 года занимаюсь Greenplum: развитием, эксплуатацией, автоматизацией и всем, что обычно появляется вокруг большой аналитической платформы. Когда я пришел, у нас было два production-кластера Greenplum и десятки терабайтов данных. Сейчас production-кластеров около 20 и объемы данных измеряются петабайтами. За это время Greenplum прошел путь от небольшого DWH до центра крупной Дата Платформы. И сейчас это система, которая все еще держит большую часть нагрузки, но постепенно перестает быть точкой будущих инвестиций. Переход к такому состоянию системы часто воспринимается болезненно. Особенно если технология долго была центральной для команды и бизнеса. Но сам факт перехода в legacy не означает, что система была плохой или что работа команды обесценилась. Чаще наоборот: legacy становятся решения, которые долго работали, выдержали рост и успели стать частью критичной инфраструктуры. В статье хочу разобрать переход на примере Greenplum: что я называю legacy, почему технология начала ограничивать следующий этап роста, какие варианты были у команды и что происходит с людьми, когда привычная система постепенно уходит из фокуса развития.

https://habr.com/ru/companies/tbank/articles/1047642/

#legacy #системы #greenplum #итинфраструктура #bigdata #devops

Что делать, когда твои системы становятся legacy

Всем привет. На связи Дмитрий Немчин из Т-Банка. Снова буду говорить про Greenplum, но в необычном контексте. С 2015 года занимаюсь Greenplum: развитием, эксплуатацией, автоматизацией и всем, что...

Хабр

PostgreSQL и аналитика: что меняется, когда хранилище становится общим

HTAP — одна из главных тем в мире СУБД. Вокруг PostgreSQL массово появляются конструкции с внешними аналитическими движками со своими моделями хранения данных и ограничениями совместимости, однако бизнесу не совсем комфортно жить в архитектуре, где транзакционные данные находятся в одной системе, аналитика - в другой, а между ними - разного рода ETL, CDC и прочие parquet-файлы. В Tantor мы движемся по иному пути, развивая HTAP внутри PostgreSQL, а не рядом с ним. Вокруг этой идеи строятся СУБД Tantor Polar и машина баз данных Tantor XData Gen3, в которой OLTP и аналитика, не теряя совместимости с Postgres, работают поверх общего хранилища данных и общей видимости транзакций. В этой статье хочется поговорить не столько о самом термине HTAP, сколько о том, как меняется архитектура PostgreSQL, когда OLTP и аналитика начинают работать поверх общего хранилища данных.

https://habr.com/ru/companies/tantor/articles/1039680/

#tantor #tantor_postgres #xdata #tantor_xdata #oracle_exadata #duckdb #greenplum #kafka #clickhouse

PostgreSQL и аналитика: что меняется, когда хранилище становится общим

HTAP - одна из главных тем в мире СУБД. Вокруг PostgreSQL массово появляются конструкции с внешними аналитическими движками со своими моделями хранения данных и ограничениями...

Хабр

Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях

В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только по подписке. Greenplum как живой OSS-проект остановился — но сам код, выпускавшийся с октября 2015-го, остался под Apache 2.0. Именно на этой кодовой базе стартанули остальные форки. Те, кто строил аналитику на Greenplum, оказались перед развилкой. Сообщество разделилось: Apache Cloudberry (incubating) , Greengage DB от Arenadata, WarehousePG от EDB. Каждый форк продолжает линию, но в собственной траектории. У компании с боевым кластером появляется конкретный вопрос: переехать/остаться в одном из этих форков или мигрировать на принципиально другую платформу и архитектурную парадигму. Эта статья (сага из трёх эпизодов) будет полезна, если у вас уже есть Greenplum-кластер, вы понимаете его DDL/ETL/backup-процессы и хотите оценить, насколько болезненным будет переход на StarRocks.

https://habr.com/ru/articles/1031358/

#starrocks #Lakehouse #greenplum #sql #миграция_данных #субд #mpp #dwh #olap #etl

Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях

В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только...

Хабр

Apache Cloudberry — преемник Greenplum?

Greenplum много лет был в опенсорсе на GitHub под лицензией Apache 2.0. Казалось бы, лицензия Apache 2.0, что может пойти не так? Осенью 2023 года репозиторий неожиданно перестал принимать наши пул‑реквесты. Все наши CLA отозвали, а новые не подтвердили без каких‑либо пояснений. А в мае 2024-го репозиторий был закрыт. Да, к опенсорс‑проекту могут потерять интерес — и он окажется заброшен. Но здесь, по сути, присвоили наши пул‑реквесты, изменив лицензию у кода, который мы написали, просто потому, что «ничего личного, это бизнес». Обстоятельства менялись, и вот — новые правила использования БД. Твои опыт и достижения либо присваиваются корпорацией, либо обнуляются. В этой статье попробую проанализировать, где вчерашние пользователи и контрибьюторы в Greenplum могут найти решения, у которых есть будущее.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/1025580/

#greenplum #cloudberry #greengage #ymatrix #apache

Apache Cloudberry — преемник Greenplum?

Greenplum много лет был в опенсорсе на GitHub под лицензией Apache 2.0. Казалось бы, лицензия Apache 2.0, что может пойти не так? Осенью 2023 года...

Хабр

asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду. Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R. Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно. Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам. В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе. Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок. Как бы нам это все замиксовать? На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано. По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI. «Миксуем… Сегодня мы с тобой миксуем…»

https://habr.com/ru/articles/1011510/

#asapBI #data_platform #trino #spark #postgresql #greenplum #sql #data_engineering #dwh #etlпроцессы

asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

С вами снова Виталий Виноградов, я занимаюсь в свободное время созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс...

Хабр

Хроники тестирования Data Quality

В современных data-процессах ключевую роль играет обеспечение качества данных. Рассмотрим четыре популярных подхода: DBT, SQL, Python (Pandas/SQLAlchemy) и Great Expectations, оценив их эффективность для различных сценариев проверки данных. Эта статья будет интересна и полезна Data-инженерам, аналитикам данных и специалистам Data Quality для выбора оптимального метода валидации данных в зависимости от стека технологий и сложности бизнес-логики. Материал ориентирован на начинающий уровень подготовки: тем, кто еще не сталкивался системно с инструментами управления качеством данных. Привет, Хабр! Меня зовут Мария, я Data-инженер в SimbirSoft, и предлагаю для начала немного познакомиться с каждым из вышеперечисленных инструментов. Читать далее ⚡

https://habr.com/ru/companies/simbirsoft/articles/978504/

#data_engineering #data_quality #dbt #sql #python #pandas #great_expectations #sqlalchemy #greenplum

Хроники тестирования Data Quality

В современных data-процессах ключевую роль играет обеспечение качества данных. Рассмотрим четыре популярных подхода: DBT, SQL, Python (Pandas/SQLAlchemy) и Great Expectations, оценив их эффективность...

Хабр

#PostgreSQL Meetup während der IT-Tage in Frankfurt in zwei Wochen.

Schaut so aus als würde ich da einen zweiten Vortrag halten, über #WarehousePG (#Greenplum Fork, #PostgreSQL Fork).

10. Dezember, 18:30 Uhr.

https://www.meetup.com/postgres-user-group-frankfurt-am-main/events/312056115/

PostgreSQL Meetup in Frankfurt , Wed, Dec 10, 2025, 6:30 PM | Meetup

Hallo zusammen, bitte den Termin vormerken! Wir treffen uns am **10 Dezember ab 18:30 Uhr** im Scandic Frankfurt Museumsufer zu einer weiteren großartigen PostgreSQL-Sessio

Meetup

Impala vs Greenplum vs StarRocks: тестирование производительности на объеме порядка десятков миллионов строк

Задача: быстро выполнять агрегирующие запросы (JOIN, GROUP BY, COUNT) по десяткам миллионов строк в офлайновых сценариях на Big Data‑платформе. Мы сравнили три подхода: Parquet + Impala в экосистеме CDH, MPP‑движок Greenplum и MPP‑СУБД StarRocks. В единой тестовой среде (SAD ~7 млн, ITEM ~3 млн записей) выполнили серию запросов JOIN + GROUP BY + ORDER BY и замерили суммарное время 10 прогонов. Показано, что внедрение MPP заметно ускоряет аналитику (типично 1–2 с на запрос), при этом StarRocks в среднем немного обходит Greenplum. В статье — методика, параметры развертывания, нюансы импорта из Oracle (CloudCanal) и сводные метрики.

https://habr.com/ru/articles/959000/

#impala #greenplum #starrocks

Impala vs Greenplum vs StarRocks: тестирование производительности на объеме порядка десятков миллионов строк

В ходе разработки продукта в области больших данных (Big Data) возникла потребность: при работе с гигантскими объемами данных на платформе пользователям необходимо выполнять агрегирующие запросы по...

Хабр

Гид по Cloudberry ч.2: advanced-возможности, дорожная карта и планы развития

В прошлый раз, в первой части нашего гида по Apache Cloudberry™ , мы поговорили об истории проекта, его архитектуре, ядре СУБД и функциях платформы. Но помимо ядра СУБД, мы также хотим использовать data‑lakehouse‑запросы. В Data Lakehouse есть некоторые проблемы: мы не можем получать данные оттуда напрямую. В Cloudberry разработана технология, с помощью которой можно это делать, так что поговорим об этом подробнее. А также рассмотрим ещё несколько интересных возможностей и расскажем о планах проекта.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/957662/

#greenplum #cloudberry #mpp #postgresql #postgres #vector_database #pgvector #векторная_база_данных

Гид по Cloudberry ч.2: advanced-возможности, дорожная карта и планы развития

В прошлый раз, в первой части нашего гида по Apache Cloudberry™ , мы поговорили об истории проекта, его архитектуре, ядре СУБД и функциях платформы.  Но помимо ядра СУБД,...

Хабр

DBT Proplum: Расширяем возможности DBT для работы с Greenplum и Clickhouse

В современных реалиях всё чаще встаёт вопрос о переходе с вендорских продуктов на open-source. Компании активно рассматривают DBT как стандарт для управления трансформациями данных, но сталкиваются с проблемами: существующие алгоритмы загрузки оказываются недостаточными, а адаптеры для СУБД - устаревшими. В этой статье рассказываем о нашей доработке адаптера для DBT, который расширяет возможности работы с Greenplum и ClickHouse, добавляя новые стратегии загрузки, логирование и интеграцию с внешними источниками. Читать статью

https://habr.com/ru/companies/sapiens_solutions/articles/955122/

#dbt #greenplum #clickhouse #data_engineering #opensourse

DBT Proplum: Расширяем возможности DBT для работы с Greenplum и Clickhouse

Введение В современных реалиях все чаще встает вопрос о переходе с вендорских продуктов на open-source. На основе нашего опыта в Sapiens Solutions мы видим, что компании активно рассматривают DBT (...

Хабр