Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях

В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только по подписке. Greenplum как живой OSS-проект остановился — но сам код, выпускавшийся с октября 2015-го, остался под Apache 2.0. Именно на этой кодовой базе стартанули остальные форки. Те, кто строил аналитику на Greenplum, оказались перед развилкой. Сообщество разделилось: Apache Cloudberry (incubating) , Greengage DB от Arenadata, WarehousePG от EDB. Каждый форк продолжает линию, но в собственной траектории. У компании с боевым кластером появляется конкретный вопрос: переехать/остаться в одном из этих форков или мигрировать на принципиально другую платформу и архитектурную парадигму. Эта статья (сага из трёх эпизодов) будет полезна, если у вас уже есть Greenplum-кластер, вы понимаете его DDL/ETL/backup-процессы и хотите оценить, насколько болезненным будет переход на StarRocks.

https://habr.com/ru/articles/1031358/

#starrocks #Lakehouse #greenplum #sql #миграция_данных #субд #mpp #dwh #olap #etl

Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях

В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только...

Хабр

StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

https://habr.com/ru/companies/datasapience/articles/1029814/

#dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность...

Хабр

StarRocks в облаке Selectel. Проверяем, как аналитическая СУБД ведет себя под нагрузкой

Идея развернуть аналитическую базу данных в облаке часто выглядит привлекательно — до того момента, пока администратор не начинает прикидывать реальную нагрузку в продакшене, а бизнес — итоговую стоимость. Именно здесь у многих появляются сомнения, и выбор все чаще смещается в сторону более осязаемых решений — например, выделенной инфраструктуры, где проще заранее оценить пределы производительности и стоимости. Я Антон Стеблянко, архитектор больших данных. В статье расскажу, как совместно с командой из компании «СР-ТЕХ» протестировали в облаке Selectel российский форк СУБД StarRocks Pro и проверили, насколько система подходит в качестве основы для построения аналитического хранилища данных.

https://habr.com/ru/companies/selectel/articles/1012836/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1012836

#starrocks #dwh #selectel #субд #базы_данных #хранение_данных #облако #серверы

StarRocks в облаке Selectel. Проверяем, как аналитическая СУБД ведет себя под нагрузкой

Идея развернуть аналитическую базу данных в облаке часто выглядит привлекательно — до того момента, пока администратор не начинает прикидывать реальную нагрузку в продакшене, а бизнес — итоговую...

Хабр

StarRocks в облаке Selectel. Проверяем, как аналитическая СУБД ведет себя под нагрузкой

Идея развернуть аналитическую базу данных в облаке часто выглядит привлекательно — до того момента, пока администратор не начинает прикидывать реальную нагрузку в продакшене, а бизнес — итоговую стоимость. Именно здесь у многих появляются сомнения, и выбор все чаще смещается в сторону более осязаемых решений — например, выделенной инфраструктуры, где проще заранее оценить пределы производительности и стоимости. Я Антон Стеблянко, архитектор больших данных. В статье расскажу, как совместно с командой из компании «СР-ТЕХ» протестировали

https://habr.com/ru/companies/selectel/articles/1012836/

#starrocks #dwh #selectel #субд #базы_данных #хранение_данных #облако #серверы

StarRocks в облаке Selectel. Проверяем, как аналитическая СУБД ведет себя под нагрузкой

Идея развернуть аналитическую базу данных в облаке часто выглядит привлекательно — до того момента, пока администратор не начинает прикидывать реальную нагрузку в продакшене, а бизнес — итоговую...

Хабр

Streamhouse на практике: данные за секунды, дашборды — нет

Привет, Хабр! Меня зовут Александр, я DevRel команды Selena Lakehouse. Пишу про СУБД StarRocks, архитектуры Lakehouse и Streamhouse в Telegram-канале @starrocks_selena ( https://t.me/starrocks_selena ). Полгода назад термин Streamhouse начал всплывать на конференциях и в блогах. При этом многие русскоязычные источники, которые я читал, сводят его к «замене Iceberg на Paimon и обновлению Flink» или путают с обычным Lakehouse. На самом деле за Streamhouse стоит интересная архитектурная логика. Конкретный набор компонентов, где каждый решает свою задачу: Apache Flink для вычислений, Apache Fluss как горячий потоковый слой, Apache Paimon как холодное хранилище. Вместе они дают потоковый Lakehouse с задержкой в секунды вместо минут. Мне стало интересно: можно ли на этом стеке построить полноценный аналитический конвейер? Не на слайдах, а руками в Docker Compose, с SQL и реальным сценарием. В этой статье:

https://habr.com/ru/articles/1005394/

#Streamhouse #Apache_Flink #Apache_Paimon #Fluss #StarRocks #Lakehouse #Realtime_analytics #SQL

Selena (powered by StarRocks)

Selena (powered by StarRocks) — технический канал для инженеров, разработчиков, аналитиков, SRE/DevOps,архитекторов,интеграторов и тимлидов, которые строят и развивают решения на базе StarRocks и Selena. Также у нас есть сайт: https://selena-lakehouse.ru

Telegram

INSERT в StarRocks: как три кластера раскрыли цену commit protocol

tl;dr: Каждая операция INSERT несет фиксированный overhead (в наших тестах 64–99 ms), независимо от количества строк. Формула: Total_time = N_statements * fixed_overhead + actual_write_time — подтверждена тестами. 1000 single-row INSERT = 64 секунды (Shared-data) или 100 секунд (Shared-Nothing). Разница не в диске и не в Docker, а в протоколе commit: TxnLog + publish через BRPC против 2PC + publish_version. В ANALYZE PROFILE commit overhead прячется в разнице TotalTime - ExecutionTime — это FE overhead. Батчинг нивелирует разницу: при INSERT SELECT оба режима дают ~0.25 с на 1000 строк.

https://habr.com/ru/articles/995484/

#StarRocks #OLAP #distributed_databases #performance #INSERT_optimization #архитектура

INSERT в StarRocks: как три кластера раскрыли цену commit protocol

tl;dr: Каждая операция INSERT несет фиксированный overhead (в наших тестах 64–99 ms), независимо от количества строк. Формула: Total_time = N_statements * fixed_overhead + actual_write_time...

Хабр
I'm currently writing and exploring #StarRocks. Has anyone used it or has any experience? Good or bad? Why did you use it?
StarRocks to the rescue! 🚀 Apparently, the #OLAP world was too busy having a mental breakdown over #joins to realize that #StarRocks has some secret sauce that makes them faster than a cat meme's rise to fame. 😂 But hey, who cares about real solutions when we can just keep denormalizing everything into oblivion, right? 🙄
https://www.starrocks.io/blog/inside-starrocks-why-joins-are-faster-than-youd-expect #performance #dataanalytics #datavisualization #technologyhumor #HackerNews #ngated
Inside StarRocks: Why Joins Are Faster Than You’d Expect

The engineering choices that turn joins into a strength. A deep dive with real-world case studies.

Inside StarRocks: Why Joins Are Faster Than You’d Expect

The engineering choices that turn joins into a strength. A deep dive with real-world case studies.

Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

https://habr.com/ru/companies/datasapience/articles/987006/

#lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало...

Хабр