🌘 深入解析 StarRocks:為何 JOIN 操作比你想像中更快
➤ 透過成本基礎優化器與分散式執行策略,顛覆傳統 OLAP JOIN 效能瓶頸
https://www.starrocks.io/blog/inside-starrocks-why-joins-are-faster-than-youd-expect
本文深入探討 StarRocks 如何透過成本基礎優化器(CBO)與分佈式執行策略,大幅提升 JOIN 操作效能。相較於許多 OLAP 系統因 JOIN 效能瓶頸而被迫進行反正規化(Denormalization),StarRocks 選擇保持資料正規化並優化 JOIN 速度。文章詳細剖析了 JOIN 優化面臨的挑戰,包括多種 JOIN 策略的選擇、多表 JOIN 的順序排列、執行效果的預測難度,以及分散式環境下的最佳化難題。接著,文章闡述了 StarRocks 在邏輯層面(如 JOIN 類型轉換)與物理層面(如 JOIN 重排序與分散式規劃)的具體技術手段,並佐以 NAVER、Demandbase 及 Shopee 的實戰
#數據庫優化 #OLAP #分佈式系統
Inside StarRocks: Why Joins Are Faster Than You’d Expect

The engineering choices that turn joins into a strength. A deep dive with real-world case studies.

StarRocks to the rescue! 🚀 Apparently, the #OLAP world was too busy having a mental breakdown over #joins to realize that #StarRocks has some secret sauce that makes them faster than a cat meme's rise to fame. 😂 But hey, who cares about real solutions when we can just keep denormalizing everything into oblivion, right? 🙄
https://www.starrocks.io/blog/inside-starrocks-why-joins-are-faster-than-youd-expect #performance #dataanalytics #datavisualization #technologyhumor #HackerNews #ngated
Inside StarRocks: Why Joins Are Faster Than You’d Expect

The engineering choices that turn joins into a strength. A deep dive with real-world case studies.

Как JOIN изменил наш подход к инфраструктуре данных в NAVER

После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.

https://habr.com/ru/articles/983356/

#StarRocks #ClickHouse #Apache_Iceberg #Lakehouse #JOIN #OLAP #Kubernetes #материализованные_представления #federated_analytics #аналитика_в_реальном_времени

Как JOIN изменил наш подход к инфраструктуре данных в NAVER

Авторы:Youngjin Kim, руководитель команды, NAVER; Moweon Lee, инженер по данным, NAVER NAVER основана в 1999 году, является материнской компанией мессенджера LINE, пятой по величине поисковой системой...

Хабр

Инструмент перехвата медленных запросов StarRocks

Практическое руководство по построению сервиса перехвата медленных запросов в StarRocks: правила kill и пороги (full table scan, scan rows/bytes), анализ execution plan, интеграции с Grafana и Feishu, SQL-схемы и YAML-конфигурация для продакшена.

https://habr.com/ru/articles/983314/

#StarRocks #медленные_запросы #slow_query #OLAP #MPP #full_table_scan #execution_plan #stream_load #Grafana

Инструмент перехвата медленных запросов StarRocks

Поскольку кластеров много, а на управление медленными запросами и обеспечение приоритета коротких запросов не хочется тратить много времени, был разработан вспомогательный сервис для контроля...

Хабр

Khi nào nên dùng cơ sở dữ liệu cột (columnar database)? Khi làm việc với truy vấn phân tích (OLAP), lượng dữ liệu lớn và cần hiệu suất cao. Columnar DB tận dụng vectorization, lưu trữ tuần tự và tối ưu bộ nhớ giúp truy vấn nhanh hơn. Phù hợp cho báo cáo, BI và phân tích dữ liệu chứ không phải giao dịch (OLTP). #ColumnarDatabase #OLAP #DataEngineering #CSDLcột #PhânTíchDữLiệu #BigData

https://www.reddit.com/r/programming/comments/1q5h5qc/when_to_use_a_columnar_database/

Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks

В статье разберем, как синхронизировать данные из Oracle, MySQL, SQL Server, PostgreSQL, Kafka и MongoDB в StarRocks. Сравним Flink+CDC+SMT, DataX, Routine Load и Python по применимости, ограничениям и удобству эксплуатации, а также дадим рекомендации по выбору под разные сценарии.

https://habr.com/ru/articles/980392/

#ETL #Apache_Flink #Apache_Kafka #MongoDB #PostgreSQL #MySQL #Oracle #Microsoft_SQL_Server #OLAP

Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks

В повседневной работе нередко требуется синхронизировать данные из распространенных СУБД — Oracle, MySQL, SQL Server, PostgreSQL, а также из MongoDB и Kafka — в StarRocks для последующей очистки и...

Хабр

Создание и обновление материализованных представлений (MV) в StarRocks: пошаговый разбор

В статье — пошаговый разбор создания и обновления материализованных представлений (MV) в StarRocks: от парсинга SQL (ANTLR) и инициализации свойств до сериализации метаданных (edit log, checkpoint, image) и планирования refresh. Разбираем синхронизацию партиций (range‑партиционирование), параметр partition_refresh_number и оптимизацию обновлений. Отдельный блок — поддержка нескольких выражений в UNION ALL и механизм VirtualPartitions из PR #60035, позволяющий корректно обновлять сдвинутые временными функциями (date_add/date_sub) диапазоны без пропусков. Материал будет полезен инженерам данных и тем, кто проектирует OLAP‑модели и MV под высокую нагрузку.

https://habr.com/ru/articles/980368/

#StarRocks #материализованные_представления #MV #Big_Data #OLAP #партиционирование #refresh #UNION_ALL #virtual_partitions #метаданные

Создание и обновление материализованных представлений (MV) в StarRocks: пошаговый разбор

Недавно я работал над добавлением в материализованные представления StarRocks поддержки нескольких выражений , поэтому подробно разобрал весь путь — от создания MV до его обновления (refresh)....

Хабр

Глубокий разбор материализованных представлений в StarRocks: полный механизм query rewrite

Материализованные представления (MV) в StarRocks — это не просто кэш агрегатов, а полноценный механизм ускорения запросов с автоматическим переписыванием (query rewrite). На практических примерах разбираем, как движок сопоставляет поддеревья плана запроса со SPJG‑MV, как работают join/aggregate/nested/union rewrite, как обеспечивается строгая согласованность и настраиваемая устарелость данных (staleness), и за счёт чего достигается ускорение на SSB и TPC‑H.

https://habr.com/ru/articles/980320/

#StarRocks #материализованные_представления #query_rewrite #SPJG #OLAP #BI #rollup #bitmap #predicate_pushdown #partition_pruning

Глубокий разбор материализованных представлений в StarRocks: полный механизм query rewrite

В этом материале мы подробно разбираем, как использовать материализованные представления (материализованное представление — далее «MV») для переписывания запросов (query rewrite). Рассмотрим базовые...

Хабр

Практический опыт StarRocks: импорт JSON и CSV из Kafka с помощью Routine Load

В архитектуре потоковой обработки данных Kafka, как высокопроизводительная очередь сообщений, обычно используется для агрегации данных, а StarRocks, как высокопроизводительная аналитическая СУБД, отвечает за хранение и анализ. С помощью Routine Load можно стабильно и эффективно загружать в StarRocks данные в форматах JSON и CSV из Kafka.

https://habr.com/ru/articles/980134/

#olap #starrocks #routine_load #etl #kafka #streaming #sql #data_engineering

Практический опыт StarRocks: импорт JSON и CSV из Kafka с помощью Routine Load

В архитектуре потоковой обработки данных Kafka, как высокопроизводительная очередь сообщений, обычно используется для агрегации данных, а StarRocks, как высокопроизводительная аналитическая СУБД,...

Хабр
Does anybody have any idea how would somebody access #olap cube on #sqlserver through http but with custom authentication. There is incredibly rigid msmdpump.dll which offers only Basic auth which is again rigid when you are dealing with non-windows users. Urgh.