Mastodawn

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.

https://habr.com/ru/articles/1035136/

#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто‑то задыхается на боевой OLTP‑базе под аналитической нагрузкой. Кто‑то впервые строит BI и...

Хабр

Habr Jan 7

Как JOIN изменил наш подход к инфраструктуре данных в NAVER

После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.

https://habr.com/ru/articles/983356/

#StarRocks #ClickHouse #Apache_Iceberg #Lakehouse #JOIN #OLAP #Kubernetes #материализованные_представления #federated_analytics #аналитика_в_реальном_времени

Как JOIN изменил наш подход к инфраструктуре данных в NAVER

Авторы:Youngjin Kim, руководитель команды, NAVER; Moweon Lee, инженер по данным, NAVER NAVER основана в 1999 году, является материнской компанией мессенджера LINE, пятой по величине поисковой системой...

Хабр

Habr Dec 4, 2025

StarRocks 4.0: Real-Time Intelligence on Lakehouse

StarRocks 4.0: Real‑Time Intelligence on Lakehouse. Сквозная оптимизация конвейера в реальном времени, 3–15× ускорение JSON, SQL Plan Manager, Decimal256 и поддержка Apache Iceberg для нативной Lakehouse‑аналитики.

https://habr.com/ru/articles/973110/

#Lakehouse #Apache_Iceberg #аналитика_в_реальном_времени #JSON #SQL_Plan_Manager #starrocks

StarRocks 4.0: Real-Time Intelligence on Lakehouse

Оглядываясь на эволюцию StarRocks, каждое крупное обновление неизменно отвечало ключевым запросам эпохи к аналитике данных. StarRocks 1.x — ультрабыстрые запросы, решение проблем медленных BI‑отчётов...

Хабр

Habr Dec 2, 2025

Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться

Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я работаю в Сбере и два года занимался развитием этой платформы.

https://habr.com/ru/companies/sberbank/articles/972078/

#Apache_Spark #apache_iceberg #parquet #s3 #big_data

Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться

Хабр

Habr Nov 5, 2025

Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg

Apache Iceberg — табличный формат для озёр данных с поддержкой ACID, Schema Evolution, Hidden Partition и версионирования, но при больших метаданных и работе через S3 страдает планирование запросов и латентность. В связке со StarRocks мы показываем, как распределённый Job Plan, Manifest Cache, CBO с гистограммами, Data Cache и материализованные представления выводят lakehouse‑аналитику на уровень DWH: снижают накладные расходы на метаданные, ускоряют планы и выполнение, а запись обратно в Iceberg сохраняет единый источник истины. Разбираем архитектуру Iceberg, типовые узкие места и практики оптимизации на StarRocks 3.2–3.3, включая кейс WeChat/Tencent.

https://habr.com/ru/articles/963410/

#apache_iceberg #starrocks #lakehouse #data_analysis #data_lake #parquet #manifest #materialized_views

Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg

Apache Iceberg — открытый табличный формат, разработанный для хранения масштабных аналитических данных в озёрах данных. Он высоко совместим с множеством компонентов экосистемы Big Data и, по сравнению...

Хабр

DevelopersIO Aug 31, 2025

【Apache Iceberg】Apache IcebergのブランチとGlue Data QualityでWAPパターンのデータ品質管理をやってみる
https://dev.classmethod.jp/articles/apache-iceberg-branch-glue-data-quality-wap/

#dev_classmethod #Apache_Iceberg #AWS #AWS_Glue_Data_Quality #AWS_Glue

【Apache Iceberg】Apache IcebergのブランチとGlue Data QualityでWAPパターンのデータ品質管理をやってみる | DevelopersIO

DevelopersIO Jun 29, 2025

[セッションレポート] オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 #AWSSummit
https://dev.classmethod.jp/articles/aws-summit-japan-2025-otf-data-analysis-basis-aws-47/

#dev_classmethod #AWS #SageMaker_Lakehouse #Apache_Iceberg

[セッションレポート] オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 #AWSSummit | DevelopersIO

DevelopersIO Jun 26, 2025

【セッションレポート】オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 (AWS-47) #AWSSummit
https://dev.classmethod.jp/articles/aws-summit-tokyo-2025-session-report-aws-47/

#dev_classmethod #AWS #Apache_Iceberg #Amazon_SageMaker #SageMaker_Lakehouse

【セッションレポート】オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 (AWS-47) #AWSSummit | DevelopersIO

DevelopersIO Jun 24, 2025

Google CloudのIceberg「BigLake tables for Apache Iceberg in BigQuery」を試しつつ気になるトピックを調べてみた
https://dev.classmethod.jp/articles/google-cloud-iceberg-biglake-tables-for-apache-iceberg-in-bigquery/

#dev_classmethod #Google_BigQuery #Google_Cloud_GCP #Apache_Iceberg

Google CloudのIceberg「BigLake tables for Apache Iceberg in BigQuery」を試しつつ気になるトピックを調べてみた | DevelopersIO

BigLake tables for Apache Iceberg in BigQueryを試しつつ、メタデータリフレッシュ・制限事項・タイムトラベルについて調査しました。また最後にBigQuery標準テーブルとIceberg(BigLake tables for Apache Iceberg in BigQuery)の相違点について整理しました。

Google CloudのIceberg「BigLake tables for Apache Iceberg in BigQuery」を試しつつ気になるトピックを調べてみた | DevelopersIO

DevelopersIO Jun 13, 2025

【Iceberg】S3汎用バケットとS3 TablesにおけるIcebergパーティション追加設定の違い
https://dev.classmethod.jp/articles/iceberg-s3gp-s3tables-iceberg-add-partition/

#dev_classmethod #Apache_Iceberg #Amazon_S3 #S3_Tables #AWS_Glue

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

Как JOIN изменил наш подход к инфраструктуре данных в NAVER

StarRocks 4.0: Real-Time Intelligence on Lakehouse

Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться

Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg

【Apache Iceberg】Apache IcebergのブランチとGlue Data QualityでWAPパターンのデータ品質管理をやってみる | DevelopersIO

[セッションレポート] オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 #AWSSummit | DevelopersIO

【セッションレポート】 オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 (AWS-47) #AWSSummit | DevelopersIO

Google CloudのIceberg「BigLake tables for Apache Iceberg in BigQuery」を試しつつ気になるトピックを調べてみた | DevelopersIO

【Iceberg】S3汎用バケットとS3 TablesにおけるIcebergパーティション追加設定の違い | DevelopersIO

【セッションレポート】オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 (AWS-47) #AWSSummit | DevelopersIO