DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.

https://habr.com/ru/articles/1035136/

#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто‑то задыхается на боевой OLTP‑базе под аналитической нагрузкой. Кто‑то впервые строит BI и...

Хабр

Как JOIN изменил наш подход к инфраструктуре данных в NAVER

После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.

https://habr.com/ru/articles/983356/

#StarRocks #ClickHouse #Apache_Iceberg #Lakehouse #JOIN #OLAP #Kubernetes #материализованные_представления #federated_analytics #аналитика_в_реальном_времени

Как JOIN изменил наш подход к инфраструктуре данных в NAVER

Авторы:Youngjin Kim, руководитель команды, NAVER; Moweon Lee, инженер по данным, NAVER NAVER основана в 1999 году, является материнской компанией мессенджера LINE, пятой по величине поисковой системой...

Хабр

StarRocks 4.0: Real-Time Intelligence on Lakehouse

StarRocks 4.0: Real‑Time Intelligence on Lakehouse. Сквозная оптимизация конвейера в реальном времени, 3–15× ускорение JSON, SQL Plan Manager, Decimal256 и поддержка Apache Iceberg для нативной Lakehouse‑аналитики.

https://habr.com/ru/articles/973110/

#Lakehouse #Apache_Iceberg #аналитика_в_реальном_времени #JSON #SQL_Plan_Manager #starrocks

StarRocks 4.0: Real-Time Intelligence on Lakehouse

Оглядываясь на эволюцию StarRocks, каждое крупное обновление неизменно отвечало ключевым запросам эпохи к аналитике данных. StarRocks 1.x — ультрабыстрые запросы, решение проблем медленных BI‑отчётов...

Хабр

Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться

Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я работаю в Сбере и два года занимался развитием этой платформы.

https://habr.com/ru/companies/sberbank/articles/972078/

#Apache_Spark #apache_iceberg #parquet #s3 #big_data

Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться

Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я...

Хабр

Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg

Apache Iceberg — табличный формат для озёр данных с поддержкой ACID, Schema Evolution, Hidden Partition и версионирования, но при больших метаданных и работе через S3 страдает планирование запросов и латентность. В связке со StarRocks мы показываем, как распределённый Job Plan, Manifest Cache, CBO с гистограммами, Data Cache и материализованные представления выводят lakehouse‑аналитику на уровень DWH: снижают накладные расходы на метаданные, ускоряют планы и выполнение, а запись обратно в Iceberg сохраняет единый источник истины. Разбираем архитектуру Iceberg, типовые узкие места и практики оптимизации на StarRocks 3.2–3.3, включая кейс WeChat/Tencent.

https://habr.com/ru/articles/963410/

#apache_iceberg #starrocks #lakehouse #data_analysis #data_lake #parquet #manifest #materialized_views

Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg

Apache Iceberg — открытый табличный формат, разработанный для хранения масштабных аналитических данных в озёрах данных. Он высоко совместим с множеством компонентов экосистемы Big Data и, по сравнению...

Хабр

【Apache Iceberg】Apache IcebergのブランチとGlue Data QualityでWAPパターンのデータ品質管理をやってみる
https://dev.classmethod.jp/articles/apache-iceberg-branch-glue-data-quality-wap/

#dev_classmethod #Apache_Iceberg #AWS #AWS_Glue_Data_Quality #AWS_Glue

【Apache Iceberg】Apache IcebergのブランチとGlue Data QualityでWAPパターンのデータ品質管理をやってみる | DevelopersIO

【Apache Iceberg】Apache IcebergのブランチとGlue Data QualityでWAPパターンのデータ品質管理をやってみる | DevelopersIO

[セッションレポート] オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 #AWSSummit
https://dev.classmethod.jp/articles/aws-summit-japan-2025-otf-data-analysis-basis-aws-47/

#dev_classmethod #AWS #SageMaker_Lakehouse #Apache_Iceberg

[セッションレポート] オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 #AWSSummit | DevelopersIO

[セッションレポート] オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 #AWSSummit | DevelopersIO

【セッションレポート】 オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 (AWS-47) #AWSSummit
https://dev.classmethod.jp/articles/aws-summit-tokyo-2025-session-report-aws-47/

#dev_classmethod #AWS #Apache_Iceberg #Amazon_SageMaker #SageMaker_Lakehouse

【セッションレポート】 オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 (AWS-47) #AWSSummit | DevelopersIO

【セッションレポート】 オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 (AWS-47) #AWSSummit | DevelopersIO

Google CloudのIceberg「BigLake tables for Apache Iceberg in BigQuery」を試しつつ気になるトピックを調べてみた
https://dev.classmethod.jp/articles/google-cloud-iceberg-biglake-tables-for-apache-iceberg-in-bigquery/

#dev_classmethod #Google_BigQuery #Google_Cloud_GCP #Apache_Iceberg

Google CloudのIceberg「BigLake tables for Apache Iceberg in BigQuery」を試しつつ気になるトピックを調べてみた | DevelopersIO

BigLake tables for Apache Iceberg in BigQueryを試しつつ、メタデータリフレッシュ・制限事項・タイムトラベルについて調査しました。 また最後にBigQuery標準テーブルとIceberg(BigLake tables for Apache Iceberg in BigQuery)の相違点について整理しました。

Google CloudのIceberg「BigLake tables for Apache Iceberg in BigQuery」を試しつつ気になるトピックを調べてみた | DevelopersIO

【Iceberg】S3汎用バケットとS3 TablesにおけるIcebergパーティション追加設定の違い
https://dev.classmethod.jp/articles/iceberg-s3gp-s3tables-iceberg-add-partition/

#dev_classmethod #Apache_Iceberg #Amazon_S3 #S3_Tables #AWS_Glue

【Iceberg】S3汎用バケットとS3 TablesにおけるIcebergパーティション追加設定の違い | DevelopersIO

【Iceberg】S3汎用バケットとS3 TablesにおけるIcebergパーティション追加設定の違い | DevelopersIO