Mastodawn

DuckDBをクライアント／サーバ化する「Quack」プロトコルが登場。複数のDuckDBインスタンス間で接続が可能に
https://www.publickey1.jp/blog/26/duckdbquackduckdb.html

DuckDBをクライアント／サーバ化する「Quack」プロトコルが登場。複数のDuckDBインスタンス間で接続が可能に

オープンソースとして開発されている高速なOLAP用データベース「DuckDB」をクライアント／サーバ化する新しいプロトコル「Quack」が発表されました。ちなみにQuackはアヒル（Duckはアヒルおよびカモ類全体の総称ですが、ここではア...

sayzard 6d ago

Show HN: SQLite-columnar, a column-oriented analytics extension for SQLite

SQLite-columnar은 SQLite에 컬럼 지향 분석 기능을 추가하는 확장 모듈로, 로컬 파일에서 OLAP 쿼리를 초고속으로 수행할 수 있게 해준다. 기존 행 지향 SQLite 대비 특정 분석 쿼리에서 최대 13만 배 이상의 속도 향상을 보이며, 시계열, IoT, 로컬 대시보드, ML 전처리 등 다양한 임베디드 분석 시나리오에 적합하다. 별도의 데이터베이스 서버 없이도 SQLite의 단순성을 유지하면서 분석용 컬럼 저장소와 특화된 집계 함수를 제공한다. 오픈소스이며 Elastic License 2.0 하에 배포되고, SQLite Cloud와 연동해 클라우드 기반 분석도 지원한다.

https://github.com/sqliteai/sqlite-columnar

#sqlite #columnar #olap #analytics #embedded

GitHub - sqliteai/sqlite-columnar: Column-oriented analytics for SQLite, designed for fast local analytical queries with benchmarked speedups of up to 130,000x over standard SQLite scans on selected workloads.

Column-oriented analytics for SQLite, designed for fast local analytical queries with benchmarked speedups of up to 130,000x over standard SQLite scans on selected workloads. - sqliteai/sqlite-colu...

GitHub

Habr 6d ago

ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой

Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.

https://habr.com/ru/companies/otus/articles/1022158/

#clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных

ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой

Всем привет, меня зовут Сергей Прощаев. Я Tech Lead и руководитель направления Java | Kotlin разработки в FinTech & E‑commerce, преподаю на курсах разработки и архитектуры в OTUS....

Хабр

Habr May 10

apache iceberg и его философия

iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata

https://habr.com/ru/articles/1033546/

#iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap

apache iceberg и его философия

Всем привет! В этой статье хочу рассказать про то, как Iceberg работает под капотом, и про то, как он эффективно может взаимодействовать с данными через свою metadata . Iceberg — табличный формат для...

Хабр

Habr May 6

Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях

В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только по подписке. Greenplum как живой OSS-проект остановился — но сам код, выпускавшийся с октября 2015-го, остался под Apache 2.0. Именно на этой кодовой базе стартанули остальные форки. Те, кто строил аналитику на Greenplum, оказались перед развилкой. Сообщество разделилось: Apache Cloudberry (incubating) , Greengage DB от Arenadata, WarehousePG от EDB. Каждый форк продолжает линию, но в собственной траектории. У компании с боевым кластером появляется конкретный вопрос: переехать/остаться в одном из этих форков или мигрировать на принципиально другую платформу и архитектурную парадигму. Эта статья (сага из трёх эпизодов) будет полезна, если у вас уже есть Greenplum-кластер, вы понимаете его DDL/ETL/backup-процессы и хотите оценить, насколько болезненным будет переход на StarRocks.

https://habr.com/ru/articles/1031358/

#starrocks #Lakehouse #greenplum #sql #миграция_данных #субд #mpp #dwh #olap #etl

Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях

Хабр

Habr Apr 19

Иллюзия точности метрик: о чем не принято говорить в «высоком обществе» BI-аналитиков

Как только вы уходите от сырых транзакционных данных к предагрегированным витринам, ваша BI-система начинает врать. И чем сложнее бизнес-логика и больше сложных показателей, тем сильнее искажения. Давайте разберем механику этой проблемы на фундаментальном уровне. Почему системы, в которые инвестированы миллионы, показывают фейк?

https://habr.com/ru/articles/1025328/

#BI #DWH #OLAP #DAX #MDX #архитектура_данных #rapeed #аналитика_данных #clickhouse #superset

Иллюзия точности метрик: о чем не принято говорить в «высоком обществе» BI-аналитиков

На одном из внедрений аналитической платформы rapeed в крупном банке мы столкнулись с проблемой: данные по среднему времени обработки кредитной заявки у нас и в их исторической BI-системе...

Хабр

GripNews Apr 14

🌗 DuckDB 內部設計與實作
➤ 深入淺出：從圖賓根大學的 15 週課程看現代資料庫引擎的技術核心
✤ https://duckdb.org/library/design-and-implementation-of-duckdb-internals/
德國圖賓根大學（University of Tübingen）數據庫研究小組的 Torsten Grust 教授推出了一門名為「DiDi」的專業課程，專門探討現代嵌入式資料庫 DuckDB 的內部設計與實作。這門為期 15 週的本科課程，捨棄了枯燥的純理論，直接帶領學生深入 DuckDB 的核心內核，解析記憶體管理、向量化執行以及查詢優化等關鍵技術。所有課程投影片與輔助教材均已開源至 GitHub，為有意鑽研高效能分析型資料庫的開發者與學生，提供了一條清晰的學習路徑。
+ 這份課程大綱非常紮實，特別是將 ART 索引與向量化執行列為重點，這正是 DuckDB 能在分析效能上脫穎而出的關鍵。
+ 對於想要從開發者轉向系統架構師的人來說，這類開源的底層原理教材比任何工
##資料庫系統 #DuckDB #系統架構 #教育資源 #OLAP

Design and Implementation of DuckDB Internals

DuckDB is an in-process SQL database management system focused on analytical query processing. It is designed to be easy to install and easy to use. DuckDB has no external dependencies. DuckDB has bindings for C/C++, Python, R, Java, Node.js, Go and other languages.

DuckDB

Habr Mar 31

OLAP-кубы в финансах: превращаем бюджетирование в управляемую систему

Цифровизация финансовой функции нередко воспринимается как масштабный и дорогостоящий проект. Со стороны кажется, что единовременно требуется внедрить несколько сложных систем и полностью перестроить бизнес-процессы. Евгения Крюкова , старший аналитик «Оптимакрос» , разобрала в статье, как OLAP-кубы (Online Analytical Processing) меняют бюджетирование и планирование в организации и почему именно их выбор становится критически важным этапом цифровой трансформации финансового подразделения компании. Материал будет полезен финансовым директорам, руководителям планово-экономических отделов и аналитикам, которые ищут инструменты для повышения качества управленческой отчетности.

https://habr.com/ru/articles/1017470/

#olap #olapкубы #финансовый_учет #бюджетирование #excel #bi #sql #cfo #моделирование #планирование

OLAP-кубы в финансах: превращаем бюджетирование в управляемую систему

Хабр

Habr Mar 17

Определение фактического профиля нагрузки в PostgreSQL и динамические состояния БД

Привет, ХАБР! Я Владимир Хаймин , эксперт по системам управления базами данных PostgreSQL в ВТБ. Когда вы знакомитесь с документацией по какой-то системе в части базы данных, то обычно характер нагрузки определяется исходно в архитектуре проекта. Но если система определена архитектором как OLTP, но в действительности может вести себя в некоторые периоды времени как OLAP. Нормально ли такое поведение, и каким образом мы можем определить, что она ведет себя как-то иначе? Как определить фактический профиль нагрузки OLAP или OLTP и выразить это через метрики, пригодные для событийного и графического мониторинга? Эта статья является скорее исследовательской в области Data Science в прикладном контексте PostgreSQL. Data Science – это не только задачи ИИ: (ML, LLM,..), но прежде всего математика. Мы используем регрессивные методы для получения некоторых нужных нам параметров исходя из табличных рекомендованных данных. Также мы делаем упор на исследование состояния БД на основе статистики динамики ожиданий. Задача, несмотря на ее простой смысл, в решении оказалась не такой простой, и мы в итоге работали над ней довольно долго, хоть и в фоновом режиме. Также обратились к студенческому сообществу и провели по этой теме Хакатон ВТБ х Башня , прошедший в МГТУ им. Баумана 27 ноября 2025 года. В нем приняли участие студенты и выпускники НИУ ВШЭ, СПбГУ, ВКА им. А.Ф. Можайского, РАНХИГС, Московского Политехнического университета, НИТУ МИСИС, а также уже действующие архитекторы и администраторы БД. У команд было всего три дня на решение задачи, и хотя полностью её не удалось выполнить никому, совокупный результат всех участников позволил сформировать корректное решение. Результат именно этих работ я и изложил в статье и обязательно буду упоминать команды и авторов интересных идей, о которых пойдет речь.

https://habr.com/ru/companies/vtb/articles/1011188/

#postgresql #postgresql_performance #olap #oltp #htap

Определение фактического профиля нагрузки в PostgreSQL и динамические состояния БД

Хабр

Habr Feb 12

Считаем ресурсы под PostgreSQL

Не так давно на моей текущей работе впервые за весь мой немногочисленный 4-летний опыт бэкендера понадобилось для нового микросервиса рассчитывать ресурсы под PostgreSQL для данного сервиса. Раньше для меня данная тема было чем-то, чем занимаются DevOps/DBA и никогда прежде не задумывался и не исследовал информацию о том, как качественно рассчитать необходимые ресурсы, чтобы бизнесу не пришлось переплачивать за очень дорогие железки лишние деньги, чтобы потом оказалось, что от купленных мощностей в реальности используется 20-40% (опыт на нескольких работах показывает, что такое случается ну очень часто). Q: Для кого эта статья? A: Да в целом для любых технических специалистов, которые так или иначе взаимодействуют с технической поддержкой PostgreSQL и которым впервые нужно для новой БД (например, под микросервис) и сформулировать задачу для DevOps команды на поднятие СУБД для вашего сервиса. Q: «Зачем мне это? Ну прикину я на глаз, что здесь нужно 50ГБ диска, 64ГБ RAM и нормально поедет» A: Очень часто в условиях микросервисной архитектуры используется парадигма database per service и в таком случае нельзя просто запросить максимально мощную виртуальную машину. Ресурсы стоят много денег, инфраструктура должна масштабироваться, а значит необходимо уметь определять, какой именно мощности ВМ требуется и какие параметры PostgreSQL следует задать на старте. В статье вы получите пошаговый расчёт диска, RAM, CPU и базовые рекомендации по конфигу PostgreSQL, а также в подарок готовый промпт для ИИ, если захотите делегировать все расчёты нейромозгу. Ну давай считать

https://habr.com/ru/articles/995722/

#PostgreSQL #расчёт_ресурсов #sizing_базы_данных #OLTP #OLAP #shared_buffers #max_connections #connection_pool #PGTune #database_per_service

Считаем ресурсы под PostgreSQL

Хабр