just installed new qsv release
https://github.com/dathere/qsv/releases/tag/21.0.0
shout out to the developers, keep up the good work!
just installed new qsv release
https://github.com/dathere/qsv/releases/tag/21.0.0
shout out to the developers, keep up the good work!
Как Data Fabric и HTAP превращают сырые данные в бизнес-события для мгновенной аналитики
Долгое время главным критерием качества данных считалась их чистота и полнота. Компании инвестировали значительные ресурсы в MDM-системы и процессы проверки, стремясь получить «единую версию правды». Однако сегодня этого уже недостаточно. В условиях, когда скорость реакции определяет успех, на первый план выходит новый критерий — актуальность. Способность данных отражать реальное положение дел в момент принятия решения становится решающим фактором. При этом классические архитектуры, основанные на ночных загрузках в DWH, создают временной лаг, который превращает «правду» во «вчерашнюю». Привет, Хабр. Меня зовут Александр Шалудин. Я Presale-архитектор Data Services VK Tech. В этой статье я разберу, к чему может приводить работа с неактуальной информацией и как выстроить архитектуру, которая позволит устранить этот разрыв. Из-за высокой конкуренции и сопутствующих вызовов многие компании стремятся стать Data-Driven, то есть принимать решения, основываясь на данных, чтобы сохранять конкурентоспособность, быстро реагировать на тренды и взвешенно оценивать бизнес-процессы. Однако точность этих решений напрямую зависит не только от качества информации, но и от ее актуальности и доступности в нужный момент. Ключевая угроза здесь — задержка данных. Это не просто неудобство, а прямые скрытые расходы. Компания может иметь выстроенные процессы контроля качества и полные справочники, но, если ответ от аналитической системы нужен сегодня, а данные поступят только завтра или через неделю, их ценность для принятия оперативных решений стремится к нулю.
https://habr.com/ru/companies/vktech/articles/1044946/
#tarantool_column_store #htap #data_fabric #oltp #olap #realtime_analytics #tarantool #etl #mdm #vk_tech
rapeed: in-memory OLAP-движок с собственной алгеброй связей
Меня зовут Андрей Рыжик, я Product Owner BI-направления в компании «Белый код». Эта статья – обзор платформы rapeed: in-memory OLAP-движка с собственным форматом хранения, нестандартной алгеброй связей между источниками и несколькими клиентами поверх единого ядра.
https://habr.com/ru/companies/w_code/articles/1042524/
#bi #olap #inmemory #аналитика_данных #data_engineering #высоконагруженные_системы #архитектура_по #distributed_systems #mpp #rapeed
Автоскейлинг StarRocks в Kubernetes: как я довел его до предела
Классическая проблема аналитических систем: кластер СУБД сайзится под пик, а 28 дней в месяц он задействован чуть больше чем наполовину. StarRocks (shared-data) и автоскейл Kubernetes убирают этот избыток. Compute добавляется под нагрузку и сворачивается на спаде. Внутри легкая пятничная статья: как это работает и где у эластичности потолок.
https://habr.com/ru/articles/1041278/
#starrocks #olap #kubernetes #autoscaling #selena #субд #mpp
I'm quite curious what are the plans for #DuckDB on 2.0. They have an #OLAP local renaissance in their hands. 😎

DuckDB instances can now talk to each other using the Quack remote protocol. This lets you run DuckDB in a client-server setup with multiple concurrent writers. In DuckDB's spirit, Quack is simple to set up and builds on proven technologies such as HTTP. It's also fast, which allows it to support workloads ranging from bulk operations to small transactions.
Насколько многомерным может быть многомерный точный индекс?
Вот, например, Milvius(DiskANN) рассчитан на вектора размерности до 32 768 , но это приближенный поиск. Но как насчёт поиска точного? В данной статье рассматривается работоспособность 1024 мерного индекса, хранилищем которого служит обычное B-дерево (насколько вообще может быть обычным такое дерево). Используемый диск - вполне себе “железный” старый добрый WD Purple, оперативная память сознательно ограничена 8 Гб. Можно ли что-то из этого выжать на рядовом десктопе за приемлемое время?
DuckDBをクライアント/サーバ化する「Quack」プロトコルが登場。複数のDuckDBインスタンス間で接続が可能に
https://www.publickey1.jp/blog/26/duckdbquackduckdb.html
ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой
Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.
https://habr.com/ru/companies/otus/articles/1022158/
#clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных
apache iceberg и его философия
iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata
https://habr.com/ru/articles/1033546/
#iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap
Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях
В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только по подписке. Greenplum как живой OSS-проект остановился — но сам код, выпускавшийся с октября 2015-го, остался под Apache 2.0. Именно на этой кодовой базе стартанули остальные форки. Те, кто строил аналитику на Greenplum, оказались перед развилкой. Сообщество разделилось: Apache Cloudberry (incubating) , Greengage DB от Arenadata, WarehousePG от EDB. Каждый форк продолжает линию, но в собственной траектории. У компании с боевым кластером появляется конкретный вопрос: переехать/остаться в одном из этих форков или мигрировать на принципиально другую платформу и архитектурную парадигму. Эта статья (сага из трёх эпизодов) будет полезна, если у вас уже есть Greenplum-кластер, вы понимаете его DDL/ETL/backup-процессы и хотите оценить, насколько болезненным будет переход на StarRocks.
https://habr.com/ru/articles/1031358/
#starrocks #Lakehouse #greenplum #sql #миграция_данных #субд #mpp #dwh #olap #etl