Mastodawn

StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

https://habr.com/ru/companies/datasapience/articles/1029814/

#dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность...

Хабр

Data Quine Apr 17

People look at me funny If I say I get excited by things like this 😊

https://www.theregister.com/2026/04/16/duckdb_uses_rdbms_lakehouse/

#DuckLake #Lakehouse #Data

DuckDB uses RDBMS to attack classic 'small changes' problem in lakehouses

: Batching teensy changes in chunks creates massive performance boost, DuckDB Labs team claims

The Register

Habr Apr 17

Терабайты данных из Teradata в Trino — эффективный способ передачи

Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по каким-либо причинам нет в Lakehouse-платформе . В этом случае на помощь приходит федеративный доступ. Стандартом для такой задачи является движок Trino. Он умеет извлекать данные из внешних СУБД и даже в некоторых случаях может делать push-down определенных вычислений на сторону системы-источника. Главное, чтобы под рукой был подходящий connector для нужной СУБД, который умеет эффективно с ней работать. Недавно в состав Data Ocean Nova был добавлен новый Trino Teradata Connector . Он позволяет пользователям «подтягивать» необходимые срезы данных из Teradata в рамках ad hoc запросов и решает задачу эффективной передачи данных: можно передавать терабайты в несколько потоков без существенного увеличения нагрузки на источник. В данной статье разберем: - Как организовать эффективную многопоточную работу с Teradata : где часто допускают ошибки, как должно выглядеть правильное решение; - Какие возможности дает Nova Trino Teradata Connector : многопоточная передача, push-down оптимизации.

https://habr.com/ru/companies/datasapience/articles/1024690/

#trino #teradata #mpp #lakehouse #datalakehouse #dwh #bigdata

Терабайты данных из Teradata в Trino — эффективный способ передачи

Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по...

Хабр

Habr Apr 17

[Перевод] Архитектура Apache Iceberg: модель метаданных, на которой всё держится

В этой статье я хотел был разобраться в механике Iceberg. Понимание того, как Iceberg организует свои метаданные, отделяет уровень «я умею создавать таблицы» от уровня «я умею разбираться, почему мои запросы медленные, а объём хранилища разрастается». Это фундамент для всего остального в серии. Если вы разберётесь с четырьмя слоями модели метаданных Iceberg, любая фича (time travel, эволюция схемы, эволюция партиций, компактизация) будет восприниматься интуитивно.

https://habr.com/ru/articles/1024488/

#lakehouse #iceberg #dwh #spark

Архитектура Apache Iceberg: модель метаданных, на которой всё держится

В этой статье я хотел был разобраться в механике Iceberg. Понимание того, как Iceberg организует свои метаданные, отделяет уровень «я умею создавать таблицы» от уровня «я умею разбираться, почему мои...

Хабр

Sjard Apr 13

#lake #water #reflection #landscape #nature #scenic #peaceful #tranquil #outdoors #serene #waterscape #lakeview #lakeside #lakehouse #boating #swimming #summer #vacation #adventure #explore #wanderlust #travel #scenery #countryside #greenery #trees #foliage #horizon #skies #photography #nature #naturephotography #travelphotography #brazil

Sharon Cummings Art (Official)Apr 9

Pretty Rouen Duck for bird lovers. :)

ART
https://fineartamerica.com/featured/beautiful-brown-rouen-duck-art-on-country-wood-sharon-cummings.html

#duck #ducks #rouen #rouenduck #ponds #pond #lake #lakes #lakehouse #lakeshore #bird #birds #country #countryhumans #countrywestern #rustic #nature #art #artwork #homedecor #SharonCummingsArt #barn #flower #flowers #floral

Habr Apr 9

Spark SQL Scripting. Новые возможности для инженеров данных

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

https://habr.com/ru/companies/datasapience/articles/1021214/

#spark #datalake #datalakehouse #lakehouse #dwh #script

Spark SQL Scripting. Новые возможности для инженеров данных

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов,...

Хабр

2meterdba | Reitse Eskens Mar 6

Blog Alert!

This time of getting the Data Api Builder MCP preview to connect to a Fabric Lakehouse SQL Endpoint using Entra ID.

#MCP
#DAB
#MicrosoftFabric
#Lakehouse
#SqlEndpoint
#EntraId

http://sqlreitse.com/2026/03/06/sql-mcp-local-to-fabric-lakehouse/

SQL MCP: Local to Fabric Lakehouse

Let’s be honest, you thought of doing this yourself. Connecting two tools that seem to serve very different purposes. But, as I had a day to fool around, I thought to myself, let’s see …

Reitse's blog

Habr Mar 2

Streamhouse на практике: данные за секунды, дашборды — нет

Привет, Хабр! Меня зовут Александр, я DevRel команды Selena Lakehouse. Пишу про СУБД StarRocks, архитектуры Lakehouse и Streamhouse в Telegram-канале @starrocks_selena ( https://t.me/starrocks_selena ). Полгода назад термин Streamhouse начал всплывать на конференциях и в блогах. При этом многие русскоязычные источники, которые я читал, сводят его к «замене Iceberg на Paimon и обновлению Flink» или путают с обычным Lakehouse. На самом деле за Streamhouse стоит интересная архитектурная логика. Конкретный набор компонентов, где каждый решает свою задачу: Apache Flink для вычислений, Apache Fluss как горячий потоковый слой, Apache Paimon как холодное хранилище. Вместе они дают потоковый Lakehouse с задержкой в секунды вместо минут. Мне стало интересно: можно ли на этом стеке построить полноценный аналитический конвейер? Не на слайдах, а руками в Docker Compose, с SQL и реальным сценарием. В этой статье:

https://habr.com/ru/articles/1005394/

#Streamhouse #Apache_Flink #Apache_Paimon #Fluss #StarRocks #Lakehouse #Realtime_analytics #SQL

Selena (powered by StarRocks)

Selena (powered by StarRocks) — технический канал для инженеров, разработчиков, аналитиков, SRE/DevOps,архитекторов,интеграторов и тимлидов, которые строят и развивают решения на базе StarRocks и Selena. Также у нас есть сайт: https://selena-lakehouse.ru

Habr Feb 28

Data Mesh, Data Fabric, Lakehouse: разбираем модные термины

Data Mesh, Data Fabric, Lakehouse: разбираем модные термины Data Mesh, Fabric, Lakehouse – все говорят, но никто толком не объясняет, чем они отличаются и можно ли их использовать вместе . Разобралась и делюсь структурированно и без воды. ➕ Сравнительная таблица и чек-лист: что выбрать под свою боль. ✔️Сохраняйте, чтобы больше никогда не путаться.

https://habr.com/ru/articles/1005062/

#data_mesh #data_factory #data_fabric #data_lake #архитектура_данных #управление_данными #дата_инжиниринг #хранилище_данных #аналитика_данных #lakehouse

Data Mesh, Data Fabric, Lakehouse: разбираем модные термины

Если вы работаете с данными, то за последние пару лет точно слышали эти слова: Data Mesh, Data Fabric, Data Lakehouse. Их можно увидеть в заголовках конференций, вендорскиех презентациях и вакансиях...

Хабр