People look at me funny If I say I get excited by things like this 😊

https://www.theregister.com/2026/04/16/duckdb_uses_rdbms_lakehouse/

#DuckLake #Lakehouse #Data

DuckDB uses RDBMS to attack classic 'small changes' problem in lakehouses

: Batching teensy changes in chunks creates massive performance boost, DuckDB Labs team claims

The Register

Терабайты данных из Teradata в Trino — эффективный способ передачи

Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по каким-либо причинам нет в Lakehouse-платформе . В этом случае на помощь приходит федеративный доступ. Стандартом для такой задачи является движок Trino. Он умеет извлекать данные из внешних СУБД и даже в некоторых случаях может делать push-down определенных вычислений на сторону системы-источника. Главное, чтобы под рукой был подходящий connector для нужной СУБД, который умеет эффективно с ней работать. Недавно в состав Data Ocean Nova был добавлен новый Trino Teradata Connector . Он позволяет пользователям «подтягивать» необходимые срезы данных из Teradata в рамках ad hoc запросов и решает задачу эффективной передачи данных: можно передавать терабайты в несколько потоков без существенного увеличения нагрузки на источник. В данной статье разберем: - Как организовать эффективную многопоточную работу с Teradata : где часто допускают ошибки, как должно выглядеть правильное решение; - Какие возможности дает Nova Trino Teradata Connector : многопоточная передача, push-down оптимизации.

https://habr.com/ru/companies/datasapience/articles/1024690/

#trino #teradata #mpp #lakehouse #datalakehouse #dwh #bigdata

Терабайты данных из Teradata в Trino — эффективный способ передачи

Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по...

Хабр

[Перевод] Архитектура Apache Iceberg: модель метаданных, на которой всё держится

В этой статье я хотел был разобраться в механике Iceberg. Понимание того, как Iceberg организует свои метаданные, отделяет уровень «я умею создавать таблицы» от уровня «я умею разбираться, почему мои запросы медленные, а объём хранилища разрастается». Это фундамент для всего остального в серии. Если вы разберётесь с четырьмя слоями модели метаданных Iceberg, любая фича (time travel, эволюция схемы, эволюция партиций, компактизация) будет восприниматься интуитивно.

https://habr.com/ru/articles/1024488/

#lakehouse #iceberg #dwh #spark

Архитектура Apache Iceberg: модель метаданных, на которой всё держится

В этой статье я хотел был разобраться в механике Iceberg. Понимание того, как Iceberg организует свои метаданные, отделяет уровень «я умею создавать таблицы» от уровня «я умею разбираться, почему мои...

Хабр

Spark SQL Scripting. Новые возможности для инженеров данных

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

https://habr.com/ru/companies/datasapience/articles/1021214/

#spark #datalake #datalakehouse #lakehouse #dwh #script

Spark SQL Scripting. Новые возможности для инженеров данных

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов,...

Хабр

Blog Alert!

This time of getting the Data Api Builder MCP preview to connect to a Fabric Lakehouse SQL Endpoint using Entra ID.

#MCP
#DAB
#MicrosoftFabric
#Lakehouse
#SqlEndpoint
#EntraId

http://sqlreitse.com/2026/03/06/sql-mcp-local-to-fabric-lakehouse/

SQL MCP: Local to Fabric Lakehouse

Let’s be honest, you thought of doing this yourself. Connecting two tools that seem to serve very different purposes. But, as I had a day to fool around, I thought to myself, let’s see …

Reitse's blog

Streamhouse на практике: данные за секунды, дашборды — нет

Привет, Хабр! Меня зовут Александр, я DevRel команды Selena Lakehouse. Пишу про СУБД StarRocks, архитектуры Lakehouse и Streamhouse в Telegram-канале @starrocks_selena ( https://t.me/starrocks_selena ). Полгода назад термин Streamhouse начал всплывать на конференциях и в блогах. При этом многие русскоязычные источники, которые я читал, сводят его к «замене Iceberg на Paimon и обновлению Flink» или путают с обычным Lakehouse. На самом деле за Streamhouse стоит интересная архитектурная логика. Конкретный набор компонентов, где каждый решает свою задачу: Apache Flink для вычислений, Apache Fluss как горячий потоковый слой, Apache Paimon как холодное хранилище. Вместе они дают потоковый Lakehouse с задержкой в секунды вместо минут. Мне стало интересно: можно ли на этом стеке построить полноценный аналитический конвейер? Не на слайдах, а руками в Docker Compose, с SQL и реальным сценарием. В этой статье:

https://habr.com/ru/articles/1005394/

#Streamhouse #Apache_Flink #Apache_Paimon #Fluss #StarRocks #Lakehouse #Realtime_analytics #SQL

Selena (powered by StarRocks)

Selena (powered by StarRocks) — технический канал для инженеров, разработчиков, аналитиков, SRE/DevOps,архитекторов,интеграторов и тимлидов, которые строят и развивают решения на базе StarRocks и Selena. Также у нас есть сайт: https://selena-lakehouse.ru

Telegram

Data Mesh, Data Fabric, Lakehouse: разбираем модные термины

Data Mesh, Data Fabric, Lakehouse: разбираем модные термины Data Mesh, Fabric, Lakehouse – все говорят, но никто толком не объясняет, чем они отличаются и можно ли их использовать вместе . Разобралась и делюсь структурированно и без воды. ➕ Сравнительная таблица и чек-лист: что выбрать под свою боль. ✔️Сохраняйте, чтобы больше никогда не путаться.

https://habr.com/ru/articles/1005062/

#data_mesh #data_factory #data_fabric #data_lake #архитектура_данных #управление_данными #дата_инжиниринг #хранилище_данных #аналитика_данных #lakehouse

Data Mesh, Data Fabric, Lakehouse: разбираем модные термины

Если вы работаете с данными, то за последние пару лет точно слышали эти слова: Data Mesh, Data Fabric, Data Lakehouse. Их можно увидеть в заголовках конференций, вендорскиех презентациях и вакансиях...

Хабр

Сессионные вычислители — залог успеха аналитики будущего

Вечный конфликт: аналитики требуют свободы маневра, а DBA закрывают доступ к базе, опасаясь одного «убийственного» запроса, который положит весь кластер. В Postgres Professional мы разработали Tengri — систему, где каждый пользователь получает изолированные вычислительные ресурсы. Рассказываю, как архитектура индивидуальных вычислителей позволяет избежать конкуренции за ресурсы и почему после такого опыта возвращаться к общим очередям запросов уже не хочется.

https://habr.com/ru/companies/postgrespro/articles/1003600/

#lakehouse #dwh #analytics #data_engineering #database

Сессионные вычислители — залог успеха аналитики будущего

Всем привет, меня зовут Николай Голов. Всю свою профессиональную жизнь я строю аналитические платформы. Возможно, вы видели мои статьи про  Vertica  и  Snowflake . В последние годы...

Хабр