DuckDB Labs released #DuckLake 1.0 - a data lake format that stores table metadata in a SQL database, rather than spreading it across object storage files.

Key features:
• catalog-stored small updates
• improved sorting and partitioning
• compatibility with Iceberg-style data features

Learn more ⇨ https://bit.ly/48PsPIS

#InfoQ #DuckDB #ApacheIceberg #AI #DataLake #DataStorage

StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

https://habr.com/ru/companies/datasapience/articles/1029814/

#dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность...

Хабр

Lakehouse architectures allow multiple engines to run on shared data through open table formats like #ApacheIceberg.

But #SQL identifier resolution and catalog naming rules differ across engines - creating hidden interoperability failures.

In this #InfoQ article, Maninder Parmar explains why enforcing consistent naming conventions and cross-engine validation is critical.

📰 Read now: https://bit.ly/4902zeH

#RelationalDatabases #DataLake

New Aspire database integrations

Aspire 13.2 brings MongoDB Entity Framework Core and Azure Data Lake Storage integrations, plus quality-of-life improvements to existing database clients.

Aspire Blog

Spark SQL Scripting. Новые возможности для инженеров данных

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

https://habr.com/ru/companies/datasapience/articles/1021214/

#spark #datalake #datalakehouse #lakehouse #dwh #script

Spark SQL Scripting. Новые возможности для инженеров данных

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов,...

Хабр
The Data Lakehouse Explained: Why Apache Iceberg Is Quietly Running the Show

Data warehouses were expensive. Data lakes turned into swamps. Enter the Lakehouse — and the open table format that makes it actually work.

TechLife — AI, Software Engineering & Emerging Technology

Confused by Data Warehouse vs. Data Lake vs. Data Mesh?

Think of it this way:
- 📦 Warehouse = organized storage room
- 🌊 Lake = throw everything in, sort later
- 🕸️ Mesh = each team owns and serves its own data - but there is still a common hub.

The key insight: Mesh isn't a storage technology. You can run a Data Mesh on top of a Warehouse or Lake. It's about ownership, not infrastructure.

👉 https://www.kdnuggets.com/data-lake-vs-data-warehouse-vs-lakehouse-vs-data-mesh-whats-the-difference

#DataMesh #DataLake #DataWarehouse #DataLiteracy
— bos | 🖼️ ai-generated

Webinair Dataviz et Logiciels Libres

https://peertube.aukfood.net/w/vEjUHGWciWp2iHiD82a2c6

Webinair Dataviz et Logiciels Libres

PeerTube
Stop the "Small File Syndrome" in your Data Lake. Learn how to implement Compaction, Z-Ordering, and automated maintenance in Databricks and Snowflake. https://hackernoon.com/the-silent-killer-of-data-lakes-solving-the-small-file-problem #datalake
The Silent Killer of Data Lakes: Solving the Small File Problem | HackerNoon

Stop the "Small File Syndrome" in your Data Lake. Learn how to implement Compaction, Z-Ordering, and automated maintenance in Databricks and Snowflake.

#Uber’s HiveSync team optimized Hadoop Distcp for multi-petabyte replication across hybrid cloud and on-prem data lakes.

✅ Task parallelization
✅ Uber jobs for small transfers
✅ Improved observability

Result: 5× replication capacity & seamless on-prem-to-cloud migration.

Read more: https://bit.ly/4bwUUFt

#InfoQ #SoftwareArchitecture #DistributedSystems #Observability #DataLake