Most ML issues are not model problems. They are data problems.

I retrained the same churn model twice.
Same code. Same path to the data.
Different result.

Why? Because of mutable data references.

 I wrote a small Data Lake vs Data Lakehouse demo showing why versioned data makes ML debugging reproducible: https://tinyurl.com/lake-vs-lakehouse-medium

 Friend-Link: https://medium.com/towards-artificial-intelligence/from-data-lake-to-data-lakehouse-why-ai-changes-the-rules-for-data-platforms-c78feab48e1c?sk=405811cbc10baa4622bcfcad90736ed4

#ai #machinelearning #data #lakehouse #warehouse #python #datalake #technology #regression

Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

https://habr.com/ru/companies/datasapience/articles/987006/

#lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало...

Хабр

Shifting Left delivers clean, reliable, and accessible data to everyone who needs it - right when they need it.

The result? Less complexity, lower overhead, and far less break-fix work, freeing teams to focus on higher-value problems.

At the core of a #ShiftLeft strategy are Data Products. They form the backbone of healthy data communication and ensure quality is built in - not patched on later.

📖 Great insights from this #InfoQ article on rethinking the Medallion Architecture: https://bit.ly/3WHjxsf

#SoftwareArchitecture #DataMesh #DataEngineering #DataLake #DataPipelines

via #Microsoft : Microsoft announces acquisition of Osmos to accelerate autonomous data engineering in Fabric

https://ift.tt/MpyJ38g
#Microsoft #Osmos #DataEngineering #AI #AutonomousAI #MicrosoftFabric #DataAnalytics #DataWorkflows #DataIntegration #BigData #DataLake #OneLak

Microsoft announces acquisition of Osmos to accelerate autonomous data engineering in Fabric - The Official Microsoft Blog

Today, Microsoft is announcing the acquisition of Osmos, an agentic AI data engineering platform designed to help simplify complex and time-consuming data workflows. Microsoft + Osmos: Extending Microsoft Fabric with agentic AI for data engineering Organizations today face a common challenge: data is everywhere, but making it actionable is often manual, slow and expensive. Many...

The Official Microsoft Blog
Data Lake – Wikipedia

Data lakes are typically thought of as simple warehouses. But they don't have to be! 👀 In Graylog 7.0 data lakes function as pressure release valves for #security teams overwhelmed by storage costs, investigation delays, and cloud data sprawl — where analysts can get direct access to long term data, and more.

Our data lake provides inexpensive storage where logs stay searchable, preview-able, and recoverable. Learn more about getting cloud scale without cloud surprises, and why this is a truly practical stance on managing data volume.

https://graylog.org/post/how-to-use-data-lakes-to-reduce-siem-costs-and-strengthen-investigations/ #CyberSecurity #SEIM #DataLake #TDIR

I discover DuckLake !

"DuckLake delivers advanced data lake features without traditional lakehouse complexity by using Parquet files and your SQL database. It's an open, standalone format from the DuckDB team."

https://github.com/duckdb/ducklake
https://ducklake.select/

#duckdb #data #bdd #database #datalake #parquet #sql

GitHub - duckdb/ducklake: DuckLake is an integrated data lake and catalog format

DuckLake is an integrated data lake and catalog format - duckdb/ducklake

GitHub

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.

https://habr.com/ru/companies/datasapience/articles/964052/

#starrocks #trino #impala #mpp #bigdata #dwh #lakehouse #datalake #s3 #hadoop

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из...

Хабр
GitHub - Snowflake-Labs/pg_lake: pg_lake: Postgres with Iceberg and data lake access

pg_lake: Postgres with Iceberg and data lake access - Snowflake-Labs/pg_lake

GitHub

Cloudflare has just launched the open beta of its Cloudflare Data Platform - a managed service for ingesting, storing & querying analytical data tables using open standards like Apache Iceberg.

🔍 Dive into the key insights on #InfoQhttps://bit.ly/49y1tIa

#CloudComputing #DataLake #DataAnalytics #ApacheIceberg #Cloudflare