Mastodawn

A Sanofi field rep can now ask one question and receive a full physician pre-call plan in seconds, a task that previously took hours of manual research. That was the sharpest proof point from Snowflake Summit 26, held June 1–4 at San Francisco’s Moscone Center, where Snowflake pitched Snowflake CoWork and CoCo not as assistants, but as AI colleagues embedded directly in enterprise data.

Full story here: https://www.techfinitive.com/features/meet-snowflake-cowork-and-coco-the-ai-colleagues-that-work-directly-on-your-data/

#AgenticAI #AI #DataLakehouse #DataPlatform #EnterpriseAI

Meet Snowflake CoWork and CoCo: the AI colleagues that work directly on your data

Snowflake shifts to autonomous AI: Meet CoWork and CoCo, the new AI colleagues designed to work directly within your data stack.

TechFinitive

Habr May 8

Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

https://habr.com/ru/companies/datasapience/articles/1033038/

#mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия...

Хабр

Alex Merced May 5

Read here: https://substack.com/@alexmerced1985/note/p-196574481?r=h4f8p&utm_medium=ios&utm_source=notes-share-action

#DataLakehouse #DataEngineering

Alex Merced May 3

Yay, my latest book now physically exists. Book ships out at end of the month so pre-order “Architecting an Apache Iceberg Lakehouse “ on Amazon or Manning Publisings website today!
#DataEngineering #DataLakehouse #ApacheIceberg

Habr Apr 29

StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

https://habr.com/ru/companies/datasapience/articles/1029814/

#dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность...

Хабр

Alex Merced Apr 25

The Dremio Agentic Lakehouse
#Datalakehouse #DataEngineering #apacheiceberg

Habr Apr 17

Терабайты данных из Teradata в Trino — эффективный способ передачи

Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по каким-либо причинам нет в Lakehouse-платформе . В этом случае на помощь приходит федеративный доступ. Стандартом для такой задачи является движок Trino. Он умеет извлекать данные из внешних СУБД и даже в некоторых случаях может делать push-down определенных вычислений на сторону системы-источника. Главное, чтобы под рукой был подходящий connector для нужной СУБД, который умеет эффективно с ней работать. Недавно в состав Data Ocean Nova был добавлен новый Trino Teradata Connector . Он позволяет пользователям «подтягивать» необходимые срезы данных из Teradata в рамках ad hoc запросов и решает задачу эффективной передачи данных: можно передавать терабайты в несколько потоков без существенного увеличения нагрузки на источник. В данной статье разберем: - Как организовать эффективную многопоточную работу с Teradata : где часто допускают ошибки, как должно выглядеть правильное решение; - Какие возможности дает Nova Trino Teradata Connector : многопоточная передача, push-down оптимизации.

https://habr.com/ru/companies/datasapience/articles/1024690/

#trino #teradata #mpp #lakehouse #datalakehouse #dwh #bigdata

Терабайты данных из Teradata в Trino — эффективный способ передачи

Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по...

Хабр

Marcel-Jan Krijgsman Apr 16

My talk about #dataengineering in the #Europeancloud at #pyconaustria2026 is going to be fun. I've tried multiple European #cloudproviders to see if they got what I need. I built a #datalakehouse at @scaleway and I'll show you what that looks like. We'll have a look at Leafcloud, a Dutch cloud provider. And I'll show you the new Data Platform at @OVHcloud
My talk is Monday at 10:00 in room HS2. Hope to see you there.

Alex Merced Apr 12

IT'S FINALLY COMPLETE! (35% OFF)

Just submitted the last bits to complete my latest book with Manning.

As always, thanks for your support over the years. It really does mean a lot, and it has been quite the ride!

Find this and all my other books at https://books.alexmerced.com

#ApacheIceberg #DataLakehouse #DataEngineering

Habr Apr 9

Spark SQL Scripting. Новые возможности для инженеров данных

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

https://habr.com/ru/companies/datasapience/articles/1021214/

#spark #datalake #datalakehouse #lakehouse #dwh #script

Spark SQL Scripting. Новые возможности для инженеров данных

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов,...

Хабр