Data catalog есть, а пользы нет: Частые ошибки внедрения

Data governance, data mesh, modern data stack, data lineage – столько разных data, столько разных популярных подходов и инструментов. Лидером по популярности (на мой скромный взгляд) среди всех них является data catalog. Многие говорят о нем, многие хотят его, многие уже внедрили. Но внедрить это одно дело, а вот получить от него пользу – дело совсем другое. Мы сформировали список самых частых проблем, основанные не только на нашем опыте, но и на опыте наших коллег, проанализировав множество статей и материалов на эту тему.

https://habr.com/ru/articles/1003158/

#data_catalog #data_governance #openmetadata #datahub #ai #metadata #метаданные #каталог_данных #управление_данными #data_quality

Data catalog есть, а пользы нет: Частые ошибки внедрения

Всех приветствую! Зовут меня Павел, работаю в Lasmart и веду направление разработки решения по автоматизации описания метаданных с AI (Datadesc). Часто сталкиваемся с каталогами данных и вот решили...

Хабр

Хороший, плохой, злой: База данных, data catalog и AI

Всех приветствую! Меня зовут Павел, работаю в компании Lasmart. Одно из направлений деятельности всегда было внедрение и развитие DWH. В какой-то момент задумались о том, чтобы оптимизировать прежде всего свою работу в некоторых аспектах. И первым инструментом сделали генерацию бизнес-описания на основе AI. Назвали Datadesc (data + description). Об этом опыте и пойдет речь в этой статье.

https://habr.com/ru/articles/996288/

#dwh #sql #data_catalog #openmetadata #datahub #data_engineering #data_analyst #semantic #arenadata_catalog #ai

Хороший, плохой, злой: База данных, data catalog и AI

Всех приветствую! Меня зовут Павел, работаю в компании Lasmart. Одно из направлений деятельности всегда было внедрение и развитие DWH. В какой-то момент задумались о том, чтобы оптимизировать прежде...

Хабр

Почему каталог данных превращается в кладбище и как это исправить

Кажется, о внедрении каталога данных не написал только ленивый. Каждая крупная компания так или иначе к этому (каталогу) приходит. Пробует разные решения и методологию. У кого-то успешно только на презентации для совета директоров (чаще всего), у кого-то на деле. Здесь же я хочу рассказать не о том, как заполнять каталог или какой выбрать. А о том, что нужно сделать, прежде чем переходить к покупке/запуску этого каталога. Для тех, кто уже имеет такого зверя в своем зоопарке, но с ним что-то не так, думаю, тоже будет полезно. Если вы один из счастливчиков, у кого каталог действительно взлетел, можете дальше не читать. Однако что-то мне подсказывает, что таких будет не много. Осторожно, статья-детектор.

https://habr.com/ru/articles/977014/

#каталог_данных #управление_разработкой #управление_продуктом #управление_данными #data_governance #data_catalog

Почему каталог данных превращается в кладбище и как это исправить

Кажется, о внедрении каталога данных не написал только ленивый. Каждая крупная компания так или иначе к этому (каталогу) приходит. Пробует разные решения и методологию. У кого-то успешно только на...

Хабр

Как найти свой путь в дата-инженерии и управлять петабайтами данных

На первый взгляд работа с данными может показаться скучной, состоящей из перетаскивания данных из одного хранилища в другое. В этом действительно есть часть правды :) но не вся правда… Если присмотреться, мы увидим, что дата-инженеры помогают компаниям сокращать время на поиск инсайтов, обучение моделей и понимание нужд пользователей. Данные — это новая нефть, поэтому важно понимать, как правильно их организовывать и какие сложности в работе могут повлиять на успешность бизнеса. Привет, Хабр! Меня зовут Алёна Катренко, и я уже больше 10 лет работаю с данными. Сейчас занимаю позицию руководителя платформы данных в Циане, но начинала как BigData-инженер в Неофлексе. Сегодня расскажу, как мы приручали петабайты данных, искали призраков забытых таблиц и нашли инструмент, который сделал работу с метаданными понятной, безопасной и полезной для бизнеса. А ещё о том, как сейчас развиваться дату-инженеру, чтобы успевать за тенденциями на рынке.

https://habr.com/ru/companies/oleg-bunin/articles/940392/

#data_engineering #data_catalog #cloud_native #data_governance #data_ownership #amundsen #arenadata_catalog #data_lineage #scala #комьюнити

Как найти свой путь в дата-инженерии и управлять петабайтами данных

Привет, Хабр! Меня зовут Алёна Катренко, и я уже больше 10 лет работаю с данными. Сейчас занимаю позицию руководителя платформы данных в Циане, но начинала как BigData-инженер в Неофлексе. Можно...

Хабр

[Перевод] StarRocks и Trino: сходства, различия, бенчмарки и кейсы

Проект Trino (ранее PrestoSQL) изначально разработан в Meta, чтобы аналитики могли выполнять интерактивные запросы по широкому спектру хранилищ данных на базе Apache Hadoop. Благодаря эффективной обработке крупных наборов и сложных запросов, а также гибкому подключению к множеству источников данных, Trino быстро стал предпочтительным инструментом аналитики для крупных организаций. Со временем потребности пользователей в аналитике эволюционировали. С ростом мобильного интернета и SaaS-приложений критически важной стала оперативная (в том числе потоковая) аналитика. Компаниям потребовались более производительные движки, поддерживающие большое число одновременных запросов и обеспечивающие низкие задержки. На этом фоне всё больше пользователей стали искать альтернативы. StarRocks как новый аналитический движок получил широкое признание отрасли. Он демонстрирует заметные преимущества по производительности, поддержке высокой степени параллелизма и низкой задержке, привлекая внимание крупных компаний, таких как WeChat , Xiaohongshu (RedNote), Ctrip, Beike и др. Как именно StarRocks формирует свои преимущества? В чём его сходства и различия с Trino? Ниже — подробный разбор.

https://habr.com/ru/articles/939370/

#starrocks #trino #presto #векторизация #simd #материализованные_представления #query_rewrite #data_catalog #lakehouse #lakehouseплатформа_данных

StarRocks и Trino: сходства, различия, бенчмарки и кейсы

Проект Trino (ранее PrestoSQL) изначально разработан в Meta, чтобы аналитики могли выполнять интерактивные запросы по широкому спектру хранилищ данных на базе Apache Hadoop. Благодаря эффективной...

Хабр

Data Governance и Бизнес: как найти общий язык

«Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!» «Нам нужны качественные данные, а вы все про свои процессы!» «Data Governance – это IT-шная история, пусть они и занимаются. Причем здесь бизнес?!» Эти фразы часто звучат, когда речь заходит о внедрении Data Governance. Бизнес и Data \ IT могут по-разному смотреть на роль DG: для команды управления данными это фундамент прозрачности и управления, а для бизнеса — дополнительные шаги, которые могут замедлять процессы. Но ведь цель Data Governance (DG) — не процесс ради процесса, а создание ценности для бизнеса за счёт качественных, управляемых данных. Почему же возникают разногласия? Из моего опыта можно выделить несколько ключевых факторов, которые влияют на восприятие DG в бизнесе: 1.Неочевидная связь между DG и бизнес-результатами. Если Data Governance не подкреплён показателями, влияющими на прибыль (P&L, снижение затрат, ускорение процессов), для бизнеса его сложно воспринимать как приоритетную задачу. 2.Бизнес хочет скорость, а не контроль. Как правило новые процессы и роли означают изменение привычных моделей работы, а это что требует времени и затраты энергии на адаптацию. Поэтому новые процессы начинают казаться бизнесу фактором, замедляющим их работу. 3.Долгий цикл внедрения. Когда DG запускается с прицелом на долгосрочную выгоду, интерес к DG снижается, так как бизнесу нужны быстрые результаты, бизнесу нужно решать задачи уже сегодня. Как же выстроить эффективный диалог между DG и бизнесом?

https://habr.com/ru/articles/899080/

#data_governance #data_management #data #управление_данными #data_quality #качество_данных #data_catalog #dwh

Data Governance и Бизнес: как найти общий язык

«Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!» «Нам нужны качественные данные, а вы все про свои процессы!» «Data...

Хабр

Data catalog: от истории до сравнения решений

Прийти и по запросу быстро найти нужные данные — идеальный сценарий. Но он практически невозможен при условии использования множества баз данных и хранилищ. В реальных условиях без «надстройки» над всеми БД и «единой точки входа» команды вынуждены тратить время на исследование разных хранилищ, их каталогов и подкаталогов в поиске нужных файлов без какой-либо гарантии успешного результата. Такой «надстройкой» являются каталоги данных. Меня зовут Юрий Орлов, я тимлид команды ML Platform. В этой статье я подробно разберу, что такое каталоги данных и какие они бывают, а также расскажу о нашем выборе инструмента для построения каталога под запросы аналитиков данных.

https://habr.com/ru/companies/vk/articles/857894/

#vk_cloud #каталоги_данных #data_catalog #big_data

Data catalog: от истории до сравнения решений

Прийти и по запросу быстро найти нужные данные — идеальный сценарий. Но он практически невозможен при условии использования множества баз данных и хранилищ. В реальных условиях без «надстройки» над...

Хабр

Как мы поменяли методику исследования «BI-круг Громова», чтобы результаты стали еще точнее

«Круги Громова» занимается сравнительными исследованиями ИТ-решений. Начинали мы с исследований именно BI-систем (системы бизнес-аналитики, business intelligence) и разбираемся в них, как считаем, весьма хорошо. По задумке наши исследования (кстати, ежегодные) должны быть чем-то вроде карты для ИТ-отделов и руководителей, чтобы помочь им разобраться в дебрях множества современных BI-решений. Одним из основных параметров, влияющих на объективность исследования, является его методика. Поэтому мы постоянно думаем над тем, как сделать нашу методику еще более точной, учитывающей еще больше факторов и позволяющей раскрыть максимум информации о решениях, которые попали к нам под микроскоп.

https://habr.com/ru/articles/792292/

#BI #business_intelligence #Круги_Громова #BIкруг_Громова #СУБД #ETL #Data_catalog #бизнесаналитика #selfservice_BI #визуализация_данных

Как мы поменяли методику исследования «BI-круг Громова», чтобы результаты стали еще точнее

«Круги Громова» занимается сравнительными исследованиями ИТ-решений. Начинали мы с исследований именно BI-систем (системы бизнес-аналитики, business intelligence) и разбираемся в них, как считаем,...

Хабр