Обзор Lakehouse: архитектура, которая объединяет порядок и хаос

Вопрос: что же такого прорывного добавили в архитектуру, чтобы она стала считаться чем-то новым с точки зрения инженеров, а не маркетологов ? Ответ: фундаментально изменилась парадигма хранения и обработки данных. В отличие от традиционных подходов, где Data Warehouse оперировал исключительно структурированными данными в табличной форме, а Data Lake работал с файлами в их исходном виде, разработчики Lakehouse сумели соединить лучшие качества обеих архитектур. Ключевым отличием стал формат OTF — Open Table Format, через который удалось реализовать единый стандарт доступа к данным и 4 технологически-культурных сдвига. Перечислю их: ...

https://habr.com/ru/companies/cinimex/articles/978522/

#lakehouse #data_lakehouse #delta_lake #iceberg #otf #data_warehouse #data_lake #архитектура_данных #управление_данными #data_governance

Обзор Lakehouse: архитектура, которая объединяет порядок и хаос

Привет, Хабр. С вами Влад Подречнев, директор направления Data Engineering в «Синимекс», и этой статьей я хотел бы открыть небольшой цикл статей на тему Lakehouse. По традиции подобных статей начну с...

Хабр

Почему каталог данных превращается в кладбище и как это исправить

Кажется, о внедрении каталога данных не написал только ленивый. Каждая крупная компания так или иначе к этому (каталогу) приходит. Пробует разные решения и методологию. У кого-то успешно только на презентации для совета директоров (чаще всего), у кого-то на деле. Здесь же я хочу рассказать не о том, как заполнять каталог или какой выбрать. А о том, что нужно сделать, прежде чем переходить к покупке/запуску этого каталога. Для тех, кто уже имеет такого зверя в своем зоопарке, но с ним что-то не так, думаю, тоже будет полезно. Если вы один из счастливчиков, у кого каталог действительно взлетел, можете дальше не читать. Однако что-то мне подсказывает, что таких будет не много. Осторожно, статья-детектор.

https://habr.com/ru/articles/977014/

#каталог_данных #управление_разработкой #управление_продуктом #управление_данными #data_governance #data_catalog

Почему каталог данных превращается в кладбище и как это исправить

Кажется, о внедрении каталога данных не написал только ленивый. Каждая крупная компания так или иначе к этому (каталогу) приходит. Пробует разные решения и методологию. У кого-то успешно только на...

Хабр

Культура «AI-First»: как перестроить мышление команды, чтобы не отстать от рынка

Пока одни компании разочаровываются в искусственном интеллекте, другие строят на его основе бизнес-империи. В чем их секрет? Не в деньгах и не в доступе к технологиям, а в особой культуре. Разберемся, как перестать просто использовать ИИ в работе и перейти к мышлению в стиле AI-First, и почему это единственный способ не превратиться в динозавра.

https://habr.com/ru/articles/965874/

#aifirst #иистартап #ии_в_бизнесе #цифровая_трансформация #цифровая_трансформация_бизнеса #автоматизация_процессов #ИИпесочницы #обучение_ии #data_governance #ИИ_в_бизнеспроцессах

Культура «AI-First»: как перестроить мышление команды, чтобы не отстать от рынка

Пока одни компании разочаровываются в искусственном интеллекте, другие строят на его основе бизнес-империи. В чем их секрет? Не в деньгах и не в доступе к технологиям, а в особой культуре. Разберемся,...

Хабр

Как найти свой путь в дата-инженерии и управлять петабайтами данных

На первый взгляд работа с данными может показаться скучной, состоящей из перетаскивания данных из одного хранилища в другое. В этом действительно есть часть правды :) но не вся правда… Если присмотреться, мы увидим, что дата-инженеры помогают компаниям сокращать время на поиск инсайтов, обучение моделей и понимание нужд пользователей. Данные — это новая нефть, поэтому важно понимать, как правильно их организовывать и какие сложности в работе могут повлиять на успешность бизнеса. Привет, Хабр! Меня зовут Алёна Катренко, и я уже больше 10 лет работаю с данными. Сейчас занимаю позицию руководителя платформы данных в Циане, но начинала как BigData-инженер в Неофлексе. Сегодня расскажу, как мы приручали петабайты данных, искали призраков забытых таблиц и нашли инструмент, который сделал работу с метаданными понятной, безопасной и полезной для бизнеса. А ещё о том, как сейчас развиваться дату-инженеру, чтобы успевать за тенденциями на рынке.

https://habr.com/ru/companies/oleg-bunin/articles/940392/

#data_engineering #data_catalog #cloud_native #data_governance #data_ownership #amundsen #arenadata_catalog #data_lineage #scala #комьюнити

Как найти свой путь в дата-инженерии и управлять петабайтами данных

Привет, Хабр! Меня зовут Алёна Катренко, и я уже больше 10 лет работаю с данными. Сейчас занимаю позицию руководителя платформы данных в Циане, но начинала как BigData-инженер в Неофлексе. Можно...

Хабр

Как правильно тащить данные в хранилище и не чувствовать боль

Так обычно начинается повесть о созданном в рекордные сроки дашборде. А потом боль и унижение, и никто не хочет брать на себя ответственность, когда упал прод, потому что BI‑аналитик выгружал 90 миллионов строк join’ом без фильтра. А вашему бизнесу всё равно, кто виноват. Данные не пришли, отчёта нет, шеф злой. Пуск

https://habr.com/ru/articles/936360/

#Интеграция_данных #Хранилище_данных #Data_governance #etlпроцессы

Как правильно тащить данные в хранилище и не чувствовать боль

— Нет времени объяснять, просто подключите хранилище напрямую к продовой базе. Есть какой-то ТУЗ не нужный? Так обычно начинается повесть о созданном в рекордные сроки дашборде. А потом боль и...

Хабр

7 опорных функций, которые должны быть в вашей системе Data Governance

Привет, Хабр! Я Татьяна, в РСХБ-Интех работаю с данными, в прошлый раз я рассказывала про свои любимые фреймворки для повышения эффективности бизнеса. В этот раз статья посвящена Data Governance. Data Governance управляет не самими данными и их потоками, а метаданными, которые сопровождают их во всех точках ввода, обработки, хранения и перемещения, вплоть до уничтожения. Наиболее прогрессивные компании сегодня имеют целые экосистемы по управлению жизненным циклом данных. Такие экосистемы могут включать в себя несколько приложений или программных продуктов, которые дирижируются Data Governance процессом, выстроенным внутри организации.

https://habr.com/ru/companies/rshb/articles/900750/

#data_governance #Управление_качеством_данных #Происхождение_данных #Ведение_реестров_обмена_данными #Владельцы_данных #Бизнесглоссарий #Управление_метаданными #Архитектура_и_моделирование_данных

7 опорных функций, которые должны быть в вашей системе Data Governance

Привет, Хабр! Я Татьяна, в РСХБ-Интех работаю с данными, в прошлый раз я рассказывала про свои любимые фреймворки для повышения эффективности бизнеса. В этот раз статья посвящена Data Governance....

Хабр

Data Governance и Бизнес: как найти общий язык

«Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!» «Нам нужны качественные данные, а вы все про свои процессы!» «Data Governance – это IT-шная история, пусть они и занимаются. Причем здесь бизнес?!» Эти фразы часто звучат, когда речь заходит о внедрении Data Governance. Бизнес и Data \ IT могут по-разному смотреть на роль DG: для команды управления данными это фундамент прозрачности и управления, а для бизнеса — дополнительные шаги, которые могут замедлять процессы. Но ведь цель Data Governance (DG) — не процесс ради процесса, а создание ценности для бизнеса за счёт качественных, управляемых данных. Почему же возникают разногласия? Из моего опыта можно выделить несколько ключевых факторов, которые влияют на восприятие DG в бизнесе: 1.Неочевидная связь между DG и бизнес-результатами. Если Data Governance не подкреплён показателями, влияющими на прибыль (P&L, снижение затрат, ускорение процессов), для бизнеса его сложно воспринимать как приоритетную задачу. 2.Бизнес хочет скорость, а не контроль. Как правило новые процессы и роли означают изменение привычных моделей работы, а это что требует времени и затраты энергии на адаптацию. Поэтому новые процессы начинают казаться бизнесу фактором, замедляющим их работу. 3.Долгий цикл внедрения. Когда DG запускается с прицелом на долгосрочную выгоду, интерес к DG снижается, так как бизнесу нужны быстрые результаты, бизнесу нужно решать задачи уже сегодня. Как же выстроить эффективный диалог между DG и бизнесом?

https://habr.com/ru/articles/899080/

#data_governance #data_management #data #управление_данными #data_quality #качество_данных #data_catalog #dwh

Data Governance и Бизнес: как найти общий язык

«Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!» «Нам нужны качественные данные, а вы все про свои процессы!» «Data...

Хабр

Великий и могучий: как мы учим нашу систему находить нецензурную лексику в ФИО

Привет, Хабр! Меня зовут Макс Траулько, я занимаюсь анализом данных и проработкой новый фичей в команде RnD в HFLabs. Прямо сейчас я работаю над нетривиальной задачей — учу наши алгоритмы распознавать в именах и фамилиях русский мат и прочие ругательства. Как появилась эта задача? В одной крупной компании клиенты могут оставить обращения во фронт-системе. И иногда пишут в полях ФИО, прямо скажем, черт знает что. А у бизнеса риски: если при ответе на обращение автоматически использовать данные из поля «Имя», можно стать героем насмешливых или гневных постов. Чуть раньше с такой же проблемой к нам пришел другой клиент, из ретейла. У того клиенты вообще большие выдумщики — придумывают составные и сложные имена и фамилии с обсценной лексикой. Даже жаль, что показать эти примеры не можем. В статье расскажу, как мы решаем эту задачу.

https://habr.com/ru/companies/hflabs/articles/896436/

#качество_данных #стандартизация #ругательства #персональные_данные #mdm #data_analysis #data_governance #алгоритмы

Великий и могучий: как мы учим нашу систему находить нецензурную лексику в ФИО

Привет, Хабр! Меня зовут Макс Траулько, я занимаюсь анализом данных и проработкой новых фич в команде RnD в HFLabs. Прямо сейчас я работаю над нетривиальной задачей — учу наши алгоритмы распознавать в...

Хабр

Управление качеством данных

Итак, у нас есть данные, и есть требования к ним. От кого? От тех, кто будет ими пользоваться. Если те, кто ставит задачу говорят что "данные плохие" и не могут сформулировать критерии к качеству данных, им можно их подсказать, подсмотрев в предыдущей статье . Таким образом, управление качеством данных - это, в первую очередь, методология, которая обеспечивает некий уровень качества в отношении выбранных данных. Управление качеством данных - это постоянный процесс. Да, для начала неплохо разобраться с уже имеющимися данными, но наша задача сделать так, чтобы все новые данные, попадающие в систему, проверялись, валидировались, насыщались и, в итоге, соответствовали предъявляемым к ним требованиям. Управление качеством, кстати, является важной частью управления Нормативно-Справочной информацией, MDM (Master Data Management). Как же сделать так, чтобы данные попадали в системы уже "чистыми"? Думаю, что самый оптимальный способ - это правильно настроить поля ввода, не допуская ввод заведомо некорректный значений, а также предлагать автозаполнение по возможности: например, выбор адреса доставки предлагать из КЛАДР, а данные о компании автоматически заполнять используя специальные сервисы. Таким образом, и людям надо будет вводить меньше информации, и вероятность ошибки будет гораздо меньше.

https://habr.com/ru/articles/893158/

#data_engineering #data_quality #data_governance #качество_данных

Управление качеством данных

Итак, у нас есть данные, и есть требования к ним. От кого? От тех, кто будет ими пользоваться. Если те, кто ставит задачу говорят что "данные плохие" и не могут сформулировать критерии к качеству...

Хабр

Качество данных простым языком

При подготовке статьи что главное? Источники! А что может быть источником надежнее, чем стандарты ISO? Давайте посмотрим, есть ли стандарты "качества данных"? Есть! ISO/TS 8000 и даже соответствующий ГОСТ 56214. Что ж, читаем определения: 3.1.3 качество (quality): Степень соответствия совокупности присущих характеристик объекта требованиям (3.1.2). Примечания: 1 Термин "качество" может применяться с прилагательными, такими как "плохое", "хорошее" или "превосходное". Так. Хватит ГОСТов на сегодня. Итак, есть данные, у них есть качество - характеристика, показывающая степень пригодности данных к использованию, и которое может быть "плохим", "хорошим" или "превосходным". На самом деле, есть 7 основных качественных характеристики: точность, полнота, непротиворечивость, достоверность, своевременность, уникальность и доступность.

https://habr.com/ru/articles/893104/

#data_governance #data_engineering #data_quality #качество_данных

Качество данных простым языком

При подготовке статьи что главное? Источники! А что может быть источником надежнее, чем стандарты ISO? Давайте посмотрим, есть ли стандарты "качества данных"? Есть! ISO/TS 8000 и даже соответствующий...

Хабр