Avalon: как построить эффективный Feature Store на YDB

В современном развитии рекомендательных систем и алгоритмов принятия решений особое место занимают Feature Store — хранилища признаков, позволяющие быстро и централизованно управлять данными. В городских сервисах Яндекса для таких задач мы создали собственное решение под названием Avalon. Оно служит универсальным каталогом признаков, которым легко пользоваться разработчикам и аналитикам вне зависимости от того, что им нужно хранить — бинарные индикаторы или сложные метрики вроде количества поездок у водителя. Наш Feature Store — Avalon — возник в момент, когда понадобилось масштабируемое и производительное хранилище с низкой задержкой, в котором можно структурировать признаки по иерархии «каталог/файл», получать быстрый доступ к ним из рантайма, автоматически отслеживать актуальность данных и контролировать жизненный цикл каждого признака. Роль СУБД для системы выполняет YDB, что позволяет достичь высокой отказоустойчивости и горизонтального масштабирования. Всем привет! Меня зовут Паша, я руковожу группой разработки технологий эффективности Такси. В этой статье я расскажу, как мы проектировали и строили Avalon, какие вызовы пришлось решать команде по мере роста нагрузок и аудитории, почему прежние подходы перестали соответствовать задачам современного продуктового анализа и как в результате получился удобный и надёжный Feature Store для множества бизнес-сценариев.

https://habr.com/ru/companies/yandex/articles/1032478/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1032478

#ydb #субд #feature_store #архитектура #big_data

Avalon: как построить эффективный Feature Store на YDB

В современном развитии рекомендательных систем и алгоритмов принятия решений особое место занимают Feature Store — хранилища признаков, позволяющие быстро и централизованно управлять данными. В...

Хабр

Avalon: как построить эффективный Feature Store на YDB

В современном развитии рекомендательных систем и алгоритмов принятия решений особое место занимают Feature Store — хранилища признаков, позволяющие быстро и централизованно управлять данными. В городских сервисах Яндекса для таких задач мы создали собственное решение под названием Avalon. Оно служит универсальным каталогом признаков, которым легко пользоваться разработчикам и аналитикам вне зависимости от того, что им нужно хранить — бинарные индикаторы или сложные метрики вроде количества поездок у водителя. Наш Feature Store — Avalon — возник в момент, когда понадобилось масштабируемое и производительное хранилище с низкой задержкой, в котором можно структурировать признаки по иерархии «каталог/файл», получать быстрый доступ к ним из рантайма, автоматически отслеживать актуальность данных и контролировать жизненный цикл каждого признака. Роль СУБД для системы выполняет YDB, что позволяет достичь высокой отказоустойчивости и горизонтального масштабирования. Всем привет! Меня зовут Паша, я руковожу группой разработки технологий эффективности Такси. В этой статье я расскажу, как мы проектировали и строили Avalon, какие вызовы пришлось решать команде по мере роста нагрузок и аудитории, почему прежние подходы перестали соответствовать задачам современного продуктового анализа и как в результате получился удобный и надёжный Feature Store для множества бизнес-сценариев.

https://habr.com/ru/companies/yandex/articles/1032478/

#ydb #субд #feature_store #архитектура #big_data

Avalon: как построить эффективный Feature Store на YDB

В современном развитии рекомендательных систем и алгоритмов принятия решений особое место занимают Feature Store — хранилища признаков, позволяющие быстро и централизованно управлять данными. В...

Хабр

Почему Big Data стек небезопасен по своей природе

Год назад на рандом-кофе мы с коллегой обсуждали так называемую (мной) цифровую экологию и проблемы работы с большими данными, и он мне посоветовал доклад "The Unbelievable Insecurity of the Big Data Stack" с конференции Black Hat USA 2021 - в целом название полностью описывает содержание доклада. И вот только сейчас, спустя год, у меня дошли руки его разобрать и поделиться с вами своими мыслями на этот счёт. За пять лет доклад совершенно не утратил актуальности и, кажется, стал только более насущным. Доклад делала Sheila A. Berta - специалист по offensive security из Аргентины, которая много лет занимается поиском уязвимостей и исследованием инфраструктур. В последние годы она сфокусировалась на безопасности Big Data и cloud-native систем. Это не теоретическая работа, а результат практического ресёрча.

https://habr.com/ru/articles/1030842/

#big_data #data_security #безопасность_данных #архитектура_систем #архитектура_системы_хранения_данных #apache

Почему Big Data стек небезопасен по своей природе

Год назад на рандом-кофе мы с коллегой обсуждали так называемую (мной) цифровую экологию и проблемы работы с большими данными, и он мне посоветовал доклад "The Unbelievable Insecurity of the Big Data...

Хабр

Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

https://habr.com/ru/companies/X5Tech/articles/1026382/

#большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях...

Хабр

ELT против ETL в FinOps: Почему мы сначала кладем сырые данные, а потом думаем

«Фарш невозможно прокрутить назад» — этой поговоркой инженеры данных могли бы объяснить, как работает классический ETL. Ошибка может случиться на любом этапе: не тот коэффициент применили, не ту валюту подставили, забыли про скидку. Но после того как исходные данные трансформированы и отчет сформирован, но иногда бывают такие ситуации, когда вернуться к первоисточнику по какой-то причину уже нельзя. В FinOps эта ситуация — не метафора, а суровая реальность. Данные от облачных провайдеров доступны лишь в ограниченном окне (30–90 дней), а иногда и меньше. Если вы сначала обработали их, а потом поняли, что ошиблись, может так случиться, что перезапросить исходники уже не получится. В этой статье мы разберем два подхода к построению процессов обработки и преобразования данных — ETL и ELT — и докажем, почему для FinOps выбор ELT — это не просто вопрос производительности, а вопрос выживания исторических данных.

https://habr.com/ru/companies/inferit/articles/1025790/

#облачные_вычисления #finops #финопс #data_engineering #data_warehouse #itинфраструктура #big_data #управление_проектами #системная_архитектура #devops

ELT против ETL в FinOps: Почему мы сначала кладем сырые данные, а потом думаем

«Фарш невозможно прокрутить назад» — этой поговоркой инженеры данных могли бы объяснить, как работает классический ETL. Ошибка может случиться на любом этапе: не тот коэффициент применили, не ту...

Хабр

Применение Data Science в цифровом производстве

Современное производство формирует большие объемы разнородных данных на всех этапах жизненного цикла изделия. Практическая ценность больших данных в производстве заключается в возможности их анализа и использования для принятия решений. В этой связи Data Science рассматривается как ключевой инструмент, интеграция которого в производственные процессы позволяет извлекать практическую ценность из больших данных и повышать эффективность производства. В статье рассматриваются принципы и ключевые понятия цифрового производства. Приведены основные направления применения Data Science в цифровом производстве, а также рассмотрены проблемы и перспективы его развития.

https://habr.com/ru/articles/1024458/

#data_science #цифровое_производство #цифровая_нить #цифровой_двойник #big_data #жизненный_цикл_изделия

Применение Data Science в цифровом производстве

Оглавление Введение Понятие цифрового производства Цифровая нить Цифровой двойник Источники данных в цифровом производстве Почему цифровому производству необходим Data Science Основные направления...

Хабр

Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL

Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна строка. За месяц — 15 миллионов событий. За год — почти 200 миллионов. Это не Google. Не Amazon. Это обычный средний магазин на ~100 человек. А теперь умножьте это на количество таблиц: пользователи, заказы, платежи, доставки, отзывы, просмотры, лайки, рефералы, купоны, возвраты... Поздравляю. Вы уже работаете с Big Data. В 2026 году это уже не привилегия корпораций, а стандарт ведения цифрового бизнеса. И как следствие этой "гонки вооружений" произошла тектоническая смена ориентиров. Классическая связка Airflow + PostgreSQL, которая ещё вчера считалась золотым стандартом, сегодня стремительно сдает позиции. Её место уверенно занимает дуэт Airflow + ClickHouse — технологический фундамент современной инженерии данных.

https://habr.com/ru/articles/1022460/

#clickhouse #postgresql #data_engineer #dwh #airflow #big_data #аналитика #рынок_труда #sql #python

Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL

Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна...

Хабр

Книга: «Архитектура медальона. Проектирование с помощью Delta Lake и Spark»

Привет, Хаброжители! Книга предлагает практическое руководство по внедрению архитектуры медальона ( bronze , silver , gold уровни) для эффективной работы с большими данными, чтобы избежать превращения хранилищ в бесполезное «болото данных». Автор делится реальными кейсами и примерами кода для Microsoft Fabric и Azure Databricks , объясняет, как интегрировать медальон в data mesh , и рассматривает вопросы безопасности, контрактов данных и применения генеративного ИИ. Книга будет полезна дата-инженерам, архитекторам и руководителям, ищущим проверенные решения для построения востребованной и управляемой аналитики.

https://habr.com/ru/companies/piter/articles/1021230/

#архитектура_медальона #архитектура #github #базы_данных #data_engineering #big_data

Книга: «Архитектура медальона. Проектирование с помощью Delta Lake и Spark»

Привет, Хаброжители! Объемы данных растут экспоненциально, а опасность оказаться в «болоте данных» (data swamp) подстерегает на каждом шагу? Чтобы получить ценную аналитику, которая обеспечит...

Хабр

Объясняю на пальцах — зачем твоему бизнесу каталог данных

Статья носит исключительно образовательный/ознакомительный характер. Она не служит цели, рекламировать какой-либо инструмент или ПО. Все наименования программного обеспечения, упомянутые в статье приведены из личного опыта. Ну-ка что там

https://habr.com/ru/articles/1020142/

#openmetadata #каталог_данных #датакаталог #datacatalog #data_governance #управление_данными #big_data #datahub #data #datadriven

Объясняю на пальцах — зачем твоему бизнесу каталог данных

Статья носит исключительно образовательный/ознакомительный характер. Она не служит цели, рекламировать какой-либо инструмент или ПО. Все наименования программного обеспечения, упомянутые в статье...

Хабр

Пиплметры: зомби из 90-х как основа рекламного рынка на ТВ

Вообразим себе картинку: бабушка записывает в блокноте каждый просмотренный эпизод “Поле чудес”, а потом сотрудники аналитического агентства, пытаясь разобрать ее почерк, неделю вручную вводят данные в таблицу. Так выглядела аналитика просмотров в доцифровую эпоху. Зрители вручную заполняли дневники просмотра - что и сколько времени смотрел. Затем задау немного автоматизировали и так появились пиплметры - устройства, измеряющие телеаудиторию в относительно автоматическом режиме. Сегодня все проще. Заглянул в аналитику стримингового сервиса и у тебя уже есть все нужные данные, собранные автоматически. Или нет? В этом материале разбираем, что такое пиплметр, кому он нужен и почему в мире больших данных он не ушел в прошлое вместе с прочей техникой из 90-х - видеомагнитофонами, двухкассетниками и кнопочными домашними телефонами.

https://habr.com/ru/companies/ru_mts/articles/1015606/

#пиплметры #телевидение #медиаизмерения #рейтинги #Mediascope #аналитика #Big_Data #телесмотрение #социология #история_технологий

Пиплметры: зомби из 90-х как основа рекламного рынка на ТВ

Источник Вообразим себе картинку: бабушка записывает в блокноте каждый просмотренный эпизод «Поля чудес», а потом сотрудники аналитического агентства, пытаясь разобрать ее почерк, неделю вручную...

Хабр