Avalon: как построить эффективный Feature Store на YDB

В современном развитии рекомендательных систем и алгоритмов принятия решений особое место занимают Feature Store — хранилища признаков, позволяющие быстро и централизованно управлять данными. В городских сервисах Яндекса для таких задач мы создали собственное решение под названием Avalon. Оно служит универсальным каталогом признаков, которым легко пользоваться разработчикам и аналитикам вне зависимости от того, что им нужно хранить — бинарные индикаторы или сложные метрики вроде количества поездок у водителя. Наш Feature Store — Avalon — возник в момент, когда понадобилось масштабируемое и производительное хранилище с низкой задержкой, в котором можно структурировать признаки по иерархии «каталог/файл», получать быстрый доступ к ним из рантайма, автоматически отслеживать актуальность данных и контролировать жизненный цикл каждого признака. Роль СУБД для системы выполняет YDB, что позволяет достичь высокой отказоустойчивости и горизонтального масштабирования. Всем привет! Меня зовут Паша, я руковожу группой разработки технологий эффективности Такси. В этой статье я расскажу, как мы проектировали и строили Avalon, какие вызовы пришлось решать команде по мере роста нагрузок и аудитории, почему прежние подходы перестали соответствовать задачам современного продуктового анализа и как в результате получился удобный и надёжный Feature Store для множества бизнес-сценариев.

https://habr.com/ru/companies/yandex/articles/1032478/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1032478

#ydb #субд #feature_store #архитектура #big_data

Avalon: как построить эффективный Feature Store на YDB

В современном развитии рекомендательных систем и алгоритмов принятия решений особое место занимают Feature Store — хранилища признаков, позволяющие быстро и централизованно управлять данными. В...

Хабр

Avalon: как построить эффективный Feature Store на YDB

В современном развитии рекомендательных систем и алгоритмов принятия решений особое место занимают Feature Store — хранилища признаков, позволяющие быстро и централизованно управлять данными. В городских сервисах Яндекса для таких задач мы создали собственное решение под названием Avalon. Оно служит универсальным каталогом признаков, которым легко пользоваться разработчикам и аналитикам вне зависимости от того, что им нужно хранить — бинарные индикаторы или сложные метрики вроде количества поездок у водителя. Наш Feature Store — Avalon — возник в момент, когда понадобилось масштабируемое и производительное хранилище с низкой задержкой, в котором можно структурировать признаки по иерархии «каталог/файл», получать быстрый доступ к ним из рантайма, автоматически отслеживать актуальность данных и контролировать жизненный цикл каждого признака. Роль СУБД для системы выполняет YDB, что позволяет достичь высокой отказоустойчивости и горизонтального масштабирования. Всем привет! Меня зовут Паша, я руковожу группой разработки технологий эффективности Такси. В этой статье я расскажу, как мы проектировали и строили Avalon, какие вызовы пришлось решать команде по мере роста нагрузок и аудитории, почему прежние подходы перестали соответствовать задачам современного продуктового анализа и как в результате получился удобный и надёжный Feature Store для множества бизнес-сценариев.

https://habr.com/ru/companies/yandex/articles/1032478/

#ydb #субд #feature_store #архитектура #big_data

Avalon: как построить эффективный Feature Store на YDB

В современном развитии рекомендательных систем и алгоритмов принятия решений особое место занимают Feature Store — хранилища признаков, позволяющие быстро и централизованно управлять данными. В...

Хабр

Как мы ускорили заливку данных в YandexDB в 40 раз

Привет! С вами Кабанов Олег — ведущий ML-инженер Flocktory. В этой статье расскажу об опыте внедрения YandexDB в качестве хранилища для ML Online Feature Store. А также о том, как нам удалось ускорить загрузку данных в 40 раз и убрать влияние на скорость чтения данных при обновлении.

https://habr.com/ru/companies/flocktory/articles/946454/

#ML #ydb #feature_store #db #архитектура_по #оптимизация #ai

Как мы ускорили заливку данных в YandexDB в 40 раз

Привет! С вами Кабанов Олег — ведущий ML-инженер Flocktory. В этой статье расскажу об опыте внедрения YandexDB в качестве хранилища для ML Online Feature Store. А также о том, как нам удалось ускорить...

Хабр

Как автоматизировать обучение ML-моделей и сократить время вывода в прод до двух дней

В прошлой статье мы говорили о подходе к рекомендации сервисов на основании автоматизации расчета склонностей клиентов и единого репозитория предложений. В ней мы углубились в создание репозитория, описание логики категоризации и набора в кампании для коммуникации с клиентами. Сегодня мы подробнее расскажем про наш подход к автоматизации построения и вывода в прод набора моделей.

https://habr.com/ru/companies/beeline_tech/articles/926982/

#data_science #machine_learning #automl #feature_store #automatization

Как автоматизировать обучение ML-моделей и сократить время вывода в прод до двух дней

В прошлой статье мы говорили о подходе к рекомендации сервисов на основании автоматизации расчета склонностей клиентов и единого репозитория предложений. В ней мы углубились в создание репозитория,...

Хабр

MVP по «умному» поиску данных

Всем привет, меня зовут Александр, я аналитик в Альфа-Банке. Совместно с командой мы разрабатываем и развиваем платформу для дата-инженеров (DE) и дата-саентистов (DS), именуемую Feature Store. Она даёт возможность коллегам работать с большими данными и упрощает бюрократию жизненного цикла создания ETL и ввода моделей в промышленную эксплуатацию. Но хотелось бы улучшить процесс по поиску данных в ней, так как объёмы информации стремительно растут. Классический поиск выдаёт результаты по точному совпадению, и это не самый удобный вариант, когда данных много. Поэтому нужную информацию, если ты точно не знаешь как найти, невозможно отыскать. Озадачившись этой проблемой, я решил сделать MVP «умного» поиска, который позволяет искать данные/фичи/поля не по точному совпадению, а с учётом смысла. Надеюсь, данная статья поможет показать и пролить свет на вопрос — «А как же ещё бывает?»

https://habr.com/ru/companies/alfa/articles/915012/

#mvp #gpt #ai #feature_store #data_science #datamarket #mlops #токенизатор #классификация

MVP по «умному» поиску данных

Всем привет, меня зовут Александр, я аналитик в Альфа-Банке. Совместно с командой мы разрабатываем и развиваем платформу для дата-инженеров (DE) и дата-саентистов (DS), именуемую Feature Store. Она...

Хабр

Переходим от legacy к построению Feature Store

Невероятная история о том, как внедрить систему Feature Store в проект с огромным legacy и получить профит. Привет, Хабр! Меня зовут Евгений Дащенко, я из компании «Домклик», которая решает все вопросы, связанные с недвижимостью, включая оценку стоимости недвижимости любого типа. Это статья по мотивам моего доклада на конференции Highload++ про интерфейс между данными и ML-моделями Feature Store: как мы сделали его с нашей командой, каких результатов добились и с какими подводными камнями столкнулись на пути.

https://habr.com/ru/companies/oleg-bunin/articles/908970/

#feature_store #ml #mlops #ai #python #машинное_обучение #архитектура #обработка_данных #ops #data_science

Переходим от legacy к построению Feature Store

Невероятная история о том, как внедрить систему Feature Store в проект с огромным legacy и получить профит. Привет, Хабр! Меня зовут Евгений Дащенко, я из компании Домклик, которая решает все вопросы,...

Хабр

Как в Купере масштабировали машинное обучение и что из этого получилось

Не секрет, что ML‑модели требуют огромного количества данных. Информации не просто много, она организовывается в многообразные структуры, версионируется, употребляется разными моделями. Скорость обращения данных тоже критична, особенно для систем, взаимодействующих с пользователями в режиме реального времени. При возросшей сложности не обойтись без специализированных инструментов, например Feature Store. Однако случается, что все решения на рынке не годятся по тем или иным причинам. Тогда приходится рассчитывать исключительно на свои силы. Рассказываем, как в Купере внедрили Feast, хранилище признаков (Feature Store) с открытым исходным кодом. После прочтения вы познакомитесь с инструментом и сможете решить, подходит ли Feast для коммерческого использования. Подробности под катом!

https://habr.com/ru/companies/selectel/articles/848266/

#selecte #купер #ml #mlops #mlечный_путь #feature_store #машинное_обучение #bigdata

Как в Купере масштабировали машинное обучение и что из этого получилось

Не секрет, что ML‑модели требуют огромного количества данных. Информации не просто много, она организовывается в многообразные структуры, версионируется, употребляется разными моделями. Скорость...

Хабр