Обучаем ML-модели и запускаем batch-инференс на YTsaurus, как в Яндексе

Привет! Меня зовут Алексей Архипенко, я руковожу группой разработки ML‑инфраструктуры в команде YTsaurus. Мы часть Yandex Infrastructure и предоставляем пользователям внутри Яндекса инфраструктурный фундамент для самых разных задач машинного обучения. YTsaurus — основная платформа для хранения и обработки данных Яндекса, которая доступна на GitHub под лицензией Apache 2.0. Это позволяет всем желающим загрузить систему на свои серверы, а также дорабатывать её под свои нужды. Мы уже писали в прошлых постах про её выход в опенсорс и дальнейшее развитие , а также кейсы использования в рекламе . Сегодня расскажу, как Яндекс запускает в ней почти все ML‑обучения и batch‑инференс.

https://habr.com/ru/companies/yandex/articles/979336/

#ytsaurus #ml #batch_processing #gpu #gpu_вычисления #mapreduce #map_reduce

Обучаем ML-модели и запускаем batch-инференс на YTsaurus, как в Яндексе

Привет! Меня зовут Алексей Архипенко, я руковожу группой разработки ML‑инфраструктуры в команде YTsaurus. Мы часть Yandex Infrastructure и предоставляем пользователям внутри Яндекса...

Хабр

Spark, DataSphere и немного магии: как мы строим аналитическую платформу в облаке для банка

Для решения классических аналитических задач в банке дата‑специалисты обрабатывают миллиарды транзакций. Поэтому создание единого информационного пространства для работы с большими объёмами данных потребует решить как задачи оптимизации производительности и обеспечения безопасности, так и задачи удобства для пользователей — и найти баланс между ними. Сергей Виноградов на конференции Data&ML2Business рассказал про разработку и построение DWH для задач Яндекс Пэй. В этой статье — дополненный рассказ о том, как устроена аналитическая платформа на базе Greenplum® и ClickHouse®, которую решили строить на базе managed‑сервисов в облаке. А также о том, как жизнь аналитиков облегчает связка Apache Spark™ и Jupyter‑ноутбуков в Yandex DataSphere.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/957470/

#spark #kafka #cdc #debezium #change_data_capture #map_reduce

Spark, DataSphere и немного магии: как мы строим аналитическую платформу в облаке для банка

Для решения классических аналитических задач в банке дата‑специалисты обрабатывают миллиарды транзакций. Поэтому создание единого информационного пространства для работы с большими...

Хабр

YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся

20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании. Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.

https://habr.com/ru/companies/yandex/articles/901290/

#ytsaurus #map_reduce #mapreduce #большие_данные #big_data

YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся

20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure,...

Хабр

Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0

Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие. Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал , как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.

https://habr.com/ru/companies/yandex/articles/857708/

#ytsaurus #mapreduce #map_reduce #инфраструктура #большие_данные #big_data #алгоритмы

Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0

Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить...

Хабр