Решение обратной задачи рекомендаций: опыт участия в VK RecSys Challenge
В декабре 2025 года VK провёл RecSys Challenge LSVD — соревнование по машинному обучению с нестандартной постановкой задачи. Традиционные рекомендательные системы решают проблему "что показать пользователю", но здесь требовалось обратное: для каждого нового клипа определить, каким пользователям он может быть интересен. Такой подход помогает решать проблему холодного старта контента, когда новое видео только появляется в системе и не имеет истории взаимодействий. Я принял участие в этом челлендже и хочу поделиться своим решением, архитектурой системы и практическими выводами.
https://habr.com/ru/articles/986440/
#recsys_challenge_2025 #recsys #ml #рекомендации_контента #коллаборативная_фильтрация #большие_данные #bigdata #vk #vklsvd #huggingface
Yes, as a #recsys person, I know why… they aren't doing a lot of editorial judgement, CBS was a reputable news source until recently, practical ways to avoid this are hard, etc.
But the end user experience is still (attempted) slander of an innocent victim of unaccountable state violence when I open a new tab in my browser.
(I say "attempted" because her actions _were_ pretty tough, but not in the way Trump is trying to paint her as a villain.)
Вокруг RecSys ML 1: универсальный план по MLSD и основные проблемы RecSys
Время идет и каждая из областей в МЛ развивается, часто сложно уловить особенности и прорывы в каждом домене. Я предлагаю начать разбирать вглубь RecSys и постепенно отвечать на вопросы: что общего со всеми, а что стало доменным. Вдохновением стал курс от ШАДа 2025 года , буду использовать оттуда множество чудесных картинок. Объявим главные вопросы, на который нужно дать ответ, для решения задачи ML-ем. А также, основные проблемы в рексисе о которых нужно думать заранее. Это мы читаем →
https://habr.com/ru/articles/984260/
#recsys #mlsd #ml #ml_system_design #рекомендательные_системы #нейросети #ExplorationExploitation_TradeOff #Feedback_Loop #Cold_Start #Popularity_Bias
This is a really good summary of work on embedding collapse in #RecSys modeling from Sumit Kumar:
https://blog.reachsumit.com/posts/2024/11/embedding-collapse-recsys/
Learned embeddings often suffer from ’embedding collapse’, where they occupy only a small subspace of the available dimensions. This article explores the causes of embedding collapse, from two-tower models to GNN-based systems, and its impact on model scalability and recommendation quality. We discuss methods to detect collapse and examine recent solutions proposed by research teams at Visa, Facebook AI, and Tencent Ads to address this challenge.
Мои книги по Search & Recsys
Друзья, я наконец опубликовал третью книгу по теме поиска (плюс еще одна по близкой теме рекомендательных систем). Они очень нишевые, рассчитаны на специалистов, и я подумал, что Habr просто идеальное место сообщить об этом. Во всех четырех книгах ноль воды, и очень плотно изложен материал, с ссылками на научные статьи и иллюстрациями, где они реально необходимы. Anatomy of Ecommerce Search https://testmysearch.com/books/anatomy-of-ecommerce-search.html Начнем с той, что вышла сегодня - Anatomy of Ecommerce Search.
Трансформеры для персональных рекомендаций на маркетплейсе: от гипотез до A/B-тестирования
Всем привет! На связи Ваня Ващенко, и я лид по развитию нейросетевых моделей в команде персональных рекомендаций Wildberries. Раньше я развивал B2C-рекомендации и нейросети кредитного скоринга в крупнейшем банке, а теперь вы видите результаты моей работы каждый раз, когда заходите на главную страницу любимого маркетплейса. Сегодняшний рассказ — о том, как мы развиваем WildBERT.
https://habr.com/ru/companies/wildberries/articles/972082/
#рекомендации #рекомендательные_системы #deep_learning #machine_learning #bert4rec #абтесты #recsys #маркетплейс #wildberries #data_science
Let's start sharing a few posters/papers I found interesting at #RecSys this year.
1. Leveraging Geometric Insights in Hyperbolic Triplet Loss for Improved Recommendations
Very interesting. Some further work needed to convince me 100%, like a Figure 2 but for the original Euclidian Triplet Loss.