[Перевод] Оптимизация поисковых систем: баланс между скоростью, релевантностью и масштабируемостью

Будучи разработчиками, мы постоянно стремимся создавать системы, которые не просто работают, но и отличаются эффективностью и масштабируемостью. В мире, где пользователи ожидают всё более быстрые и точные результаты, оптимизация производительности поиска становится ключевым приоритетом в современной разработке приложений. Эта статья основана на нашем выступлении на конференции QCon San Francisco 2024, где мы рассмотрели эволюцию подходов к индексированию данных, их извлечению и ранжированию. Для платформ вроде Uber Eats, обрабатывающих сложные запросы на больших объёмах данных, оптимизация поиска — это серьёзный вызов, требующий продвинутых стратегий: индексирования, шардинга и параллельной обработки запросов. Сложность поисковых систем продолжает расти, и необходимость соблюдения баланса между скоростью, релевантностью и масштабируемостью становится как никогда актуальной. В этой статье мы рассматриваем ключевые техники таких оптимизаций и их влияние на пользовательский опыт и производительность системы.

https://habr.com/ru/companies/otus/articles/934186/

#шардинг #Индексирование #поиск #Масштабируемость #производительность #apache_kafka #apache_spark #big_data #ранжирование

Оптимизация поисковых систем: баланс между скоростью, релевантностью и масштабируемостью

Основные выводы Оптимизация индексирования данных и структуры хранения может существенно сократить время выборки и повысить эффективность использования хранилища. Категоризация и приоритизация...

Хабр

Сетап А/В-теста, который помог снизить MDE выручки в 2 раза

Привет! Я Соня Ожерельева — тимлид в команде Monetization Efficiency в Авито . В статье расскажу про новый сетап A/B-теста, который мы использовали при тестировании системы Уровень сервиса на Авито. Он, как и A/B-тест по регионам, позволяет измерять влияние как на покупателей, так и на продавцов. При этом MDE нашего сетапа в 2 раза ниже, чем у регионального. Материал будет полезен аналитикам любых грейдов.

https://habr.com/ru/companies/avito/articles/929894/

#авито #avito #ab_testing #ab_тестирование #аналитика #analytics #ранжирование

Сетап А/В-теста, который помог снизить MDE выручки в 2 раза

Привет! Я Соня Ожерельева — тимлид в команде Monetization Efficiency в Авито . Здесь мы создаём ML/Data-продукты в команде монетизации и AdTech. В частности внедряем бизнес-логику в ранжирование —...

Хабр

ML-тренды рекомендательных технологий: шесть приёмов, которые помогают угадывать желания пользователя

Главная задача рекомендательной системы — предоставить пользователю контент, фильм, трек, книгу, товар или информацию, которые могут заинтересовать его в данный момент. Сложность в том, что у нас нет явного запроса пользователя, как в поиске, есть только история его взаимодействий с объектами и наша надежда на то, что мы верно распознали его скрытые желания. Раньше для такой задачи нужно было строить сложные алгоритмы со множеством написанных вручную эвристик. Теперь с этим помогают ML‑технологии. Меня зовут Кирилл Хрыльченко, я руковожу командой R&D рекомендательных технологий в Яндексе. Наша команда исследует и разрабатывает новые технологии, а также активно следит за тем, что появляется нового в индустрии. Сегодня я поделюсь трендами развития рекомендательных систем и расскажу, как нейросети продолжают улучшать качество рекомендаций: какие есть нюансы в работе с LLM, чем полезно обучение с подкреплением, что изменилось в плане анализа истории пользователя, а также на что обратить внимание при масштабировании.

https://habr.com/ru/companies/yandex/articles/857068/

#recsys #машинное_обучение #нейросети #рекомендательные_системы #llm #ранжирование #графы #reinforcement_learning

ML-тренды рекомендательных технологий: шесть приёмов, которые помогают угадывать желания пользователя

Главная задача рекомендательной системы — предоставить пользователю контент, фильм, трек, книгу, товар или информацию, которые могут заинтересовать его в данный момент. Сложность...

Хабр

Нейронные оптимизаторы запросов в реляционных БД (Часть 3): Погружение в ранжирование

Ранжирование — это уникальная разновидность задач в машинном обучении, обособленная как от классификации, так и регрессии. Заключительная статья по нейрооптимизаторам в РСУБД, как ни странно, связана именно с ней. Бум в развитии подобных моделей произошёл совсем недавно — в 2023 году, что мы с вами подробно разберём. Сначала погрузимся в ранжирование в целом, а затем увидим, как в соответствии с новой постановкой задачи адаптировались методы поиска оптимального плана исполнения запроса.

https://habr.com/ru/companies/postgrespro/articles/857998/

#оптимизация #нейросети #ранжирование #ltr #оптимизация_запросов #машинное_обучение #LambdaLoss #SoftRank #LambdaRank

Нейронные оптимизаторы запросов в реляционных БД (Часть 3): Погружение в ранжирование

Введение Ранжирование — это уникальная разновидность задач в машинном обучении, обособленная как от классификации, так и регрессии. Заключительная статья по нейрооптимизаторам в РСУБД, как ни странно,...

Хабр

Big Data в моде: как мы внедрили 1-to-1 персонализацию в каталоге и поиске

Привет, Хабр! Это Сергей Евстафьев и Дана Злочевская из команды ранжирования и поиска Lamoda Tech. Наша задача — помочь пользователю найти то, что ему нужно, и не потеряться в море доступных вариантов. В каталоге Lamoda в наличии более полумиллиона модных товаров, однако 95% пользователей не просматривают больше первых 120 карточек. Поэтому в первую очередь важно показывать только самую релевантную подборку, для этого мы развиваем персональное ранжирование каталога. С его помощью каждый пользователь видит свою уникальную выдачу, которая собирается на основе его поведения, популярности товаров и других параметров. Организовать такое ранжирование можно разными способами. Мы развивались поэтапно: в течение нескольких лет переходили от эвристик к внедрению ML, улучшая пайплайн ранжирования. В этой статье поподробнее раскроем наш подход.

https://habr.com/ru/companies/lamoda/articles/840370/

#ранжирование #машинное+обучение #lamoda #ecommerce

Big Data в моде: как мы внедрили 1-to-1 персонализацию в каталоге и поиске

Привет, Хабр! Это Сергей Евстафьев и Дана Злочевская из команды ранжирования и поиска Lamoda Tech. Наша задача — помочь пользователю найти то, что ему нужно, и не потеряться в море доступных...

Хабр

Равновесное ранжирование со смещением к целевой метрике

Постановка задачи: Имеется дискретное множество объектов или элементов. А также набор признаков для них, предполагаем, что признаки числовые. Необходимо найти наилучший объект или группу объектов только на основе имеющихся признаков. Сделаем небольшое отступление. Многие уже на этом моменте могут сказать, что подобные задачи решаются методом коллаборативной фильтрацией. И в целом они будут правы. Но есть случаи, когда фильтрация не подходит или ее недостаточно. Для примера давайте представим себя в роли продавца автомобилей, который думает, какой новой маркой / моделью авто ему начать торговать. Допустим у него есть выбор из 1000 вариантов. И тут уже становится понятно, что идея коллаборативный фильтрации не очень хорошо вписывается в этот случай. Продавцу хочется сделать выбор, не основываясь на предпочтениях других продавцов, а исходя из неких характеристик, определяющих выгоду объекта. В сухом остатке имеем n признаков. Что с ними нужно сделать, чтобы достичь желаемого? Можно суммировать значение всех признаков для объекта и получить итоговую оценку, которая отражает совокупный итог всех знаний об объекте. Но что не так в таком простом подходе?

https://habr.com/ru/articles/811157/

#ранжирование #data_analysis

Равновесное ранжирование со смещением к целевой метрике

Постановка задачи: Имеется дискретное множество объектов. А также набор признаков для них. Предполагаем, что признаки числовые. Необходимо найти наилучший объект или группу объектов только на основе...

Хабр

Как найти баланс между интересами покупателей и продавцов: опыт разработчиков Яндекс Маркета

Привет, Хабр! Меня зовут Илья Ненахов, я руковожу разработкой платформы для продвижения товаров на Яндекс Маркете. Предлагаю взглянуть на площадку немного с другой стороны, а именно — как на механизм, который пытается найти оптимальную точку в пространстве с тремя измерениями: интересы пользователя, интересы магазинов и интересы самого сервиса. В этой статье я расскажу о том, как мы поддерживаем этот баланс с помощью технологий Яндекса. Поговорим про метрики, ранжирование и устройство рантайма. Наш опыт может быть полезен тем разработчикам, которые работают над похожими задачами в других компаниях.

https://habr.com/ru/companies/yandex/articles/807909/

#яндекс #adtech #ранжирование #machine_learning #машинное_обучение

Как найти баланс между интересами покупателей и продавцов: опыт разработчиков Яндекс Маркета

Привет, Хабр! Меня зовут Илья Ненахов, я руковожу разработкой платформы для продвижения товаров на Яндекс Маркете. Про сам сервис, думаю, многие знают, поэтому не буду подробно...

Хабр