LLM без поиска — генератор галлюцинаций. Как мы с этим справились при создании поиска по интранету

Меня зовут Дима Кирпа, я разработчик из команды ML Laboratory в Yandex Infrastructure. Четыре года я делаю внутренний поиск по корпоративному интранету Яндекса. Сегодня предлагаю ненадолго отложить судорожный тюнинг промптов и температуры LLM и окинуть внутренние корпоративные знания более широким взглядом. На примере опыта Яндекса я разберу процесс LLM‑изации интранета компании с самых азов. На время мы вернёмся в ламповый мир старого доброго фича‑инжиниринга, неспешно пройдёмся от настроек ранжирования к настройкам поискового контекста для LLM и увидим, как фичи поиска плавно перетекают в фичи генеративки. Напоследок убедимся, что всё не зря и наши разработки реально приносят пользу компании. Я расскажу, как устроен бэкенд и ранжирование внутреннего поиска Яндекса, как на базе внутреннего поиска мы построили генеративную Q&A‑систему AI Chat. Покажу обоснования разных внедрений в виде чисел из реальных A/B‑экспериментов. Никакого хайпа, только факты. Цель статьи — доказать, что поиск — это база для корпоративных процессов обмена знаниями, а модель роста от поиска к агенту — самая эффективная.

https://habr.com/ru/companies/yandex/articles/1036840/

#корпоративный_поиск #information_retrieval #llm

LLM без поиска — генератор галлюцинаций. Как мы с этим справились при создании поиска по интранету

Меня зовут Дима Кирпа, я разработчик из команды ML Laboratory в Yandex Infrastructure. Четыре года я делаю внутренний поиск по корпоративному интранету Яндекса. Сегодня предлагаю...

Хабр

Собираем MVP product search: дообучение E5 и веб-сервис для сравнения поисквых выдач

Что важнее: создать продукт , или доставить его до пользователя ? Оба этапа необходимы. Сегодня обсудим второй . Как нам построить поисковую e-com систему. Покажем, что в слово логистика товара входят сложные задачи не только: перевезти наушники из Китая в Америку , но и настройка поисковой выдачи по запросу. Быстро соберем поисковой MVP-сервис . Дообучим модель E5 на реальных данных от Amazon . Определим метрики качества и сравним BM25 , pretrain E5 и fine-tune E5 . Так же взглянем глазами с отладочной информацией и проанализируем изменения поисковых выдач . И под конец обсудим каких технологий еще не хватает и можно добавить, если возникают соответствующие трудности. Погрузиться в семантический поиск →

https://habr.com/ru/companies/datafeel/articles/925290/

#machine_learning #information_retrieval #semantic_search #huggingface #pytorch #nlp #e5 #streamlit #mvp #дообучение_моделей

Собираем MVP product search: дообучение E5 и веб-сервис для сравнения поисквых выдач

Что важнее: создать продукт , или доставить его до пользователя ? Оба этапа необходимы. Сегодня обсудим второй . Как нам построить поисковую e-com систему. Покажем, что в слово логистика товара входят...

Хабр

Post-Doctoral Fellowship

State University of São Paulo (UNESP)

Post-Doctoral Fellowship
Research in Information Retrieval, LLMs, and Natural Language Inference

See the full job description on jobRxiv: https://jobrxiv.org/job/state-university-of-sao-paulo-unesp-27778-post-doctoral-fellowship/?feed_id=89758

#ai_machine_learning #information_retrieval #ScienceJobs #hiring #research
https://jobrxiv.org/job/state-university-of-sao-paulo-unesp-27778-post-doctoral-fellowship/?feed_id=89758

Post-Doctoral Fellowship

Post a job in 3min, or find thousands of job offers like this one at jobRxiv!

jobRxiv

Lingua Franca — Машинный перевод с учётом именованных сущностей для вопросно-ответных систем

Машинный перевод может улучшить существующие вопросно‑ответные системы (англ. Question Answering — QA), которые имеют ограниченные языковые возможности, позволяя им поддерживать несколько языков. Однако у машинного перевода есть один основной недостаток: часто такие системы не справляются с переводом именованных сущностей, которые нельзя перевести дословно. Например, немецкое название фильма «The Pope Must Die» переводится как «Ein Papst zum Küssen», что дословно означает «Папа для поцелуев». На Русском языке название фильма звучит так: «Папа должен похудеть». Поскольку правильность именованных сущностей критична для вопросно‑ответных систем, необходимо как можно лучше обеспечить правильность их перевода. В данной статье я представляю наш метод машинного перевода, учитывающий именованные сущности, под названием «Lingua Franca». Он использует графы знаний для использования хранящейся там символьной информации с целью обеспечения правильности перевода именованных сущностей. И да, это работает!

https://habr.com/ru/articles/791616/

#машинный_перевод #именованые_сущности #machine_translation #named_entities #question_answering #вопросно_ответный_поиск #графы_знаний #knowledge_graphs #information_retrieval

Lingua Franca — Машинный перевод с учётом именованных сущностей для вопросно-ответных систем

TLDR Машинный перевод может улучшить существующие вопросно‑ответные системы (англ. Question Answering — QA), которые имеют ограниченную поддержку нескольких языков. Однако у машинного...

Хабр
Multi-user interaction in virtual audio spaces | CHI '09 Extended Abstracts on Human Factors in Computing Systems

ACM Conferences
Imaginary Soundscapes: The SoDA Project
(2014) : Casu, Matteo and Koutsomichalis, Marinos and Valle, Andrea
DOI: https://doi.org/10.1016/j.jneumeth.2015.07.017
#HCI #IDE #SoDA #imagination #information_retrieval #ontology #procedural_content #soundsc
#my_bibtex
NF.sec – Bezpieczeństwo systemu Linux - Zapalmy flarę nad CloudFlare

P rzy okazji wygasania certyfikatu na stronie zacząłem się zastanawiać, czy skorzystać z Let’s Encrypt, czy może z CloudFlare? CF to serwis oferujący „darmową” ochronę webaplikacji, CDN oraz szyfrowanie SSL (jeśli używa się go poprawnie). Zastanawiało mnie ile klientów / domen korzysta z tego serwisu? Oto, co udało mi się ustalić. 1. Architektura rozwiązania: Podczas […]