Mastodawn

NEWAVE. Делаем интеллектуальный ретривал музыки

Двуэнкодерные нейросети, контрастивное обучение, десять датасетов и late fusion. Как мы строили ML-систему ретривала, понимающую человеческий язык вместо фильтров Ну и как же?

https://habr.com/ru/articles/989756/

#CLAP #biencoder #contrastive_learning #retrieval #feature_engineering #ML #DL #machine_learning #project #deep_learning

NEWAVE. Делаем интеллектуальный ретривал музыки

Представьте: лежит условный Владик на диване, вайбует, хочет музычку послушать. Открывает «Мою Волну». Нажимает «Плей». Играет не то. Он нажимает «Настроить». Решает, какой активностью он занимается,...

Хабр

Habr Mar 31, 2025

Как мы учили нейросеть разбираться в сложных документах: задача семантического поиска

Привет! Меня зовут Павел Яковлев, я инженер по разработке ПО искусственного интеллекта в YADRO. В команде GenAI мы занимаемся умными продуктами на основе корпоративных баз данных. В проектах мы часто используем современные генеративные модели и энкодеры. В статье расскажу, как мы в компании разрабатываем и оптимизируем семантический поиск по сложным документам: PDF, HTML и DOCX.

https://habr.com/ru/companies/yadro/articles/893050/

#search #семантический_поиск #нейросети #информационный_поиск #эмбеддинги #crossencoder #biencoder #генеративные_модели #энкодеры

Как мы учили нейросеть разбираться в сложных документах: задача семантического поиска

Хабр

Habr Mar 2, 2024

Cross-Encoder для улучшения RAG на русском

Одно из самых прикладных применений языковых моделей (LLM) - это ответы на вопросы по документу/тексту/договорам. Языковая модель имеет сильную общую логику, а релевантные знания получаются из word, pdf, txt и других источников. Обычно релевантные тексты раскиданы в разных местах, их много и они плохо структурированы. Одна из проблем на пути построения хорошего RAG - нахождение релевантных частей текста под заданный пользователем вопрос. Еще В. Маяковский писал: "Изводишь единого слова ради, тысячи тонн словесной руды." Примерно это же самое делают би-энкодеры и кросс-энкодеры в рамках RAG, ищут самые важные и полезные слова в бесконечных тоннах текста. В статье мы посмотрим на способы нахождения релевантных текстов, увидим проблемы, которые в связи с этим возникают. Попытаемся их решить. Главное - мы натренируем свой кросс-энкодер на русском языке, что служит важным шагом на пути улучшения качества Retrieval Augmented Generation (RAG). Тренировка будет проходит новейшим передовым способом. Схематично он изображен на меме справа)

https://habr.com/ru/articles/797657/

#crossencoder #biencoder #RAG #эмбеддинги #векторизация #нейросети #обучение_нейросетей

Cross-Encoder для улучшения RAG на русском

Содержание RAG (retrieval augmented generation) Би-энкодер VS кросс-энкодер Обзор доступных кросс-энкодеров Архитектура кросс-энкодера (классификационная голова) Обучающие данные Процесс обучения...

Хабр