Как мы учили нейросеть разбираться в сложных документах: задача семантического поиска

Привет! Меня зовут Павел Яковлев, я инженер по разработке ПО искусственного интеллекта в YADRO. В команде GenAI мы занимаемся умными продуктами на основе корпоративных баз данных. В проектах мы часто используем современные генеративные модели и энкодеры. В статье расскажу, как мы в компании разрабатываем и оптимизируем семантический поиск по сложным документам: PDF, HTML и DOCX.

https://habr.com/ru/companies/yadro/articles/893050/

#search #семантический_поиск #нейросети #информационный_поиск #эмбеддинги #crossencoder #biencoder #генеративные_модели #энкодеры

Как мы учили нейросеть разбираться в сложных документах: задача семантического поиска

Привет! Меня зовут Павел Яковлев, я инженер по разработке ПО искусственного интеллекта в YADRO . В команде GenAI мы занимаемся умными продуктами на основе корпоративных баз данных. В проектах мы часто...

Хабр

Cross-Encoder для улучшения RAG на русском

Одно из самых прикладных применений языковых моделей (LLM) - это ответы на вопросы по документу/тексту/договорам. Языковая модель имеет сильную общую логику, а релевантные знания получаются из word, pdf, txt и других источников. Обычно релевантные тексты раскиданы в разных местах, их много и они плохо структурированы. Одна из проблем на пути построения хорошего RAG - нахождение релевантных частей текста под заданный пользователем вопрос. Еще В. Маяковский писал: "Изводишь единого слова ради, тысячи тонн словесной руды." Примерно это же самое делают би-энкодеры и кросс-энкодеры в рамках RAG, ищут самые важные и полезные слова в бесконечных тоннах текста. В статье мы посмотрим на способы нахождения релевантных текстов, увидим проблемы, которые в связи с этим возникают. Попытаемся их решить. Главное - мы натренируем свой кросс-энкодер на русском языке, что служит важным шагом на пути улучшения качества Retrieval Augmented Generation (RAG). Тренировка будет проходит новейшим передовым способом. Схематично он изображен на меме справа)

https://habr.com/ru/articles/797657/

#crossencoder #biencoder #RAG #эмбеддинги #векторизация #нейросети #обучение_нейросетей

Cross-Encoder для улучшения RAG на русском

Содержание RAG (retrieval augmented generation) Би-энкодер VS кросс-энкодер Обзор доступных кросс-энкодеров Архитектура кросс-энкодера (классификационная голова) Обучающие данные Процесс обучения...

Хабр