[Перевод] Простой механизм поиска с нуля

Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо. Разработанный нами поисковик основывается на векторных представлениях (эмбеддингах) слов. Принцип здесь следующий. Функция получает слово и отображает его в N-мерное пространство (в данном случае N=300 ), где каждое измерение отражает определённый оттенок смысла. Вот хорошая статья (англ.) о том, как обучить собственную модель word2vec, и её внутреннем устройстве. Суть работы созданного нами поиска заключается в преобразовании моих статей, а точнее составляющих их слов, в эмбеддинги, сохраняемые в общем пространстве. Затем при выполнении конкретного поиска текст его запроса преобразуется аналогичным образом и сопоставляется с векторами статей. В результате этого сопоставления, используя метрику косинусного сходства , мы ранжируем статьи по их релевантности запросу. Уравнение ниже может показаться пугающим, но в нём говорится, что косинусное сходство, представляющее косинус угла между двух векторов cos(theta) , определяется в виде скалярного произведения, поделённого на произведение величин каждого вектора. Разберём всё это подробнее.

https://habr.com/ru/companies/ruvds/articles/920174/

#ruvds_перевод #поиск #word2vec #эмбеддинги #косинусное_сходство #векторизация

Простой механизм поиска с нуля

Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо....

Хабр

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

В этой статье мы расскажем о нашей новой модели FRIDA, которая сейчас (20.05.2025) занимает первое место в русскоязычном бенчмарке MTEB ( ссылка на таблицу лидеров ). Ранее мы уже рассказывали на Хабре о создании русскоязычных задач для MTEB. Напомним, что этот бенчмарк предназначен для оценки моделей, способных создавать эмбеддинги текста — векторные представления, применяемые в различных задачах NLP.

https://habr.com/ru/companies/sberdevices/articles/909924/

#ai #ml #эмбеддинги #nlp

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

В этой статье мы расскажем о нашей новой модели FRIDA, которая сейчас (20.05.2025) занимает первое место в русскоязычном бенчмарке MTEB ( ссылка на таблицу лидеров ). Ранее мы уже рассказывали на...

Хабр

Как мы учили нейросеть разбираться в сложных документах: задача семантического поиска

Привет! Меня зовут Павел Яковлев, я инженер по разработке ПО искусственного интеллекта в YADRO. В команде GenAI мы занимаемся умными продуктами на основе корпоративных баз данных. В проектах мы часто используем современные генеративные модели и энкодеры. В статье расскажу, как мы в компании разрабатываем и оптимизируем семантический поиск по сложным документам: PDF, HTML и DOCX.

https://habr.com/ru/companies/yadro/articles/893050/

#search #семантический_поиск #нейросети #информационный_поиск #эмбеддинги #crossencoder #biencoder #генеративные_модели #энкодеры

Как мы учили нейросеть разбираться в сложных документах: задача семантического поиска

Привет! Меня зовут Павел Яковлев, я инженер по разработке ПО искусственного интеллекта в YADRO . В команде GenAI мы занимаемся умными продуктами на основе корпоративных баз данных. В проектах мы часто...

Хабр

[Перевод] Важные паттерны в создании продуктов на основе генеративного ИИ

Генеративный искусственный интеллект стремительно меняет подходы к созданию цифровых продуктов, но его внедрение в продакшн сопровождается множеством новых вызовов. От недостоверных ответов и ограничений в знаниях до проблем с эффективностью поиска — разработчики сталкиваются с препятствиями, которых не было в традиционных системах. В этой статье мы разберём ключевые паттерны, которые помогают преодолеть эти сложности: от базового взаимодействия с языковыми моделями и работы с эмбеддингами до Retrieval-Augmented Generation (RAG) и тонкой настройки (Fine-tuning).

https://habr.com/ru/companies/otus/articles/886696/

#машинное_обучение #ml #нейросети #паттерны #genai #rag #тонкая_настройка #эмбеддинги #генеративный_ии

Важные паттерны в создании продуктов на основе генеративного ИИ

По мере того как программные продукты, использующие технологии генеративного искусственного интеллекта, переходят из стадии прототипирования в продакшн, выявляется ряд...

Хабр

Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа

Привет, Хабр! Я — Игорь Старун, BigData Lead в MPSTATS. Я уже 3 года занимаюсь анализом данных на маркетплейсах, штудируя гигантские объёмы информации и превращая их из непотребного и нечитаемого вида в удобоваримый и анализируемый. Моя задача — собрать и подготовить данные так, чтобы помочь продавцам на маркетплейсах разобраться, что происходит с их товарами, конкурентами и продажами, чтобы они не утонули в хаосе карточек, цен и остатков. В этой статье я расскажу, как мы перерабатываем эти объемы грязных данных и структурируем для дальнейшего анализа. Данные о товарах – это основа всего. Каждую неделю мы обходим более 200 миллионов карточек с Wildberries и Ozon. Названия, описания, характеристики, фотографии — всё это мы аккуратно собираем и складываем в базы данных (для разных задач мы используем ClickHouse, Postgres, MySQL и MongoDB) и облачные хранилища. Зачем? Чтобы потом сделать с этим что-то умное и полезное. Читать дальше

https://habr.com/ru/companies/mpstats/articles/884344/

#аналитика #маркетплейсы #эмбеддинги #faiss #семантический_поиск #обработка_изображений #seoоптимизация #big_data #искусственный_интеллект #нейросети

Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа

Привет, Хабр! Я — Игорь Старун, BigData Lead в MPSTATS. Я уже 3 года занимаюсь анализом данных на маркетплейсах , штудируя гигантские объёмы информации и превращая их из непотребного и нечитаемого...

Хабр

pg_auto_embeddings — считаем эмбеддинги для текста прямо в Postgres, без экстеншенов

У вас есть Postgres, где хранится множество текстовых данных. Вы хотите использовать векторные представления (embeddings), к примеру, от OpenAI, чтобы построить систему рекомендаций, улучшенный поиск или реализовать RAG для работы с LLM. Но при этом ставить расширения (extensions) не хочется, а может, и вовсе нельзя — например, в облачных Managed PostgreSQL зачастую нет нужных прав. Под катом описание open-source решения pg_auto_embeddings , которое вам поможет. Скорее под кат!

https://habr.com/ru/articles/872780/

#эмбеддинги #rag #postgresql #postgres #embeddings #векторные_представления #ии

pg_auto_embeddings — считаем эмбеддинги для текста прямо в Postgres, без экстеншенов

У вас есть PostgreSQL база, где хранится множество текстовых данных. Вы хотите использовать векторные представления (embeddings), к примеру, от OpenAI/Anthropic, чтобы построить систему рекомендаций,...

Хабр

[Перевод] Новая методика существенно повышает эффективность систем RAG в поиске необходимых документов

В новой работе исследователи из Корнеллского университета представляют «контекстные эмбеддинги документов» — технику, повышающую эффективность моделей эмбеддингов путем учета контекста, в котором извлекаются документы.

https://habr.com/ru/articles/850076/

#rag #llm #эмбеддинги #искусственный_интеллект #нейросети #bm25

Новая методика существенно повышает эффективность систем RAG в поиске необходимых документов

Метод генерации с дополнением извлечения (RAG) стал популярным способом связывания больших языковых моделей (LLM) с внешними источниками знаний. Системы RAG обычно используют модель эмбеддингов для...

Хабр

Новый взгляд на оценку русскоязычных моделей: обновлённый бенчмарк ruMTEB и лидерборд

Всем привет! Меня зовут Роман Соломатин, я представляю команду AI-Run из X5 Tech, мы занимаемся генеративными сетями в целом и языковыми моделями в частности. Несколько месяцев назад русскоязычное сообщество разработчиков искусственного интеллекта получило инструмент для оценки моделей — бенчмарк ruMTEB (Massive Text Embedding Benchmark). Однако, первая версия ruMTEB имела 6 протестированных моделей, но при этом отсутствовал удобный лидерборд. Мы решили улучшить ситуацию и провести дополнительное тестирование, чтобы сделать бенчмарк более репрезентативным и полезным для сообщества. Что у нас получилось

https://habr.com/ru/companies/X5Tech/articles/845398/

#бенчмарк #rumteb #эмбеддинги #искусственный_интеллект #языковые_модели #лидерборд #векторизация #Massive_Text_Embedding_Benchmark

Новый взгляд на оценку русскоязычных моделей: обновлённый бенчмарк ruMTEB и лидерборд

Всем привет! Меня зовут Роман Соломатин, я представляю команду AI-Run из X5 Tech, мы занимаемся генеративными сетями в целом и языковыми моделями в частности. Несколько месяцев назад русскоязычное...

Хабр

[Перевод] Картинка стоит 170 токенов: как GPT-4o кодирует изображения?

Интересный факт : GPT-4o взимает по 170 токенов за обработку каждого тайла 512x512 , используемого в режиме высокого разрешения. При соотношении примерно 0,75 токенов на слово можно предположить, что картинка стоит примерно 227 слов, что всего в четыре раза меньше, чем в поговорке «картинка стоит тысячи слов». (Кроме того, взимается 85 токенов за master thumbnail низкого разрешения каждого изображения, а изображения более высокого разрешения разбиваются на множество таких тайлов 512x512 , но давайте ограничимся одним тайлом высокого разрешения.) Но почему же 170? Необычное число, неправда ли? В своих ценах OpenAI указывает округлённые числа, например, $20 или $0,50, а в своих внутренних размерностях — степени двойки и тройки. Почему же в этом случае выбрано число 170? Числа, которые без объяснений вставляют в кодовую базу, называют в программировании « магическими числами », и 170 кажется очевидным магическим числом. И почему затраты на изображения вообще преобразуются в стоимость в токенах? Если бы это нужно было только для определения цены, то разве не удобнее было бы просто указать цену за тайл? Что, если OpenAI выбрала 170 не в рамках своей запутанной стратегии ценообразования, а потому что это в буквальном смысле так? Что, если тайлы изображений действительно представлены в виде 170 последовательных векторов эмбеддингов? А если это так, то как реализовано?

https://habr.com/ru/articles/834548/

#openai #gpt4 #gpt4o #gpt4v #эмбеддинги

Картинка стоит 170 токенов: как GPT-4o кодирует изображения?

Интересный  факт : GPT-4o взимает по 170 токенов за обработку каждого тайла 512x512  , используемого в режиме высокого разрешения. При соотношении примерно 0,75 токенов на слово можно...

Хабр

ruMTEB: новый бенчмарк для русскоязычных эмбеддеров

Салют, Хабр! На связи команды AGI NLP и нейронных сетей Виртуального ассистента Салют. В SberDevices наши команды занимаются созданием бенчмарков, а также обучением моделей для векторных представлений текстов или эмбеддеров. В этой статье расскажем про наш новый русскоязычный бенчмарк для эмбеддеров текста — ruMTEB.

https://habr.com/ru/companies/sberdevices/articles/831150/

#rumteb #бенчмарк #эмбеддинги

ruMTEB: новый бенчмарк для русскоязычных эмбеддеров

Салют, Хабр! На связи команды AGI NLP и нейронных сетей Виртуального ассистента Салют. В SberDevices наши команды занимаются созданием бенчмарков, а также обучением моделей для векторных представлений...

Хабр