Gemini Embedding 2 + мультимодальный RAG: эмбеддим видео и картинки — разбор и туториал

10 марта Google выкатил Gemini Embedding 2 - embedding-модель, которая умеет превращать в векторы не только текст, но и картинки, видео, аудио и PDF. Причем все это ложится в одно векторное пространство. Раньше если вы хотели искать по видеобиблиотеке через RAG, приходилось городить огород: транскрибировать аудиодорожку, описывать кадры через Vision LLM, склеивать в текст, и только потом эмбеддить. Каждый шаг - потеря информации. Теперь можно скормить модели MP4 напрямую, и текстовый запрос «как настроить авторизацию» найдёт и статью из базы знаний, и фрагмент видеоинструкции. Но сама по себе модель не решает проблему. LLM не может «прочитать» MP4, поэтому найденное видео без текстового описания - может быть бесполезно. Ключ - в правильной архитектуре: нативный эмбеддинг для поиска + параллельная генерация текстового описания для LLM: два канала, которые работают вместе и выводят мощь RAG наполную катушку. В этой статье разберем что нового в Gemini Embedding 2 и построим полноценный мультимодальный RAG с нуля - Python, Supabase, Gemini API. P.S. С кодом.

https://habr.com/ru/articles/1010030/

#rag #rag_ai #gemini #embeddings #базы_данных #ai #aiagents #postgresql #sql

Gemini Embedding 2 + мультимодальный RAG: эмбеддим видео и картинки — разбор и туториал

10 марта Google выкатил Gemini Embedding 2 - embedding-модель, которая умеет превращать в векторы не только текст, но и картинки, видео, аудио и PDF. Причем всё это ложится в одно векторное...

Хабр

Hybrid RAG knowledge base за 15 минут — почему пришлось собрать свою lite версию RAG и в чем опасность RAG фреймворков

Архитектура Hybrid RAG систем заняла нишу корпоративных баз знаний, став стандартом для построения сервисов генерации контента на основе внутренних корпоративных данных. Уже пару лет у этого подхода практически нет альтернатив, когда речь заходит о сочетании возможностей генеративного ИИ с требованиями корпоративной безопасности и доверия к полученным результатам. Ключевое преимущество RAG перед обычным взаимодействием с нейросетями заключается в прозрачности: мы четко видим, на основе каких документов был сформирован ответ, и можем проверить каждый шаг пайплайна Почти в каждом проекте, которые мне удалось наблюдать, происходило одно и то же - сначала команда стартует с LangChain или LlamaIndex через пару месяцев пайплайн становится неуправляемым, далее половина фреймворка выкидывается и пишется свой костомный retrieval. В итоге архитектура почти всегда выглядит одинаково - Frontend + Python backend + vector search + LLM API В этой статье я покажу почему это происходит, поделюсь сложностями с которыми можно столкнуться при реализации корпоративных баз знаний основанных на RAG технологиях, расскажу почему готовые фреймворки иногда могут быть опасны для проекта и как я пришел к созданию универсальной сборки RAG системы разворачиваемой за 15 минут За последние два года вокруг вокруг RAG систем сформировалась огромная инфраструктура. Появились специализированные фреймворки и облачные сервисы. Однако, если присмотреться к реальным запросам бизнеса, вырисовывается устойчивый паттерн. Компании хотят быстрый запуск без глубокого погружения в разработку продукта, в пару кликов загрузить корпоративные документы и получать ответы на запросы по своим внутренним документам. Компаниям не нужен очередной конструктор с бесконечными настройками, а востребована легкая, быстро разворачиваемая корпоративная RAG база знаний Основной актив, с которым должны работать такие системы это регламенты, техническая документация, договоры, инструкции и неструктурированные базы знаний. И здесь RAG действительно незаменим. Но существует и обратная сторона медали:

https://habr.com/ru/articles/1005776/

#RAG #knowledge_base #hybrid_rag #rag_система #база_знаний #it_проекты #поисковые_системы #rag_ai #ai_agent #корпоративные_решения

Hybrid RAG knowledge base за 15 минут — почему пришлось собрать свою lite версию RAG и в чем опасность RAG фреймворков

Архитектура Hybrid RAG систем заняла нишу корпоративных баз знаний, став стандартом для построения сервисов генерации контента на основе внутренних корпоративных данных. Уже пару лет у этого подхода...

Хабр

Выбор готового ИИ чат-бота: почему мы в результате написали своего гибридного агента

Краткий итог нашего изучения рынка и создания собственного бота (почему это так - читайте ниже): Промпт-бот (500 ₽ фриланс + 50 000 ₽/месяц API): Используйте, если нужно простое FAQ-покрытие, вся база знаний умещается в короткий промпт, нет регуляторного риска и вы понимаете, что принимаете риск галлюцинаций и нарушений ограничений. Хорошо для демонстрации возможностей. Не подходит для финансовых услуг, медицины, юридических вопросов или любой области, где неверный ответ бота имеет последствия. SaaS-платформа (3 000–100 000+ ₽/месяц): Используйте, если главным образом нужно FAQ-отклонение и маршрутизация обращений, каталог продуктов стабилен и прост, есть команда поддержки, которая хочет единый inbox, и вы хотите запуститься за несколько дней. Aimylogic и BotHelp достаточно хороши для своего предназначения. Российские платформы решают вопрос 152-ФЗ лучше западных аналогов. Open-source-фреймворк (Rasa/Botpress, $0 ПО + инфра + программисты): Rasa даёт полный контроль с локальным NLU и управлением диалогом. Требует Python-инженера и реальных обучающих данных. Корпоративное лицензирование начинается от $35 000/год. Подходит для ML-тяжёлых сценариев, где нужен полный контроль. Требует постоянной поддержки, которую SaaS берёт на себя. Кастомный гибрид (инвестиции в код + ~5 000 ₽/месяц API): Используйте, если нужны управляемые многошаговые квалификационные потоки, данные о продуктах синхронизированы с существующей системой, есть требования к локализации данных или соответствию 152-ФЗ, нестандартная интеграция с каналами или предсказуемость затрат на долгий срок. Не проект выходного дня, но при масштабировании экономика очевидна. По данным рынка, полная разработка «под ключ» в России стоит 70 000–1 000 000 ₽ единоразово (медиана 227 000 ₽ по исследованию Aimylogic).

https://habr.com/ru/articles/1004966/

#чатбот #искусственный_интеллект #rag_ai #llm

Выбор готового ИИ чат-бота: почему мы в результате написали своего гибридного агента

Небольшая история о том, как мы искали чат-бота на рынке, но не нашли и построили гибридную систему (правила + ИИ), которая обходится в ~5 000 руб. в месяц. Какой подход подойдет вам? Краткий итог...

Хабр

Семантический обновляемый кэш на AlloyDB Omni

Предположим, вы построили RAG-сервис на SQL, и он отлично работает. Довольно быстро, очень точно, и очень дорого , ведь каждый запрос к сервису требует обращения к LLM для генерации ответа по чанкам, извлеченным из базы знаний. И чем больше мы извлекли таких фрагментов, тем больше входных токенов тратится на составной промпт, даже если ответ будет состоять из одного предложения. Можно, конечно, заранее срезать количество извлекаемых чанков, но это отразится на качестве ответов. Можно настроить кэш, который экономит на обращениях к сервису, когда приходят одинаковые вопросы. Но когда пользователь спрашивает "How to get developer support?”, и тут же другой пользователь спрашивает "How to ask development-related questions?", ваш сервис каждый раз будет генерировать ответ заново, сжигая ваши токены и заставляя пользователя ждать. Обычный кэш тут бессилен: для него эти две фразы — абсолютно разные ключи. В этой статье я расскажу, как развернуть мощный семантический кэш на базе AlloyDB Omni (PostgreSQL от Google), используя векторный поиск ScaNN, автоматическое партиционирование и планировщик задач. Мы пройдём путь от настройки Docker-контейнера до продакшн-архитектуры.

https://habr.com/ru/articles/995884/

#RAG #rag_ai #alloydb

Семантический обновляемый кэш на AlloyDB Omni

Предположим, вы построили RAG-сервис на SQL, и он отлично работает. Довольно быстро, очень точно, и очень дорого , ведь каждый запрос к сервису требует обращения к LLM для генерации ответа по чанкам,...

Хабр

Дело о ненужной рекомендательной системе, сделанной с помощью AI

О проблемах найма я узнал не из аналитических отчётов — а потому что сам оказался внутри рынка труда. С одной стороны — как кандидат, с другой — как человек, работавший с HR и процессами найма. Так же читая новости и статьи, в том числе на Хабре, как стремительно развивается AI в разработке, решил реализовать инженерный эксперимент и создать MVP рекомендательной системы для HR. В этой статье делаю разбор того что получилось в итоге: • как архитектура и BDD стали “ограничителями” для агента • как я формировал и тестировал требования с помощью AI • как сформировал RAG/контекст для AI агента • с какими проблемами столкнулся и что сработало • где мое место в процессе разработки • какие skills потребовались мне и какие в итоге сформировал для AI агента

https://habr.com/ru/articles/993568/

#rag_ai #aiагенты #требования #тестирование_требований #vibe_coding #skills

Дело о ненужной рекомендательной системе, сделанной с помощью AI

О проблемах найма я узнал не из аналитических отчётов — а потому что сам оказался внутри рынка труда. С одной стороны — как кандидат, с другой — как человек, работавший с HR и процессами найма. Так же...

Хабр

Я год доверял ChatGPT в строительстве, а потом он начал придумывать ГОСТы

Эту историю для моего блога рассказал Алексей Кривоносов Год назад я начал использовать ChatGPT для работы. Занимаюсь загородным строительством — это основной бизнес. Также веду YouTube-канал компании. Нейросеть помогала генерировать сценарии, составлять контент-планы, оформлять технические отчёты. Но когда попробовал использовать ChatGPT для работы со строительными нормами — СП, ГОСТами, нормативной документацией — столкнулся с проблемой. Нейросеть придумывала несуществующие пункты нормативов, выдавала цифры, которых не было в документах. За полгода я с небольшой командой создал свой AI-инструмент — «Цифровой стандарт». Мы вручную обработали строительную нормативную базу, перевели её в векторный формат и настроили алгоритм, который даёт точные ответы без галлюцинаций.

https://habr.com/ru/articles/992348/

#rag_ai #rag #базы_данных #ии #искусственный_интеллект #гост #строительство #chatgpt #rag_система #нейросети

Я год доверял ChatGPT в строительстве, а потом он начал придумывать ГОСТы

Эту историю для моего блога рассказал Алексей Кривоносов Год назад я начал использовать ChatGPT для работы. Занимаюсь загородным строительством — это основной бизнес. Также веду YouTube-канал...

Хабр

Создаём и внедряем ИИ-стилиста для интернет-магазина

Недавно я решал задачу, которая знакома почти любому e-commerce: как поднять конверсию и апсейл в магазине, где по бенчмаркам все и так “нормально”. Ограничение было простое: решение должно быть на базе ИИ. Мне было важно не “прикрутить чатик”, а проверить, насколько зрелы ИИ-агенты для продакшна, когда они работают с реальными данными, ограничениями и метриками. Сразу обозначу рамки. Это не статья про то, как увеличить маркетинговый бюджет, переделать витрину или заняться дисраптом. Здесь ровно один фокус: может ли AI-агент улучшить ключевые метрики: конверсию, средний чек и удержание, в классическом fashion e-commerce. Перед тем как строить решение, я разложил клиентский путь на этапы и посмотрел, где теряется конверсия. Самый болезненный участок оказался предсказуемым: переход из карточки товара в корзину. На этом шаге у клиента чаще всего включаются сомнения, размер, посадка, материал, и “с чем это носить”. Про конкретный магазин не пишу по понятным причинам.

https://habr.com/ru/articles/983312/

#ecommerce #llmмодели #aiagent #ииассистент #ИИстилист #fashionиндустрия #AI_агент_для_интернет_магазина #rag_ai #искусственный_интеллект_в_бизнесе

Создаём и внедряем ИИ-стилиста для интернет-магазина

Недавно я решал одну интересную, на мой взгляд, задачу – увеличить конверсию и апсейл в интернет-магазине, который и так себя чувствует нормально, то есть его показатели находятся на уровне рынка по...

Хабр

Базовый RAG-компонент для локального семантического поиска на Питоне

quad_rag_core — лёгкое Python-ядро для локального RAG, которое автоматически отслеживает изменения в папках, индексирует их в Qdrant и поддерживает эмбеддинги в актуальном состоянии. Изначально проект задумывался как плагин для MCP (Model Context Protocol), но стал универсальной основой для любой системы локального семантического поиска. Зачем это нужно В процессе работы с кодовой базой через LLM-агентов и при необходимости локального семантического поиска по файлам проекта обнаружилась проблема. Инструменты агентской разработки вроде Kilo Code предоставляют встроенную функцию семантического поиска, но в компании заявляют что в будущем эта функциональность может стать платной. Сразу задумался о том чтобы сделать свою подсистему поиска. Простые запросы к MCP-серверу на поиск и обновление тут не подойдут - система поиска должна иметь полный контроль над контекстом - она должна автоматически узнавать, что файл удалён, функция изменена или добавлен новый документ, без необходимости перезапуска индексации. От идеи к архитектуре В начале планировался простой MCP-сервер, который принимает команды поиска и обновления, индексирует текстовые файлы и PDF, использует Qdrant как векторное хранилище и эмбеддит локально. В ходе проектирования стало понятно: вся логика отслеживания файлов, парсинга, чанкинга и синхронизации с Qdrant — это переиспользуемое ядро, а не часть MCP-протокола. Так появился quad_rag_core — отдельный Python-модуль, который не знает ничего про MCP или другие внешние интерфейсы, но готов к ним подключаться.

https://habr.com/ru/articles/982476/

#rag #rag_ai #семантический_поиск #middleware #python #qdrant #embeddings

Базовый RAG-компонент для локального семантического поиска на Питоне

quad_rag_core — лёгкое Python-ядро для локального RAG, которое автоматически отслеживает изменения в папках, индексирует их в Qdrant и поддерживает эмбеддинги в актуальном состоянии. Изначально проект...

Хабр

Ragex: Гибридный RAG для анализа кода

Я поломался, поломался — и поломался на осколки. Признаю́: железные помощники Т9 действительно могут приносить пользу в разработке. Единственное, что мне не нравилось — то, что весь проект большой и хорошо натренированной модели не скормишь, а значит — неизбежны потери контекста, размывание смыслов и джойсовские галлюцинации. Я уже давно понял: если мне нужно, чтобы что-то было сделано хорошо, — делегирование отпадает, придётся брать в руки молоток самому. Это касается любых жизненных аспектов: варки борща, замены сантехники, перевода Эдгара Аллана По или Антонио Мачадо на русский, или, там, программирования. Когда БЯМ научились подключать сторонние MCP-сервера, произошел качественный скачок. Теперь не нужно файнтьюнить модель, можно файнтьюнить буковку « R » из акронима « R AG ». Я-то лучше знаю, как правильно извлекать смыслы из моего личного контента. Если речь про код — лучше всего искать правду в AST . Так и был зачат Ragex — MCP-сервер для семантического анализа кодовых баз с элементами чёрной магии. Проект, понятно, написан на Elixir , потому что ну а на чем еще?

https://habr.com/ru/articles/982418/

#mcpserver #mcptools #mcpservers #mcpсервер #mcp_server #rag #rag_pipeline #rag_ai

Ragex: Гибридный RAG для анализа кода

Я поломался, поломался — и поломался на осколки. Признаю́: железные помощники Т9 действительно могут приносить пользу в разработке. Единственное, что мне не нравилось — то, что весь проект...

Хабр

Собираем простейшую RAG-систему на PHP с фреймворком Neuron AI за вечер

RAG (Retrieval-Augmented Generation или генерация, дополненная поиском) - это метод искусственного интеллекта, сочетающий генеративную большую языковую модель (LLM) с внешней базой знаний для создания более точных, контекстно-зависимых и актуальных ответов. Принцип его работы заключается в том, что сначала извлекается релевантная информация из набора документов или источников данных, а затем эта информация передается в LLM для формирования окончательного ответа. Этот процесс позволяет модели выдавать более точные ответы, менее подверженные “галлюцинациям”, и ее можно обновлять без дорогостоящего переобучения. Сегодня мы разберёмся, как собрать базовую RAG-систему на PHP (да, да, не надо удивляться) с помощью фреймворка Neuron AI . Это будет наш маленький proof-of-concept - минимально работающий, но вполне реальный пример. Ну что, начнём генерацию?

https://habr.com/ru/articles/966792/

#rag #rag_ai #php #llm #llmагент #rag_api #vectorization #embeddings #neuron

Собираем простейшую RAG-систему на PHP с фреймворком Neuron AI за вечер

RAG (Retrieval-Augmented Generation или генерация, дополненная поиском) - это метод искусственного интеллекта, сочетающий генеративную большую языковую модель (LLM) с внешней базой знаний для создания...

Хабр