Retrieval в 2026: как RAG переехал с энкодеров на LLM (и что с этим делать в своём проекте)

Если вы строили RAG в 2023, ваш стек выглядел плюс-минус одинаково. BERT-семейство (BGE, e5) для семантики, BM25 для буквальных совпадений, cross-encoder для реранкинга, какой-нибудь Qdrant сверху. Этим жили два года, и многие до сих пор так живут. Но если посмотреть, кто реально гоняется в продакшене у команд, которые ушли вперёд, ландшафт другой. Энкодеров там почти нет. Эмбеддит файнтюненная LLM. Реранкер — тоже LLM. Инференс на SGLang, а не на ONNX. И вся обвязка перестроилась под это. Эта статья про то, что поменялось и как переиспользовать этот стек у себя. Особенно если вы работаете в узком домене, где готовых датасетов нет.

https://habr.com/ru/articles/1049872/

#RAG #эмбеддинги #embeddings #retrieval #LLM #Qwen3 #Qdrant #vector_search #hard_negatives #LLM2Vec

Retrieval в 2026: как RAG переехал с энкодеров на LLM (и что с этим делать в своём проекте)

Если вы строили RAG в 2023, ваш стек выглядел плюс-минус одинаково. BERT-семейство (BGE, e5) для семантики, BM25 для буквальных совпадений, cross-encoder для реранкинга, какой-нибудь Qdrant сверху....

Хабр

Escape the proprietary AI cloud tax!

Moving your vector search from Pinecone to open-source Qdrant on Bare Metal is a massive performance & cost upgrade.

Our SRE guide on making the switch:
🔹 In-graph filtering > post-filtering
🔹 INT8 cuts RAM footprint by 400%
🔹 Direct NVMe > Network Storage

Includes full Docker configs & Linux kernel tuning tips to squeeze every drop of IOPS.

Read the playbook here:
https://www.servermo.com/howto/migrate-pinecone-to-qdrant/

#OpenSource #SelfHosted #Qdrant #DevOps #VectorDB

Stop stuffing your context like a holiday turkey and start using vector search with Qdrant on Upsun for 25x lower cost per query 💡.

Our guide walks you through building a RAG pipeline and chunking strategies that actually work without the usual headache 🛠️

Check out the full breakdown to level up your search game today 🚀

👉https://developer.upsun.com/tutorials/ai/rag-pipeline

#VectorSearch #Qdrant #RAG #CloudNative

AI-метрдотель для ресторанной сети: архитектура, сценарии и интеграции

Чат-боты в ресторанном бизнесе чаще всего начинают с простой задачи: снять часть нагрузки с менеджеров и отвечать гостям на типовые вопросы. На практике многие такие решения быстро упираются в ограничения. Бот отвечает шаблонно, не понимает свободный текст, не учитывает контекст гостя, не видит актуальные данные ресторана и при нестандартном запросе просит переформулировать вопрос или вручную переключает диалог на сотрудника. В проекте для ресторанной сети задача была другой: сделать не справочного бота, а AI-метрдотеля, который работает как цифровой сотрудник. Он должен понимать свободный текст, учитывать историю гостя, работать с бронированиями, обращаться к меню и базе знаний, проверять актуальные данные в ресторанных системах, принимать платежи, собирать отзывы и передавать диалог менеджеру в сценариях, где требуется участие человека. Такой продукт требует не только языковой модели. В основе должны быть база знаний, профиль гостя, интеграции с операционными системами ресторана, RAG, сценарная маршрутизация, контроль доступа, логирование и техническая архитектура, рассчитанная на работу с реальными бронями, оплатами и персональными данными.

https://habr.com/ru/articles/1041262/

#aiассистенты #rag #telegram_api #crmсистемы #проектирование_api #postgresql #qdrant #data_engineering #автоматизация_бизнеса #чатботы

AI-метрдотель для ресторанной сети: архитектура, сценарии и интеграции

Чат-боты в ресторанном бизнесе чаще всего начинают с простой задачи: снять часть нагрузки с менеджеров и отвечать гостям на типовые вопросы. На практике многие такие решения быстро упираются в...

Хабр

RAG без downtime: настраиваем инкрементальное обновление документов на Qdrant и LangChain

PM: Нам нужно актуализировать базу знаний для ИИ-ассистента, там изменилась инструкция по смене пароля. DevOps: Не проблема, сейчас запущу скрипт, через два часа всё обновится. Предупреди Заказчика о недоступности сервиса. Знакомая ситуация? Полная зачистка векторной базы и реиндексация всех имеющихся документов с остановкой сервиса - решение простое и надёжное, но «прощается» только на этапе прототипа. В продакшене могут быть сотни тысяч документов, живые пользователи и SLA с требованием по доступности сервиса. Обновилась одна, пусть и очень важная инструкция, и сервис недоступен два часа. А если таких обновлений десятки в неделю? Давайте исправим это и напишем ETL-скрипт , который умеет добавлять, обновлять и удалять отдельные документы без остановки сервиса.

https://habr.com/ru/articles/1038456/

#rag #etlпайплайн #qdrant #qdrant_vector_store #масштабирование #airflow #python #rag_система

RAG без downtime: настраиваем инкрементальное обновление документов на Qdrant и LangChain

PM: Нам нужно актуализировать базу знаний для ИИ-ассистента, там изменилась инструкция по смене пароля. DevOps: Не проблема, сейчас запущу скрипт, через два часа всё обновится. Предупреди Заказчика о...

Хабр

Хакатон Samsung IT Academy Hack 2026: как студенты оптимизировали поиск в корпоративном мессенджере

Поиск — штука настолько привычная, что её редко рассматривают как отдельную инженерную задачу. На деле это связка из четырёх частей: парсинг и нормализация исходных данных, индексация, обработка пользовательского запроса и ранжирование результатов. Каждая из них живёт по своим правилам и ломается по своим причинам. Сложно представить более прикладную область, поэтому на хакатоне IT Academy Hack 2026 от IT Академии Samsung Innovation Campus в этом году, мы решили попросить студентов предложить варианты улучшения поиска по сообщениям в контуре корпоративного мессенджера. Кстати, VK Tech стал индустриальным партнером конкурса уже во второй раз — предоставил инфраструктуру для студентов, и стал одним из постановщиков задач. Меня зовут Сергей Харламов, я руковожу Исследовательской лабораторией VK Tech . В этой статье расскажу об актуальных проблемах оптимизации поиска, а также о задаче и подходах, которые можно было применить для ее решения.

https://habr.com/ru/companies/vktech/articles/1038306/

#хакатон #поиск #информационный_поиск #elasticsearch #qdrant #embeddings #векторный_поиск #ранжирование #vk_workspace #vk_tech

Хакатон Samsung IT Academy Hack 2026: как студенты оптимизировали поиск в корпоративном мессенджере

Поиск — штука настолько привычная, что её редко рассматривают как отдельную инженерную задачу. На деле это связка из четырёх частей: парсинг и нормализация исходных данных, индексация, обработка...

Хабр

Практический ИИ-агент Python: LangGraph + Qdrant

При разработке ИИ-агента для базы знаний, мне казалось, что задача почти типовая: складываем информацию в Qdrant, находим информацию через векторный поиск и поиск в интернете и формируем красивый ответ через LLM. На деле ИИ-агент начал уверенно галлюцинировать, приносить не только нерелевантные ответы, но и тупить с короткими пользовательскими запросами. И самое неприятное, при всем при этом метрика «похожести» similarity выглядела достаточно высокой, что сильно вводило в заблуждение. После серии экспериментов и улучшений пришло понимание, что промышленный ИИ-агент — это не столько про LLM, сколько про качество извлечения информации и гибкую оркестрацию компонентов ИИ-агента. Что в итоге полностью поменяло архитектуру моей системы. В статье расскажу, как я пришла от «просто добавь LLM» к промышленному графовому ИИ-агенту на LangGraph + Qdrant.

https://habr.com/ru/articles/1038190/

#aiагенты #retrieval #llmагент #qdrant #rag #langgraph

Практический ИИ-агент Python: LangGraph + Qdrant

При разработке ИИ-агента для базы знаний, мне казалось, что задача почти типовая: складываем информацию в Qdrant, находим информацию через векторный поиск и поиск в интернете и формируем красивый...

Хабр

Как мы довели поиск товаров по изображению до 98% совпадений: FastAPI, DINOv2, Qdrant и поиск на фото полки

Поиск товара по изображению кажется простой задачей — ровно до момента, пока не сталкиваешься с реальным каталогом . В теории все выглядит аккуратно: берем фото, считаем embedding, ищем ближайшие вектора, возвращаем совпадения. На практике начинаются нюансы: у товара несколько изображений, ракурсы отличаются, фон мешает, каталог обновляется постоянно, а бизнес ждет не исследовательский прототип, а сервис, который можно поставить в production. С вами старший программист в Fix Price Константин Репин. И в этом материале разберу, как мы строили сервис визуального поиска товаров, какие инженерные решения реально повлияли на качество и почему текущий результат в 98% совпадений получился не из-за одной удачной модели, а из-за правильно собранного пайплайна.

https://habr.com/ru/companies/fix_price/articles/1034664/

#поиск_товаров #FastAPI #dinov2 #qdrant #визуальные_эмбеддинги #векторный_поиск

Как мы довели поиск товаров по изображению до 98% совпадений: FastAPI, DINOv2, Qdrant и поиск на фото полки

Поиск товара по изображению кажется простой задачей — ровно до момента, пока не сталкиваешься с реальным каталогом . В теории все выглядит аккуратно: берем фото, считаем embedding, ищем ближайшие...

Хабр

SocratiCode: разбираю MCP-сервер, который даёт ИИ-агенту понимание кодовой базы

Если ваш ИИ-агент при каждом вопросе начинает grep-ом по всему проекту — у меня есть для вас одна штука. SocratiCode — это MCP-сервер, который индексирует кодовую базу через Qdrant и даёт агенту нормальный поиск вместо построчного чтения. Разобрал, как он устроен внутри, потестировал на нашем монорепе и сравнил с обычным режимом Claude Code

https://habr.com/ru/articles/1031878/

#MCP #Claude_Code #векторный_поиск #Qdrant #Ollama #codebase_intelligence #AIагенты #RAG

SocratiCode: разбираю MCP-сервер, который даёт ИИ-агенту понимание кодовой базы

Что внутри: Qdrant, Ollama, AST-чанкинг и гибридный поиск без лишних танцев с бубном Если вы работаете с Claude Code, Cursor или другими ИИ-ассистентами на больших кодовых базах, то наверняка знаете...

Хабр