Когда RAG на горе свистнет: архитектура, метрики оценки и практика тестирования в ПСБ

Одна из ключевых проблем ИИ — склонность к «галлюцинациям», то есть к генерации убедительно звучащих, но ложных ответов. Яркий пример на картинке :) Как это можно исправить или улучшить? Есть разные способы. Одно из самых простых решений, позволяющих значительно повысить точность и достоверность ответов, — RAG (Retrieval Augmented Generation). Это генерация с дополненной выборкой. Меня зовут Михаил Костецкий, я управляющий эксперт отдела обеспечения качества в ПСБ. Мы в коллегами сейчас тоже пробуем использовать технологию RAG в разных задачах — в своей статье я хочу поделиться этим опытом. Буду рад, если моя статья станет полезна тем, кому предстоит работать с методом.

https://habr.com/ru/companies/psb/articles/1016724/

#rag #ragas #rag_система #rag_техники #оценка_rag #оценка_качества

Когда RAG на горе свистнет: архитектура, метрики оценки и практика тестирования в ПСБ

Одна из ключевых проблем ИИ — склонность к «галлюцинациям», то есть к генерации убедительно звучащих, но ложных ответов. Яркий пример на картинке :) Как это можно исправить или улучшить? Есть разные...

Хабр

Ruby와 Rails로 구축하는 신뢰할 수 있는 LLM 애플리케이션 테스트 전략

LLM의 비결정적 특성으로 인해 기존의 단순 문자열 일치 방식 테스트는 무의미하며 점수와 임계값 기반의 신뢰도 평가 모델로 전환해야 한다.

🔗 원문 보기

Ruby와 Rails로 구축하는 신뢰할 수 있는 LLM 애플리케이션 테스트 전략

LLM의 비결정적 특성으로 인해 기존의 단순 문자열 일치 방식 테스트는 무의미하며 점수와 임계값 기반의 신뢰도 평가 모델로 전환해야 한다.

Ruby-News | 루비 AI 뉴스

Ended the weekend and welcomed the weekend with Duets by Ravi Shankar & Ali Akbar Khan, Alla Rakha, released by His Master's Voice as part of their Music from India series in 1965.

Top ragas with a blend of sitar and sarod to start the week

https://www.youtube.com/watch?v=N_IvEotyD6M

#RaviShankar #AliAkbarKhan #Sitar #Sarod #Tabla #Tamboura #HindustaniClassical #Ragas #India #Music

RAG Testing: как не сломать retrieval

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

https://habr.com/ru/articles/1001682/

#rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

RAG Testing: как не сломать retrieval

TL;DR: Шесть метрик RAGAS + Precision@K/Recall@K/MRR позволяют поймать деградацию RAG-системы до того, как пользователи заметят галлюцинации. В этой статье будет всё от pip install ragas до...

Хабр

Выбор LLM и фреймворка для ИИ-агентов

Путь от одной A100 в облаке до кластера на H200 — это не просто апгрейд железа, а история о том, как ML-команда перестала искать «ту самую идеальную модель» и начала строить экосистему. Когда под капотом миллионы строк C-кода PostgreSQL, а задачи варьируются от генерации hint-сетов до Graph-RAG, модель превращается из «черного ящика» в обычный заменяемый компонент. Рассказываем, как мы пересобрали стек на базе vLLM и MCP, почему контекст-менеджмент важнее весов модели и как заставить 0.6B-параметров работать не хуже гигантов через GRPO.

https://habr.com/ru/companies/postgrespro/articles/979820/

#llm #aiагент #ииагенты #qwen3 #ragas #finetuning #дообучение #trl #grpo #gspo

Выбор LLM и фреймворка для ИИ-агентов

Последние полтора года наша ML-команда делает крайне интересные штуки, например строит ИИ-агентов поверх PostgreSQL, при этом инфраструктура меняется, индустрия созревает, а ожидания и требования к...

Хабр

#ITByte: #Ragas is a Python framework used for evaluating the performance of Retrieval-Augmented Generation (RAG) pipelines in Large Language Model (LLM) applications.

It provides a suite of metrics to assess the quality of both the retrieval process and the generated answer, helping developers identify weaknesses and improve their RAG systems.

https://knowledgezone.co.in/posts/Ragas-to-Evaluate-RAG-Applications-68d6b90f6fb41ef21aac6b99

Ragas to Evaluate RAG Applications

Ragas is an open-source evaluation framework and library for Retrieval-Augmented Generation (RAG) applications. It assesses the performance of a RAG system by using other Large Language Models (LLMs) to measure different metrics.

Knowledge Zone

Как поднять точность RAG-агента: чек-лист и инструменты. Часть 2. Финал

В первой части я разбирал архитектуру AI-агента, выбор между RAG и GraphRAG на примере AI-юриста для техподдержки. Если пропустили – https://habr.com/ru/articles/975230/ Во второй части решил уделить внимание тому, как добиться нормального качества поиска и точности ответов. Чтобы AI-агент не остался в песочнице и не превратился в очередной эксперимент "мы попробовали, не взлетело". Надеюсь мой опыт будет полезен и вы сэкономите себе деньги, нервы и время. А может быть и вовсе откажетесь от идеи создания агента — это тоже нормальный исход. Я уже писал про чанки, RAGAS, бенчмарки и инструменты отслеживания качества. Сегодня остановимся детально на каждом артефакте, расскажу плюсы и минусы, и почему именно их я использовал для AI-юриста. Погнали

https://habr.com/ru/articles/977018/

#openai #claude #agentic_ai #agentic_rag #ragas #qwen25max #ииассистент #ai

Как спроектировать AI ассистента для поддержки и не слить бюджет. Часть 1: От идеи до выбора архитектуры

Каждая команда сейчас хочет заменить людей на AI. Но есть и другой подход - усилить текущие возможности с помощью AI. Это драйвер роста и масштабирования, а не повод увольнять людей. Покажу как...

Хабр

RAG+Ragas: учим AI-помощника учить без галлюцинаций

Представьте ситуацию: вы прошли онлайн-курс, начинаете применять знания на практике, но что-то не получается и надо вернуться в учебные материалы, найти, где про это что-то рассказывали. Что будете делать: пролистывать все уроки (а их может быть пара десятков), писать куратору (а он может ответить через сутки)? Мы решили облегчить путь и сделали AI-помощника, который знает все про наши онлайн-курсы. Он ответит на любой вопрос по содержанию уроков, пояснит непонятный момент в процессе обучения и сориентирует, где говорили на тему, которую надо освежить. На все, что не касается курсов или выделения ресурсов для практических заданий, продолжают отвечать кураторы. Дальше расскажу, почему мы проверяем ответы помощника с Ragas и с какими нюансами столкнулись в процессе. Но начну с архитектуры, чтобы показать, как Ragasсвязан с RAG.

https://habr.com/ru/companies/cloud_ru/articles/966698/

#rag #ragas #aiагент #aiпомощник #онлайнкурсы

RAG+Ragas: учим AI-помощника учить без галлюцинаций

Представьте ситуацию: вы прошли онлайн-курс, начинаете применять знания на практике, но что-то не получается и надо вернуться в учебные материалы, найти, где про это что-то рассказывали. Что будете...

Хабр

Валидация RAG с помощью RAGAS. Часть 1

Привет, меня зовут Вова Ловцов. Я дата-сайентист, работаю в команде Core DS в Читать первую часть

https://habr.com/ru/companies/cloud_ru/articles/965250/

#ragas #rag #оценка_rag #качество_ответов #core_ds #data_science

Валидация RAG с помощью RAGAS. Часть 1

Привет, меня зовут Вова Ловцов. Я дата-сайентист, работаю в команде Core DS в Cloud.ru , где мы занимаемся разработкой агентов, RAG-систем и других сопутствующих технологий. Недавно мы запустили...

Хабр

Тестирование качества работы RAG. Описание и сравнение метрик

В современном мире часто встречаются задачи с большим объемом данных, выполнение которых либо невозможно, либо сложно или затратно по времени/ресурсам автоматизировать обычными функциями и методами. Одним из способов решения для таких случаев является применение AI с использованием RAG. В этой статье мы постарались привести метрики для оценки качества работы подобных решений.

https://habr.com/ru/articles/951222/

#тестирование #ai #искусственный_интеллект #rag #ragas

Тестирование качества работы RAG. Описание и сравнение метрик

В современном мире часто встречаются задачи с большим объемом данных, выполнение которых либо невозможно, либо сложно или затратно по времени/ресурсам автоматизировать обычными функциями и методами....

Хабр