RAG Testing: как не сломать retrieval

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

https://habr.com/ru/articles/1001682/

#rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

RAG Testing: как не сломать retrieval

TL;DR: Шесть метрик RAGAS + Precision@K/Recall@K/MRR позволяют поймать деградацию RAG-системы до того, как пользователи заметят галлюцинации. В этой статье будет всё от pip install ragas до...

Хабр

Тестирование LLM-приложений с DeepEval

В этой статье я расскажу о способе написания тестов для LLM-приложений с использованием инструмента DeepEval. Рассмотрены базовые концепции данного инструмента, а также приведен пример его использования на реальном приложении c RAG. Будет теория и много примеров на Python. 🔥 Начинаем 🔥

https://habr.com/ru/articles/984968/

#llm #llmприложения #deepeval #исскуственный_интеллект #llm_тестирование

Тестирование LLM-приложений с DeepEval

Всем привет! Меня зовут Максим. Я NLP‑инженер в red_mad_robot и автор Telegram‑канала Максим Максимов // IT, AI . В этой статье я расскажу о том, как тестировать приложения...

Хабр

Avi Chawla (@_avichawla)

GitHub에 공개된 리포지토리 링크를 공유하며 confident-ai/deepeval 저장소를 소개하고 스타를 눌러 달라고 권장하는 게시물입니다. 오픈소스 평가 도구(DeepEval) 관련 저장소 홍보입니다.

https://x.com/_avichawla/status/2008435954928021657

#deepeval #confidentai #github #opensource

Avi Chawla (@_avichawla) on X

GitHub repo: https://t.co/LfM6AdsO74 (don't forget to star it ⭐ )

X (formerly Twitter)

GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval из-за требований ИБ

В нашей компании мы занимаемся автоматизацией тестирования и часто сталкиваемся с необходимостью не только разворачивать сложные пайплайны, но и реализовывать метрики, которые действительно помогают выявлять тонкие баги в работе LLM-классификаторов. Есть понятная open-source инфраструктура, привычные инструменты и строгие требования ИБ. Но когда начинаешь сравнивать разные модели-судьи — например, GPT-4o от OpenAI и YandexGPT, — традиционные подходы к валидации и любимые метрики внезапно ведут себя очень по-разному. В этой статье я расскажу, как обычный процесс локализации метрик для DeepEval вывел нас не только на поиск багов в коде, но и привёл к пересмотру самой логики автоматизированной оценки: почему педантичность одной LLM может “маскировать” ошибки, а прагматичность другой — неожиданно улучшить вашу диагностику. Разберём код живых метрик, покажем, как переход от faithfulness к relevancy помог нам обнаружить и устранить важную логическую уязвимость, и выделим пять универсальных уроков, которые понадобятся каждому, кто автоматизирует оценку LLM не “по учебнику”, а по-настоящему. Если вам интересен опыт построения эксплуатируемых, не “пластмассовых” метрик для LLM-классификаторов в условиях ограничений ИБ и смешанных инфраструктур (OpenAI + российские модели) — добро пожаловать под кат!

https://habr.com/ru/companies/raft/articles/937418/

#deepeval #метрики_качества #llm #релевантность #консистентность #автоматизация_тестирования

GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval из-за требований ИБ

Введение: Наш самый полезный баг Привет, я Рамиль, QA-инженер в компании Raft. В своей работе я фокусируюсь на автоматизации тестирования, в том числе для LLM-решений, где часто использую связку...

Хабр

Chunk size? Retriever settings? Prompt templates? #RAG has a lot of knobs—but what actually matters? Mete Atamel offers a structured approach with the RAG triad to help you find out.

→ Check it out here: https://javapro.io/2025/05/14/evaluating-rag-pipelines-with-the-rag-triad/

#LLM #DeepEval #PromptEngineering #JAVAPRO

Evaluating RAG pipelines with the RAG triad - JAVAPRO International

Retrieval-Augmented Generation (RAG) emerged as a dominant framework for feeding Large Language Models (LLMs) the context beyond the…

JAVAPRO International

[Перевод] Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

LLM-агенты — отстой. Я провёл последнюю неделю, разрабатывая LLM-агента с возможностью веб-краулинга, используя популярный Python-фреймворк, чтобы собирать информацию о потенциальных лидах из интернета. Результат оказался полным разочарованием. Агент оказался медленным, нестабильным и с огромным числом багов (звучит знакомо? Передадим привет OpenAI!). Он постоянно делал ненужные вызовы функций, а иногда намертво застревал в бесконечных петлях "рассуждений", которые не имели никакого смысла. В итоге я на это забил и заменил его простым web-scraping скриптом, на написание кода которого у меня ушло 30 минут.

https://habr.com/ru/articles/904880/

#ai_agent #ai_агенты #ииагенты #llmагент #llm #rag #ai #ии #deepeval

Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

LLM-агенты — отстой. Я провёл последнюю неделю, разрабатывая LLM-агента с возможностью веб-краулинга, используя популярный Python-фреймворк, чтобы собирать информацию о потенциальных лидах из...

Хабр

Интеграция DeepEval для тестирования LlamaIndex Workflow

Тестирование сложных систем, таких как LlamaIndex Workflow, включающих несколько шагов, извлечение данных и генерацию текста с помощью LLM, является нетривиальной задачей. Стандартные методы тестирования не всегда могут оценить семантическое качество и релевантность генерируемых ответов. DeepEval предоставляет набор инструментов и метрик, специально разработанных для оценки LLM-приложений, что делает его подходящим решением для тестирования LlamaIndex Workflow. Давайте разберем два подхода к интеграции DeepEval с LlamaIndex Workflow:

https://habr.com/ru/articles/897634/

#llamaindex #workflow #deepeval

Интеграция DeepEval для тестирования LlamaIndex Workflow

Введение Тестирование сложных систем, таких как LlamaIndex Workflow, включающих несколько шагов, извлечение данных и генерацию текста с помощью LLM, является нетривиальной задачей. Стандартные методы...

Хабр
DeepEval creator describes his COSS startup’s fundraising journey

Jeffrey Ip wrote a fascinating blog post describing the whirlwind process of raising a seed round for Confident AI, the COSS startup he co-founded. Confident AI offers an LLM evaluation platform bu…

Chinstrap Community

[Перевод] Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих, данный инцидент наглядно показал, что по мере роста возможностей больших языковых моделей (LLM) возрастают и их уязвимости. Это связано с тем, что сложность модели прямо пропорциональна размеру её выходного пространства, что, в свою очередь, создаёт больше возможностей для нежелательных рисков безопасности , таких как раскрытие личной информации и генерация дезинформации, предвзятости, разжигания ненависти или вредоносного контента . В случае с Gemini были выявлены серьёзные внутренние искажения, обусловленные составом обучающих данных, что и отразилось в его результатах.

https://habr.com/ru/articles/880234/

#llm #red_teaming #chatgpt #deepeval #owasp_top_10 #confident_ai

Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих,...

Хабр

[Перевод] Оценка чат-ботов LLM: основные метрики и методы тестирования

В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель. В этой статье вы узнаете: * Разницу между оценкой LLM-чат-ботов и стандартной оценкой LLM * Различные подходы к оценке LLM-диалогов * Различные типы метрик для оценки LLM-чат-ботов * Как реализовать оценку LLM-диалогов в коде с использованием DeepEval

https://habr.com/ru/articles/876584/

#llm #чатбот_LLM #DeepEval #Confident_AI

Оценка чат-ботов LLM: основные метрики и методы тестирования

В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки,...

Хабр