Ended the weekend and welcomed the weekend with Duets by Ravi Shankar & Ali Akbar Khan, Alla Rakha, released by His Master's Voice as part of their Music from India series in 1965.

Top ragas with a blend of sitar and sarod to start the week

https://www.youtube.com/watch?v=N_IvEotyD6M

#RaviShankar #AliAkbarKhan #Sitar #Sarod #Tabla #Tamboura #HindustaniClassical #Ragas #India #Music

RAG Testing: как не сломать retrieval

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

https://habr.com/ru/articles/1001682/

#rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

RAG Testing: как не сломать retrieval

TL;DR: Шесть метрик RAGAS + Precision@K/Recall@K/MRR позволяют поймать деградацию RAG-системы до того, как пользователи заметят галлюцинации. В этой статье будет всё от pip install ragas до...

Хабр

Выбор LLM и фреймворка для ИИ-агентов

Путь от одной A100 в облаке до кластера на H200 — это не просто апгрейд железа, а история о том, как ML-команда перестала искать «ту самую идеальную модель» и начала строить экосистему. Когда под капотом миллионы строк C-кода PostgreSQL, а задачи варьируются от генерации hint-сетов до Graph-RAG, модель превращается из «черного ящика» в обычный заменяемый компонент. Рассказываем, как мы пересобрали стек на базе vLLM и MCP, почему контекст-менеджмент важнее весов модели и как заставить 0.6B-параметров работать не хуже гигантов через GRPO.

https://habr.com/ru/companies/postgrespro/articles/979820/

#llm #aiагент #ииагенты #qwen3 #ragas #finetuning #дообучение #trl #grpo #gspo

Выбор LLM и фреймворка для ИИ-агентов

Последние полтора года наша ML-команда делает крайне интересные штуки, например строит ИИ-агентов поверх PostgreSQL, при этом инфраструктура меняется, индустрия созревает, а ожидания и требования к...

Хабр

#ITByte: #Ragas is a Python framework used for evaluating the performance of Retrieval-Augmented Generation (RAG) pipelines in Large Language Model (LLM) applications.

It provides a suite of metrics to assess the quality of both the retrieval process and the generated answer, helping developers identify weaknesses and improve their RAG systems.

https://knowledgezone.co.in/posts/Ragas-to-Evaluate-RAG-Applications-68d6b90f6fb41ef21aac6b99

Ragas to Evaluate RAG Applications

Ragas is an open-source evaluation framework and library for Retrieval-Augmented Generation (RAG) applications. It assesses the performance of a RAG system by using other Large Language Models (LLMs) to measure different metrics.

Knowledge Zone

Как поднять точность RAG-агента: чек-лист и инструменты. Часть 2. Финал

В первой части я разбирал архитектуру AI-агента, выбор между RAG и GraphRAG на примере AI-юриста для техподдержки. Если пропустили – https://habr.com/ru/articles/975230/ Во второй части решил уделить внимание тому, как добиться нормального качества поиска и точности ответов. Чтобы AI-агент не остался в песочнице и не превратился в очередной эксперимент "мы попробовали, не взлетело". Надеюсь мой опыт будет полезен и вы сэкономите себе деньги, нервы и время. А может быть и вовсе откажетесь от идеи создания агента — это тоже нормальный исход. Я уже писал про чанки, RAGAS, бенчмарки и инструменты отслеживания качества. Сегодня остановимся детально на каждом артефакте, расскажу плюсы и минусы, и почему именно их я использовал для AI-юриста. Погнали

https://habr.com/ru/articles/977018/

#openai #claude #agentic_ai #agentic_rag #ragas #qwen25max #ииассистент #ai

Как спроектировать AI ассистента для поддержки и не слить бюджет. Часть 1: От идеи до выбора архитектуры

Каждая команда сейчас хочет заменить людей на AI. Но есть и другой подход - усилить текущие возможности с помощью AI. Это драйвер роста и масштабирования, а не повод увольнять людей. Покажу как...

Хабр

RAG+Ragas: учим AI-помощника учить без галлюцинаций

Представьте ситуацию: вы прошли онлайн-курс, начинаете применять знания на практике, но что-то не получается и надо вернуться в учебные материалы, найти, где про это что-то рассказывали. Что будете делать: пролистывать все уроки (а их может быть пара десятков), писать куратору (а он может ответить через сутки)? Мы решили облегчить путь и сделали AI-помощника, который знает все про наши онлайн-курсы. Он ответит на любой вопрос по содержанию уроков, пояснит непонятный момент в процессе обучения и сориентирует, где говорили на тему, которую надо освежить. На все, что не касается курсов или выделения ресурсов для практических заданий, продолжают отвечать кураторы. Дальше расскажу, почему мы проверяем ответы помощника с Ragas и с какими нюансами столкнулись в процессе. Но начну с архитектуры, чтобы показать, как Ragasсвязан с RAG.

https://habr.com/ru/companies/cloud_ru/articles/966698/

#rag #ragas #aiагент #aiпомощник #онлайнкурсы

RAG+Ragas: учим AI-помощника учить без галлюцинаций

Представьте ситуацию: вы прошли онлайн-курс, начинаете применять знания на практике, но что-то не получается и надо вернуться в учебные материалы, найти, где про это что-то рассказывали. Что будете...

Хабр

Валидация RAG с помощью RAGAS. Часть 1

Привет, меня зовут Вова Ловцов. Я дата-сайентист, работаю в команде Core DS в Читать первую часть

https://habr.com/ru/companies/cloud_ru/articles/965250/

#ragas #rag #оценка_rag #качество_ответов #core_ds #data_science

Валидация RAG с помощью RAGAS. Часть 1

Привет, меня зовут Вова Ловцов. Я дата-сайентист, работаю в команде Core DS в Cloud.ru , где мы занимаемся разработкой агентов, RAG-систем и других сопутствующих технологий. Недавно мы запустили...

Хабр

Тестирование качества работы RAG. Описание и сравнение метрик

В современном мире часто встречаются задачи с большим объемом данных, выполнение которых либо невозможно, либо сложно или затратно по времени/ресурсам автоматизировать обычными функциями и методами. Одним из способов решения для таких случаев является применение AI с использованием RAG. В этой статье мы постарались привести метрики для оценки качества работы подобных решений.

https://habr.com/ru/articles/951222/

#тестирование #ai #искусственный_интеллект #rag #ragas

Тестирование качества работы RAG. Описание и сравнение метрик

В современном мире часто встречаются задачи с большим объемом данных, выполнение которых либо невозможно, либо сложно или затратно по времени/ресурсам автоматизировать обычными функциями и методами....

Хабр

Прокачиваем RAG: тестируем техники и считаем их эффективность. Часть 2

В прошлой части мы подробно разобрали 11 популярных техник RAG: как они устроены, какие у них есть сильные и слабые стороны, и в каких сценариях они могут быть полезны. Теперь пришло время перейти от теории к практике и посмотреть, как эти подходы показывают себя в деле. В этой статье мы посмотрим на результаты экспериментов: какие техники оказались наиболее эффективными на датасете Natural Questions, где они приятно удивили, а где — наоборот, не оправдали ожиданий. Для оценки будем использовать фреймворк RAGAS , а также метрики BertScore и ROUGE-2 для анализа релевантности извлечённых чанков и финальных ответов. Поэтому впереди нас ждут эксперименты, цифры, наблюдения и (надеюсь) ценные инсайты, которые помогут вам не просто понять, какая техника кажется хорошей, а выбрать оптимальную под вашу задачу.

https://habr.com/ru/articles/949124/

#Rag #rag_техники #retrieval_augmented_generation #сравнение_rag_техник #ragas #bertscore #rouge

Прокачиваем RAG: тестируем техники и считаем их эффективность. Часть 2

В прошлой части мы подробно разобрали 11 популярных техник RAG: как они устроены, какие у них есть сильные и слабые стороны, и в каких сценариях они могут быть полезны. Теперь пришло время перейти от...

Хабр

Прокачиваем RAG: тестируем техники и считаем их эффективность. Часть 1

При про­ектировании RAG-системы инженер каждый раз сталкивается со множеством вопросов: какую базу данных использовать, как организовать получение релевантной информации, да даже выбор эмбеддера может занять приличное время, а это лишь вершина айсберга. Что хорошо работает в одной сфере, например в техподдержке, может полностью провалиться в другой — например, при анализе юридических документов. Поэтому задачей инженера является выявление особенностей предметной области и адаптации RAG системы к ним. Однако, чтобы это сделать, необходимо не только понимать, какие приёмы можно использовать, но и знать насколько они эффективны. В данной статье мы разберём основные RAG техники, посмотрим их сильные и слабые стороны, сферы применения, а также немного поэкспериментируем. В следующей части статьи мы проведём тестирование этих техник на реальных пользовательских запросах из датасета Natural Questions и оценим качество работы с помощью RAGAS и BertScore, посмотрим на графики и разойдёмся, чтобы обдумать всё написанное. Поэтому предлагаю начать!

https://habr.com/ru/articles/946888/

#RAG #RAG_Техники #retrieval_augmented_generation #Сравнение_RAG_техник #bertscore #ragas

Прокачиваем RAG: тестируем техники и считаем их эффективность. Часть 1

При про­ектировании RAG-системы инженер каждый раз сталкивается с множеством вопросов: как получать чанки, какую векторную базу использовать, как организовать получение релевантной информации из базы,...

Хабр