Как мы научили ИИ-агента отвечать за свои слова: 10 000 сообщений, Венгерский алгоритм и немного магии

На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Сегодня разбираем самое больное место разработки ИИ-агентов — как доказать, что они реально умнеют, а не просто пускают пыль в глаза. В статье я покажу изнанку нашей системы оценки: — Как 10 000 живых переписок превратились в эталоны для тестов. — Почему стандартные метрики безжалостно валили нашего агента (и зачем нам понадобился Венгерский алгоритм из 1955 года). — И что делать, если метрика падает просто потому, что ИИ оказался умнее вашего устаревшего эталона! Читайте полный разбор с цифрами, кейсами и откровенными провалами…

https://habr.com/ru/companies/llmstart/articles/1038512/

#evaluation #метрики_качества #LLMагенты #Ragas #LangFuse #RAG #Венгерский_алгоритм #AIdriven_разработка #LangChain #langchain_агенты

Как мы научили ИИ-агента отвечать за свои слова: 10 000 сообщений, Венгерский алгоритм и немного магии

Как мы научили ИИ-агента отвечать за свои слова: 10 000 сообщений, Венгерский алгоритм и немного магии На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru . Мы делаем AI-системы для бизнеса....

Хабр

От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде

На связи Сергей Смирнов, AI-инженер LLMStart.ru. Сегодня расскажу о полноценном кейсе, который мы делали для компании Айтон: агенте-консультанте по 1С:УНФ, который помогает отвечать на вопросы клиентов по базе знаний, реальным диалогам поддержки и контексту конкретного обращения. Разберу всю хронологию, нюансы и путь от первой гипотезы до продакшена, которым уже пользуются клиенты. Для бизнеса этот кейс интересен как пример реальной автоматизации через ИИ: сначала ассистент для сотрудников, потом сервис для клиентов. Для технарей — подходом, где решение эволюционировало от RAG-прототипа к агенту на основании данных и метрик, а не потому, что «так модно».

https://habr.com/ru/companies/llmstart/articles/1038436/

#RAG #LLM #ИИагенты #LangChain #LangFuse #Ragas #метрики_качества #context_engineering #мультимодальность #ии

От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде

Агент 1С-консультант: от RAG-прототипа до агента в продакшне На связи Сергей Смирнов, AI-инженер LLMStart.ru . Сегодня расскажу о полноценном кейсе, который мы делали для компании Айтон:...

Хабр

🔴 LIVE NOW ON VORTEX
📻 Vortex Sessions 🎧 (Indie pop, synth-pop, alternative rock)
──────────────
🎵 Shye Ben-Tzur; Jonny Greenwood; The Rajasthan Express - Saqi

▶️ Écouter / Listen : VorteX [Radio]
https://lesonduvortex.net

💬 Join us on Discord:
https://discord.gg/d82hJZBeDE

#VortexWave #ShyeBenTzur #Ragas #Folk #2000s

Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 3]

Продолжаем рассмотрение, того как правильно оценивать качество ИИ систем, в данной части поговорим про метрики характерные для RAG системы. Способах оценить полноту, точность и соответствия выдачи контексту в подобной системе. На примере библиотеки RAGAS, с разбором того, как эти метрики работают изнутри.

https://habr.com/ru/articles/1035300/

#искусственный_интеллект #качество_продукта #обработка_естественного_языка #ragas #rag #ииагенты

Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 3]

Доброго времени суток! В прошлой статье , мы рассмотрели 2 достаточно универсальные метрики характерные для почти любой агентской системы, в этой сместим фокус внимания и поговорим об оценке самого...

Хабр

Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 2]

Продолжаем рассмотрение, того как правильно оценивать качество ИИ систем, в данной части поговорим о двух крайне полезных метриках: одна универсальный способ оценить, что LLM отвечает правильно, вторая для задачи суммаризации текста. На примере библиотеки RAGAS, с разбором того, как эти метрики работают изнутри.

https://habr.com/ru/articles/1034358/

#метрики_качества #ragas #aiагенты

Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 2]

Доброго времени суток! В прошлой статье мы немного поговорили, о понятии GoldenSet и том, что он необходим нам для того, чтобы оценивать нашу ИИ систему. А так же рассмотрели простой пример, как можно...

Хабр

Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 1]

Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 1] LLM глючит в продакшене? 🤖 Хватит надеяться на «vibe-check»! Узнай, как внедрить инженерный подход к качеству ИИ-агентов. В статье: 🔹 Что такое Golden Set и почему его нельзя заменить ручной проверкой 🔹 Как автоматически создать Golden Set через Knowledge Graph для RAG системы 🔹 Готовый Python-код для генерации тестов в RAGAS

https://habr.com/ru/articles/1034050/

#агенты_ии #rag #ragas #тестирование_приложений

Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 1]

Доброго времени суток! Хочется поговорить об одной из самых «больных» тем в современной AI-разработке — как проверить, что система работает правильно. :-) Удивительно, но текущий хайп вокруг LLM...

Хабр

Когда RAG на горе свистнет: архитектура, метрики оценки и практика тестирования в ПСБ

Одна из ключевых проблем ИИ — склонность к «галлюцинациям», то есть к генерации убедительно звучащих, но ложных ответов. Яркий пример на картинке :) Как это можно исправить или улучшить? Есть разные способы. Одно из самых простых решений, позволяющих значительно повысить точность и достоверность ответов, — RAG (Retrieval Augmented Generation). Это генерация с дополненной выборкой. Меня зовут Михаил Костецкий, я управляющий эксперт отдела обеспечения качества в ПСБ. Мы в коллегами сейчас тоже пробуем использовать технологию RAG в разных задачах — в своей статье я хочу поделиться этим опытом. Буду рад, если моя статья станет полезна тем, кому предстоит работать с методом.

https://habr.com/ru/companies/psb/articles/1016724/

#rag #ragas #rag_система #rag_техники #оценка_rag #оценка_качества

Когда RAG на горе свистнет: архитектура, метрики оценки и практика тестирования в ПСБ

Одна из ключевых проблем ИИ — склонность к «галлюцинациям», то есть к генерации убедительно звучащих, но ложных ответов. Яркий пример на картинке :) Как это можно исправить или улучшить? Есть разные...

Хабр

Ruby와 Rails로 구축하는 신뢰할 수 있는 LLM 애플리케이션 테스트 전략

LLM의 비결정적 특성으로 인해 기존의 단순 문자열 일치 방식 테스트는 무의미하며 점수와 임계값 기반의 신뢰도 평가 모델로 전환해야 한다.

🔗 원문 보기

Ruby와 Rails로 구축하는 신뢰할 수 있는 LLM 애플리케이션 테스트 전략

LLM의 비결정적 특성으로 인해 기존의 단순 문자열 일치 방식 테스트는 무의미하며 점수와 임계값 기반의 신뢰도 평가 모델로 전환해야 한다.

Ruby-News | 루비 AI 뉴스

Ended the weekend and welcomed the weekend with Duets by Ravi Shankar & Ali Akbar Khan, Alla Rakha, released by His Master's Voice as part of their Music from India series in 1965.

Top ragas with a blend of sitar and sarod to start the week

https://www.youtube.com/watch?v=N_IvEotyD6M

#RaviShankar #AliAkbarKhan #Sitar #Sarod #Tabla #Tamboura #HindustaniClassical #Ragas #India #Music

RAG Testing: как не сломать retrieval

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

https://habr.com/ru/articles/1001682/

#rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

RAG Testing: как не сломать retrieval

TL;DR: Шесть метрик RAGAS + Precision@K/Recall@K/MRR позволяют поймать деградацию RAG-системы до того, как пользователи заметят галлюцинации. В этой статье будет всё от pip install ragas до...

Хабр