Как мы научили ИИ-агента отвечать за свои слова: 10 000 сообщений, Венгерский алгоритм и немного магии
На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Сегодня разбираем самое больное место разработки ИИ-агентов — как доказать, что они реально умнеют, а не просто пускают пыль в глаза. В статье я покажу изнанку нашей системы оценки: — Как 10 000 живых переписок превратились в эталоны для тестов. — Почему стандартные метрики безжалостно валили нашего агента (и зачем нам понадобился Венгерский алгоритм из 1955 года). — И что делать, если метрика падает просто потому, что ИИ оказался умнее вашего устаревшего эталона! Читайте полный разбор с цифрами, кейсами и откровенными провалами…
https://habr.com/ru/companies/llmstart/articles/1038512/
#evaluation #метрики_качества #LLMагенты #Ragas #LangFuse #RAG #Венгерский_алгоритм #AIdriven_разработка #LangChain #langchain_агенты

Как мы научили ИИ-агента отвечать за свои слова: 10 000 сообщений, Венгерский алгоритм и немного магии
Как мы научили ИИ-агента отвечать за свои слова: 10 000 сообщений, Венгерский алгоритм и немного магии На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru . Мы делаем AI-системы для бизнеса....





CyberAgent Developers Bl

