Как оценивать ИИ-агентов в проде: нижняя планка, трассы и кодовые проверки
Если агент уже ходит в инструменты, читает документы, меняет состояние системы и принимает часть решений сам, проверка одного промпта почти ничего не говорит о надежности. Нужно смотреть на весь путь: вход, найденный контекст, вызовы инструментов, промежуточные состояния, итоговый ответ и побочные эффекты. Ниже - рабочая схема, как строить такие проверки до релиза и после выхода в прод.
https://habr.com/ru/articles/1040756/
#eval #ai #aiагенты #llm #тестирование #data_analysis #агенты_в_продакшене #агенты_ии #трассировка #harness_engineering



