Как тестировать 5 LLM-агентов одним набором тестов: capability-based подход
В [прошлой статье]( https://habr.com/ru/articles/1049482/ ) я разбирала, почему классический QA ломается на LLM: нет одного эталонного ответа, один и тот же тест плавает от прогона к прогону, зелёный прогон ничего не гарантирует. Это была статья про осознание проблемы. Эта — про то, как с этим жить в коде, когда агентов не один, а несколько.
https://habr.com/ru/articles/1050252/
#llm #тестирование #ai_агенты #qa #multiagent #evals #playwright



