Как тестировать 5 LLM-агентов одним набором тестов: capability-based подход

В [прошлой статье]( https://habr.com/ru/articles/1049482/ ) я разбирала, почему классический QA ломается на LLM: нет одного эталонного ответа, один и тот же тест плавает от прогона к прогону, зелёный прогон ничего не гарантирует. Это была статья про осознание проблемы. Эта — про то, как с этим жить в коде, когда агентов не один, а несколько.

https://habr.com/ru/articles/1050252/

#llm #тестирование #ai_агенты #qa #multiagent #evals #playwright

Что перестаёт работать в тестировании, когда приходит LLM

Слева — привычный зелёный тест. Справа — то, что с ним делает LLM 13 лет я тестировала софт, где у бага был адрес: шаг 1, шаг 2, ожидаемый результат, фактический. Нажал — получил. Нажал ещё раз —...

Хабр