Основные метрики DeepEval для тестирования AI. Возможности и способы применения
DeepEval - фреймворк для оценки работы AI с открытым исходным кодом. Содержит в себе множество метрик и бенчмарков для оценки качества работы AI моделей, а также предоставляет инструменты для аналитики изменений качества работы в течение разных периодов времени. В предыдущей статье мы уже частично осветили имеющиеся у DeepEval метрики (метрики для оценки RAG). В этой статье постараемся объяснить, какой еще функционал предлагается DeepEval для работы с AI.
https://habr.com/ru/articles/955314/
#тестирование #ai #искусственный_интеллект #искусственный_интелект #aiagent #aiагенты #mcpserver #conversational_ai #multimodal_llm #multimodal_large_language_models


