Интересное в графике - не то что 8 часовые задачи (с успешностью 50%) прогнозируются в ~середине этого года, а то, как уныло выглядит график, если переключить на 80% успешность (там нечто вроде 15 минут на начало 2026, а не 4.5 часа как на 50%).

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

#LLM #METR #evals #llm_evals #ai_evals

Measuring AI Ability to Complete Long Tasks

[Перевод] Руководство по созданию системы оценки качества AI

Как создать трехуровневую систему оценки качества работы AI, которая ускорит разработку Основываясь на кейсах 30+ проектов, с примерами и шаблонами

https://habr.com/ru/articles/905070/

#искусственный_интеллект #AI_Evals #продактменеджмент #разработка #llm #тестирование #качество #итерации #finetuning #метрики

Руководство по созданию системы оценки качества AI

Всем привет! Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые...

Хабр