Интересное в графике - не то что 8 часовые задачи (с успешностью 50%) прогнозируются в ~середине этого года, а то, как уныло выглядит график, если переключить на 80% успешность (там нечто вроде 15 минут на начало 2026, а не 4.5 часа как на 50%).

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

#LLM #METR #evals #llm_evals #ai_evals

Measuring AI Ability to Complete Long Tasks

[Перевод] LLM Evals: движущая сила новой эры ИИ в бизнесе

На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, очень уж бюрократический язык в оригинале. Статью авторы называют «руководством для бизнес-лидеров». Внутри — про оценку недетерминированных систем, как к этому подходить, немного про A/B тесты и почему не стоит пытаться решить все сразу. Классический цикл фиксации метрики и постепенного ее улучшения, но с LLM спецификой. Так что это стоит прочитать как сборник хороших практик для LLM-систем. Дальше — слово OpenAI.

https://habr.com/ru/articles/969358/

#ии #искусственный_интеллект #LLM #openai #evals #benchmarks #бенчмарки #llm_evals #оценки #chatgpt

LLM Evals: движущая сила новой эры ИИ в бизнесе

На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей...

Хабр