Minko Gechev (@mgechev)

에이전트 스킬(agent skills) 관리의 주요 문제점을 지적한 트윗으로, 단락 하나의 변경이 스킬을 회귀시키거나 검색 불가능하게 만들 수 있음을 경고. 스킬 파일 변경의 영향을 파악하기 위해 CI에 evals를 추가할 것을 권장함.

https://x.com/mgechev/status/2031058196849373457

#agentskills #evals #ci #mlops

Minko Gechev (@mgechev) on X

Major challenge with agent skills is that changing a paragraph my regress your skill or make it completely non discoverable... Adding evals in your CI will help you understand the impact of the changes to your skill files https://t.co/du2Tadxx7x

X (formerly Twitter)
Eval awareness in Claude Opus 4.6’s BrowseComp performance \ Anthropic

"Instead of inadvertently coming across a leaked answer, Claude Opus 4.6 independently hypothesized that it was being evaluated, identified which benchmark it was running in, then located and decrypted the answer key. To our knowledge, this is the first documented instance of a model suspecting it is being evaluated without knowing which benchmark was being administered, then working backward to successfully identify and solve the evaluation itself."

https://www.anthropic.com/engineering/eval-awareness-browsecomp

#ai #claude #evals #llms
Eval awareness in Claude Opus 4.6’s BrowseComp performance

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

AI 에이전트 비결정성 문제, 실전에서 통하는 두 가지 해법

AI 에이전트가 지시를 무시하는 비결정성 문제, 가드레일로 행동을 강제하는 방법과 Evals로 AGENTS.md 자체를 검증하는 두 가지 실전 해법을 소개합니다.

https://aisparkup.com/posts/9647

Tried out the free consumer version of ChatGPT today for a benchmark. Normally I only work via foundational model APIs or Claude Code w/ latest Opus. Free ChatGPT (currently GPT‑5.2) performance was nightmarish: authoritative-sounding answers but 0 citations, and thinking is not enabled by default. No wonder so many people complain about bad experiences with AI...

#chatgpt #llms #claude #benchmark #evals

Chubby (@kimmonismus)

Sonnet 4.6 관련 유출 정보가 사실로 확인되었고, 중급(미드티어) 모델임에도 불구하고 평가 결과가 매우 우수하다는 보고입니다. 또한 1백만 토큰(1M) 컨텍스트 윈도우를 지원해 대용량 문맥 처리와 장문 이해에서 큰 개선이 기대됩니다.

https://x.com/kimmonismus/status/2023819822992117955

#sonnet4.6 #contextwindow #llm #evals

Chubby♨️ (@kimmonismus) on X

Sonnet 4.6: Leaks were valid! Very very good evals for the mid-tier model! It also features a 1M token context window

X (formerly Twitter)

Интересное в графике - не то что 8 часовые задачи (с успешностью 50%) прогнозируются в ~середине этого года, а то, как уныло выглядит график, если переключить на 80% успешность (там нечто вроде 15 минут на начало 2026, а не 4.5 часа как на 50%).

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

#LLM #METR #evals #llm_evals #ai_evals

Measuring AI Ability to Complete Long Tasks

LLM Evals: Everything You Need to Know – Hamel’s Blog - Hamel Husain

A comprehensive guide to LLM evals, drawn from questions asked in our popular course on AI Evals. Covers everything from basic to advanced topics.

Hamel's Blog - Hamel Husain

Почему ваше AI-решение не окупается. Фреймворк OpenAI, который все пропустили

OpenAI опубликовали фреймворк, на который мало кто обратил внимание. Исследование OpenAI (да и не только их) показало: компании внедряют ИИ, но часть из них не получает ожидаемого эффекта. В этом фреймворке на мой взгляд обозначены принципы отделяющие посредственные решения от тех которые делают внедрение AI в бизнес эффективным. https://openai.com/index/evals-drive-next-chapter-of-ai/ KPI и OKR остаются бизнес-целями. Evals — метрики, которые показывают, как AI помогает достигать целей. Либо evals становятся частью KPI, либо контролируют качество AI, который двигает показатели вверх. Это нужно, если бизнесу важны: - Понятный путь к окупаемости (ROI) - Свести критические ошибки к минимуму - Предсказуемость результатов для клиентов - AI, который выдерживает рост нагрузки без сбоев Evals – конкурентное преимущество. Промпты скопируют, архитектуру evals – нет. Это скрытый слой, который недоступен ни поставщикам моделей, ни конкурентам.Evals гарантируют стабильность при обновлениях промптов, переходе на другие модели или архитектуру. Так AI-решение постоянно улучшается под задачи бизнеса не теряя в качестве. Фреймворк OpenAI из 3 шагов: 1. Определение – превратите размытые цели в конкретные: "Конвертировать письма компаний с бюджетом 100K+ в демо, сохраняя стиль бренда" 2. Измерение – тестируйте на клиентских запросах и пограничных случаях 3. Улучшение – развивайте на основе результатов тестов, а не надейтесь на удачу Для этого процесса создали BotMetrica.com – слой надёжности, который делает AI готовым к промышленному использованию. В ближайшие дни поделюсь тем, как BotMetrica формализует каждый шаг этого процесса с конкретными примерами. "Don't hope for 'great.' Specify it, measure it, and improve toward it" / "Не полагайтесь на удачу. Определите 'отличное', измерьте и улучшайте" – OpenAI Пишите в личку – отвечу на вопросы и покажу сервис: @ovashchukov или на oleg@botmetrica.com

https://habr.com/ru/articles/971432/

#AI #evals #OpenAI #метрики #KPI #ROI #LLM #prompt_engineering #AI_evaluation #testing

[Перевод] LLM Evals: движущая сила новой эры ИИ в бизнесе

На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, очень уж бюрократический язык в оригинале. Статью авторы называют «руководством для бизнес-лидеров». Внутри — про оценку недетерминированных систем, как к этому подходить, немного про A/B тесты и почему не стоит пытаться решить все сразу. Классический цикл фиксации метрики и постепенного ее улучшения, но с LLM спецификой. Так что это стоит прочитать как сборник хороших практик для LLM-систем. Дальше — слово OpenAI.

https://habr.com/ru/articles/969358/

#ии #искусственный_интеллект #LLM #openai #evals #benchmarks #бенчмарки #llm_evals #оценки #chatgpt

LLM Evals: движущая сила новой эры ИИ в бизнесе

На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей...

Хабр
Why it takes months to tell if new AI models are good www.seangoedecke.com/are-new-models… #AI #evals #benchmarks #vibes
Why it takes months to tell if new AI models are good

--