Minko Gechev (@mgechev)
에이전트 스킬(agent skills) 관리의 주요 문제점을 지적한 트윗으로, 단락 하나의 변경이 스킬을 회귀시키거나 검색 불가능하게 만들 수 있음을 경고. 스킬 파일 변경의 영향을 파악하기 위해 CI에 evals를 추가할 것을 권장함.
Minko Gechev (@mgechev)
에이전트 스킬(agent skills) 관리의 주요 문제점을 지적한 트윗으로, 단락 하나의 변경이 스킬을 회귀시키거나 검색 불가능하게 만들 수 있음을 경고. 스킬 파일 변경의 영향을 파악하기 위해 CI에 evals를 추가할 것을 권장함.
AI 에이전트 비결정성 문제, 실전에서 통하는 두 가지 해법
AI 에이전트가 지시를 무시하는 비결정성 문제, 가드레일로 행동을 강제하는 방법과 Evals로 AGENTS.md 자체를 검증하는 두 가지 실전 해법을 소개합니다.Tried out the free consumer version of ChatGPT today for a benchmark. Normally I only work via foundational model APIs or Claude Code w/ latest Opus. Free ChatGPT (currently GPT‑5.2) performance was nightmarish: authoritative-sounding answers but 0 citations, and thinking is not enabled by default. No wonder so many people complain about bad experiences with AI...
Chubby (@kimmonismus)
Sonnet 4.6 관련 유출 정보가 사실로 확인되었고, 중급(미드티어) 모델임에도 불구하고 평가 결과가 매우 우수하다는 보고입니다. 또한 1백만 토큰(1M) 컨텍스트 윈도우를 지원해 대용량 문맥 처리와 장문 이해에서 큰 개선이 기대됩니다.
Интересное в графике - не то что 8 часовые задачи (с успешностью 50%) прогнозируются в ~середине этого года, а то, как уныло выглядит график, если переключить на 80% успешность (там нечто вроде 15 минут на начало 2026, а не 4.5 часа как на 50%).
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
Почему ваше AI-решение не окупается. Фреймворк OpenAI, который все пропустили
OpenAI опубликовали фреймворк, на который мало кто обратил внимание. Исследование OpenAI (да и не только их) показало: компании внедряют ИИ, но часть из них не получает ожидаемого эффекта. В этом фреймворке на мой взгляд обозначены принципы отделяющие посредственные решения от тех которые делают внедрение AI в бизнес эффективным. https://openai.com/index/evals-drive-next-chapter-of-ai/ KPI и OKR остаются бизнес-целями. Evals — метрики, которые показывают, как AI помогает достигать целей. Либо evals становятся частью KPI, либо контролируют качество AI, который двигает показатели вверх. Это нужно, если бизнесу важны: - Понятный путь к окупаемости (ROI) - Свести критические ошибки к минимуму - Предсказуемость результатов для клиентов - AI, который выдерживает рост нагрузки без сбоев Evals – конкурентное преимущество. Промпты скопируют, архитектуру evals – нет. Это скрытый слой, который недоступен ни поставщикам моделей, ни конкурентам.Evals гарантируют стабильность при обновлениях промптов, переходе на другие модели или архитектуру. Так AI-решение постоянно улучшается под задачи бизнеса не теряя в качестве. Фреймворк OpenAI из 3 шагов: 1. Определение – превратите размытые цели в конкретные: "Конвертировать письма компаний с бюджетом 100K+ в демо, сохраняя стиль бренда" 2. Измерение – тестируйте на клиентских запросах и пограничных случаях 3. Улучшение – развивайте на основе результатов тестов, а не надейтесь на удачу Для этого процесса создали BotMetrica.com – слой надёжности, который делает AI готовым к промышленному использованию. В ближайшие дни поделюсь тем, как BotMetrica формализует каждый шаг этого процесса с конкретными примерами. "Don't hope for 'great.' Specify it, measure it, and improve toward it" / "Не полагайтесь на удачу. Определите 'отличное', измерьте и улучшайте" – OpenAI Пишите в личку – отвечу на вопросы и покажу сервис: @ovashchukov или на oleg@botmetrica.com
https://habr.com/ru/articles/971432/
#AI #evals #OpenAI #метрики #KPI #ROI #LLM #prompt_engineering #AI_evaluation #testing
[Перевод] LLM Evals: движущая сила новой эры ИИ в бизнесе
На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, очень уж бюрократический язык в оригинале. Статью авторы называют «руководством для бизнес-лидеров». Внутри — про оценку недетерминированных систем, как к этому подходить, немного про A/B тесты и почему не стоит пытаться решить все сразу. Классический цикл фиксации метрики и постепенного ее улучшения, но с LLM спецификой. Так что это стоит прочитать как сборник хороших практик для LLM-систем. Дальше — слово OpenAI.
https://habr.com/ru/articles/969358/
#ии #искусственный_интеллект #LLM #openai #evals #benchmarks #бенчмарки #llm_evals #оценки #chatgpt