Evals: что должен знать каждый AI-инженер в 2026

В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу – данные примерно 1200 компаний, позже заявив, что «сделал катастрофическую ошибку». Operator от OpenAI, которого попросили всего лишь найти дешевые яйца, сам купил их на Instacart на $31.43 – в обход собственного подтверждения покупки. Официальный чатбот мэрии Нью-Йорка советовал предпринимателям нарушать закон : говорил, что можно забирать чаевые работников и отказывать арендаторам с жилищными ваучерами Section 8. Эти и другие инциденты сведены в обзоре «Towards a Science of AI Agent Reliability» , где каждый разделен по характеру сбоя: тяжесть вреда, нарушение полномочий, плохая калибровка. Ни один из этих случаев не всплыл бы в обычном демо. И ни один бенчмарк про них заранее бы не предупредил. Публичные бенчмарки полезны – по ним видно, какая модель в целом сильнее и куда движется фронтир. Но они отвечают на другой вопрос. Высокий балл на лидерборде не говорит, справляется ли система с вашими задачами: для этого нужны собственные evals и бенчмарки под конкретные задачи. А часть аспектов – безопасность, устойчивость к злоупотреблениям, поведение под атакой – бенчмарком в принципе не измерить; в этих случаях работает red-teaming. Современная AI-система – это модель в симбиозе с retrieval, tools, memory, routing, prompts, state, permissions. Вы ответственны за всю систему и хотите понимать, как хорошо работает именно она, в то время как публичный бенчмарк измеряет только модель.

https://habr.com/ru/articles/1050736/

#evals #LLM #AIагенты #бенчмарки #надёжность_AI #LLMasjudge #SWEbench #MLOps #AIинжиниринг #тестирование

Evals: что должен знать каждый AI-инженер в 2026

В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу – данные примерно 1200 компаний, позже заявив, что «сделал катастрофическую...

Хабр

Система авто-оценки качества вебинаров на Claude Code за неделю

Собрал на Claude Code конвейер авто-оценки качества вебинаров: локальная расшифровка whisper.cpp на Apple M4, LLM-судья по рубрике с цитатами и тайм-кодами, SQLite, письмо и дашборд. Главное оказалось не в промпте, а в методике: рубрика как данные, калибровка под методистов и то, чего текст расшифровки не тянет.

https://habr.com/ru/articles/1050088/

#llm #llmasjudge #claudecode #whisper #yandexgpt #sqlite #edtech #оценкакачества

Система авто-оценки качества вебинаров на Claude Code за неделю

TL;DR Методисты вручную пересматривали вебинары - не масштабируется. Собрал конвейер: видео → локальная расшифровка (whisper.cpp на Apple M4) → LLM-судья по рубрике с цитатами → SQLite → письмо и...

Хабр

LLM-судья для нейроразбора резюме на hh

Создать LLM-судью легко. Гораздо сложнее сделать так, чтобы его оценкам можно было доверять. Мы убедились в этом на практике при разработке нейроразбора резюме для ИИ-помощника hh.ru . Быстро выяснилось, что хороший LLM-судья — это отдельный продукт со своими рубриками, датасетами, метриками качества и стоимостью эксплуатации. Меня зовут Женя Орлов, я LLM Eval Lead. В этой статье расскажу, как мы проектировали систему оценки для нейроразбора резюме, почему отказались от наивных подходов и какие выводы сделали по ходу разработки.

https://habr.com/ru/companies/hh/articles/1050174/

#llm #llmархитектура #llmasajudge #llmasjudge #ai #ai_quality #quality_assurance

LLM-судья для нейроразбора резюме на hh

Создать LLM-судью легко. Гораздо сложнее сделать так, чтобы его оценкам можно было доверять. Мы убедились в этом на практике при разработке нейроразбора резюме для ИИ-помощника hh.ru . Быстро...

Хабр

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы это работало именно на русской еде — борщи, гречки, котлеты по-домашнему. В какой-то момент стало некомфортно: я не знал, насколько модель вообще точна. «Кажется, работает нормально» — плохой ответ, если хочешь что-то улучшать. Решил померять нормально. Расскажу, что и как мерил, что получил — и про неожиданный вывод в конце, ради которого, честно говоря, и стоило это всё делать. Спойлер: распознавание оказалось готовым к проду (93.9%), а вот confidence от модели — почти константой, на которой нельзя строить логику. И главная ошибка в калориях пряталась совсем не там, где я её искал.

https://habr.com/ru/articles/1046914/

#LLM #бенчмарк #распознавание_еды #computer_vision #RAG #Gemini #подсчёт_калорий #LLMasjudge #оценка_качества_моделей #нутриенты

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы это работало именно на русской еде — борщи,...

Хабр

Plan-tango: как я перестал гонять план между Claude Code и Codex руками

Codex стабильно находит в моих планах разработки то, чего Claude в своём же плане не видит. Я заметил это в первые недели после покупки GPT Pro — и теперь не сажусь писать код, пока план не пройдёт хотя бы один раунд cross-review. В тексте — как из ручной возни с переключением вкладок Claude Code ↔ Codex вырос plan-tango: команда в Claude Code, которая сама гоняет план через Codex CLI, пока не останется замечаний.

https://habr.com/ru/articles/1040602/

#claude_code #codex #crossreview #llmasjudge #plantango #aiagents #workflow #planning #pairprogramming #codex_cli

Plan-tango: как я перестал гонять план между Claude Code и Codex руками

Codex стабильно находит в моих планах разработки вещи, которые Claude в своём же плане не видит. Я заметил это в первые несколько дней после покупки GPT Pro — и с тех пор стараюсь не садиться писать...

Хабр

Как Gemini CLI поймал у моего Claude Code критическую дыру в paywall за 30 секунд

Solo-фаундер. Делаю всё через Claude Code. На прошлой неделе он спроектировал мне систему loyalty-кредитов, я перечитал четыре раза, собрался релизить. Сказал Claude: «обсуди это с Gemini». Через 30 секунд получил verdict: «You are literally paying users to NOT subscribe». Я забыл daily refill в своей формуле. Free tier выходил выгоднее платного на 38%. Я бы катил это в прод. Один запрос — два critical bug’а до релиза. 30 секунд. $0.

https://habr.com/ru/articles/1028104/

#Claude_Code #Gemini_CLI #LLMasjudge #AIревью #crossmodel_critique #prompt_engineering #AIагенты #solo_founder

Как Gemini CLI поймал у моего Claude Code критическую дыру в paywall за 30 секунд

Solo-фаундер. Делаю всё через Claude Code. На прошлой неделе он спроектировал мне систему loyalty-кредитов, я её четыре раза перечитал и собрался релизить. Сказал Claude: «обсуди это с Gemini». Через...

Хабр

Google Stax just turned its LLM into a judge, automatically scoring model outputs against your own criteria. This opens up open‑source benchmarking, letting developers run fast, reproducible evaluations without hand‑crafting metrics. Curious how it works and what it means for AI research? Dive in for the details. #LLMasJudge #AIevaluation #GoogleStax #PromptBenchmarking

🔗 https://aidailypost.com/news/google-stax-uses-llm-as-judge-autoevaluate-model-outputs-by-your

월 $1,500에서 $300으로, LLM API 비용 80% 절감 실전 사례

LLM API 비용을 월 $1,500에서 $300으로 80% 절감한 실전 사례. 실제 프롬프트로 벤치마킹하는 5단계 방법과 자동화 도구를 소개합니다.

https://aisparkup.com/posts/8554