Как оценивать ИИ-агентов в проде: нижняя планка, трассы и кодовые проверки

Если агент уже ходит в инструменты, читает документы, меняет состояние системы и принимает часть решений сам, проверка одного промпта почти ничего не говорит о надежности. Нужно смотреть на весь путь: вход, найденный контекст, вызовы инструментов, промежуточные состояния, итоговый ответ и побочные эффекты. Ниже - рабочая схема, как строить такие проверки до релиза и после выхода в прод.

https://habr.com/ru/articles/1040756/

#eval #ai #aiагенты #llm #тестирование #data_analysis #агенты_в_продакшене #агенты_ии #трассировка #harness_engineering

Как оценивать ИИ-агентов в проде: нижняя планка, трассы и кодовые проверки

Если агент уже использует инструменты, читает документы, меняет состояние системы и принимает часть решений сам, проверка одного промпта почти ничего не говорит о надежности. Нужно смотреть на весь...

Хабр

[Перевод] Как кодинг-агенты используют инструменты, память и контекст репозитория, чтобы писать код лучше

Это перевод хорошей статьи про базу того, как устроены кодинг-ассистенты и что для них важно: что такое харнесс и харнесс-инжиниринг , в чем разница просто агентной обвязки и кодинговой, что такое компактизация и почему та же самая модель в консольке ощущается мощнее, чем просто в веб-чате. Сильного хардкора и больших откровений в ней нет, но это отличный материал для старта изучения архитектуры кодинг-ассистентов и лучшего понимания, как оно работает внутри.

https://habr.com/ru/articles/1021168/

#harness #харнесс #кодингхарнесс #кодинг #кодинг_ассистенты #aiassisted_development #harness_engineering #claude_code #codex #coding_cli

Как кодинг-агенты используют инструменты, память и контекст репозитория, чтобы писать код лучше

Это перевод хорошей статьи про базу того, как устроены кодинг-ассистенты и что для них важно: что такое харнесс и харнесс-инжиниринг , в чем разница просто агентной обвязки и кодинговой, что такое...

Хабр

Как меняется delivery, когда в команде появляются агенты

AI уже ускоряет создание кода, ADR и документации, но одновременно повышает нагрузку на ревью, проверку и контроль стабильности. Поэтому следующий шаг для инженерных команд - не просто встроить AI в текущий SDLC, а пересобрать сам процесс поставки вокруг контекста, harness, quality gates и learning loop.

https://habr.com/ru/articles/1012654/

#AInative_SDLC #SDLC #LLM #coding_agents #agentic_delivery #software_delivery #harness_engineering #context_engineering #platform_engineering #управление_разработкой

Как меняется delivery, когда в команде появляются агенты

Когда LLM-интерфейсы и coding agents становятся рабочим инструментом команды, менять приходится не только инструменты, но и сам процесс поставки изменений. Команды обычно приходят к формализованному...

Хабр

Claude Code의 Python/Rust 재구현 프로젝트: claw-code 분석

Anthropic의 Claude Code 소스 유출 이후 법적 리스크를 피하기 위해 핵심 에이전트 하네스 구조를 Python으로 클린룸 재구현했다.

🔗 원문 보기

Claude Code의 핵심 아키텍처를 재구현한 claw-code: 파이썬을 넘어 러스트로의 진화

Anthropic의 Claude Code 소스 노출 직후 법적 문제를 피하기 위해 핵심 아키텍처인 에이전트 하네스를 파이썬으로 클린룸 재구현했다.

Ruby-News | 루비 AI 뉴스