コーディングエージェントの実行過程を検証する Agent as a Judge をフィードバックループに導入する
https://developers.cyberagent.co.jp/blog/archives/64354/

#developers #エンジニア #AI #AI_Agent #Claude_Code #LLM #生成AI

コーディングエージェントの実行過程を検証する Agent as a Judge をフィードバックループに導入する | CyberAgent Developers Blog

はじめに サイバーエージェントのアニメ Tech STUDIO でソフトウェアエンジニアをしている、 ...

CyberAgent Developers Blog

Yeah, did they mean 1 year? lmao.

Claude Code is an agentic command line tool released in February 2025 that enables developers to delegate coding tasks directly from their terminal using natural language prompts.

Claude (AI) - Wikipedia

Как объяснить вайбкодеру, что “работает” — не значит “сделано нормально”

Вайб-кодер в чистой форме — человек, который вообще не имеет отношения к разработке — физически не способен оценить код. Для него работает = работает. А я утверждаю: код, сгенерированный нейронкой, всё равно будет более плоским, более ущербным и менее оптимальным, чем код живого разработчика. Проблема в том, как это доказать человеку, который код читать не умеет. Поэтому зайдём через аналогию, которую может проверить КАЖДЫЙ — через тексты.

https://habr.com/ru/articles/1052616/

#LLM #нейросети #вайбкодинг #Claude_Code #качество_кода #code_review #технический_долг #фриланс #искусственный_интеллект #программирование

Как объяснить вайбкодеру, что “работает” — не значит “сделано нормально”

Привет, Хабр! Я  фрилансер ! ТГ-боты, бэкенды, AI-интеграции, с недавних пор embedded. В  прошлой статье  я показывал, как биржу залило вайб-кодерами и как просели цены на базовые...

Хабр

Граф кода одной командой: ставим graphlens-mcp в проект и перестаём жечь токены на grep

В первых двух статьях я сделал две вещи и обе — честно. Описал движок graphlens: как он берёт исходники на Python, TypeScript, Go, Rust и PHP и нормализует их в единый типизированный граф — узлы-символы, type-aware рёбра ( CALLS , HAS_TYPE , INHERITS_FROM ), детерминированные SHA-256 ID, межъязыковые границы. И померил его: 936 прогонов на apache/superset (~400k строк, Python + TypeScript, граница /api/v1/... ). Вывод — на задачах анализа влияния структурный граф бьёт grep по стоимости в 10–23 раза, а на точечных запросах разница почти нулевая. Но была дыра, о которой я в обеих статьях молчал. Движок — это не продукт. Чтобы реально подключить graphlens к агенту, недостаточно pip install и API. Нужно написать кучу обвязки. Эта статья — про то, как я эту обвязку оформил в отдельный продукт graphlens-mcp , который ставится одной командой и сразу начинает работать. Он в alpha, он бесплатный (MIT), и его можно потестить на своём проекте за пять минут.

https://habr.com/ru/articles/1052776/

#graphlens #MCP #граф_кода #кодовые_агенты #Claude_Code #LLM #статический_анализ_кода #оптимизация_токенов #Python #treesitter

Граф кода одной командой: ставим graphlens-mcp в проект и перестаём жечь токены на grep

Это третья часть серии. В части 1 я разобрал движок graphlens — что он делает и как устроен. В части 2 я прогнал бенчмарк на 936 запусков и честно показал, где граф окупается, а где нет. Эта статья —...

Хабр

Код от нейронки плоский — как и её тексты. Только в тексте это заметно всем

Вайб-кодер в чистой форме — человек, который вообще не имеет отношения к разработке — физически не способен оценить код. Для него работает = работает. А я утверждаю: код, сгенерированный нейронкой, всё равно будет более плоским, более ущербным и менее оптимальным, чем код живого разработчика. Проблема в том, как это доказать человеку, который код читать не умеет. Поэтому зайдём через аналогию, которую может проверить КАЖДЫЙ — через тексты.

https://habr.com/ru/articles/1052616/

#LLM #нейросети #вайбкодинг #Claude_Code #качество_кода #code_review #технический_долг #фриланс #искусственный_интеллект #программирование

Как объяснить вайбкодеру, что “работает” — не значит “сделано нормально”

Привет, Хабр! Я  фрилансер ! ТГ-боты, бэкенды, AI-интеграции, с недавних пор embedded. В  прошлой статье  я показывал, как биржу залило вайб-кодерами и как просели цены на базовые...

Хабр

Разработчики больше не нужны? Новое исследование Anthropic на 400 000 сессий — и мой спор с ним

«Разработчики больше не нужны»? Так читается вывод нового исследования Anthropic — ~400 000 реальных сессий Claude Code за полгода. По их данным, с AI-агентами выигрывает не тот, кто умеет кодить, а тот, кто разбирается в своём деле: у не-программистов 26% успеха против 30% у разработчиков, разница всего 4 пункта. Эксперт запускает в 2.4× больше действий агента и вчетверо чаще вытаскивает зависшую сессию. А вот с их выводом я не согласен. С цифрами вопросов нет — но вытащили из них не то. Эксперт-одиночка и правда соберёт прототип быстрее инженера. Только без инженера он не покроет это тестами, не заложит масштабирование и безопасность — и продукт ляжет при первой же нагрузке. Разбираю исследование по цифрам, рассказываю, где это сходится с тем, что я писал раньше, и почему рабочая связка одна: эксперт предметной области + инженер, который знает harness вокруг агентов.

https://habr.com/ru/articles/1052348/

#AIагенты #LLM #Claude_Code #вайбкодинг #промптинжиниринг #управление_разработкой

Разработчики больше не нужны? Новое исследование Anthropic на 400 000 сессий — и мой спор с ним

Anthropic выложила исследование на ~400 000 сессий Claude Code: успех с AI-агентами определяет не умение писать код, а понимание своего дела. Профессия почти не важна — у не-программистов 26%...

Хабр

Несколько LLM-агентов в одном Chrome: изоляция вкладок без потери логинов

Когда у вас один AI-агент в браузере, всё просто. Когда их пять и они параллельно ходят по разным сайтам через Playwright MCP, начинается война за вкладку. Штатный @playwright /mcp работает в общем BrowserContext, и агенты перехватывают страницы друг у друга. Отдельный контекст через newContext() решает изоляцию, но убивает логины. На основании собственных мучений, в этой статье разбираю, как получить и то, и другое: изолированные окна на каждого агента с общими куками профиля, используя недокументированный contextGetter в createConnection. С кодом, граблями и честными ограничениями.

https://habr.com/ru/articles/1052062/

#playwright #mcp #chrome_devtools_protocol #browser_automation #llm_agents #claude_code

Несколько LLM-агентов в одном Chrome: изоляция вкладок без потери логинов

У меня работает система из нескольких AI-агентов на базе Claude Code. Роутер принимает задачи из Telegram и раздаёт их агентам, каждый в своём топике (подробнее про это уже писал ). Агенты умеют...

Хабр

[Перевод] Loop Engineering: 14 шагов от промптера до архитектора систем

Два года работа c AI-агентами для написания кода выглядели одинаково: написать промпт, передать контекст, прочитать дифф, написать следующий промпт. Агент был инструментом, человек держал его за руку от начала до конца. Эта схема устаревает. Loop Engineering: сборка небольшой системы, которая сама находит задачу, передаёт её агенту, проверяет результат, фиксирует, что произошло, и решает, что делать дальше. Систему проектируют один раз, дальше она сама промптит агента. Материал собран из инженерной документации Anthropic, эссе Эдди Османи (Addy Osmani) о loop engineering и недавних замеров продуктивности.

https://habr.com/ru/articles/1051834/

#loop_engineering #AIагенты #Claude_Code #Codex #MCP #автоматизация_разработки #prompt_engineering #subагенты #security

Loop Engineering: 14 шагов от промптера до архитектора систем

Два года работа c AI-агентами для написания кода выглядели одинаково: написать промпт, передать контекст, прочитать дифф, написать следующий промпт. Агент был инструментом, человек держал его за руку...

Хабр

Сколько стоит контекст для кодового агента: grep vs граф vs LSP на большом проекте (936 прогонов)

Я взял одного и того же агента (Claude Code), менял у него ровно одну вещь — какой MCP-сервер отдаёт контекст по коду, — и гонял по 26 задачам на apache/superset . Четыре «руки»: filesystem (grep + read), graphlens (структурный граф), serena (LSP) и codegraph . Три модели (haiku / sonnet / opus), три сида — 936 прогонов . Главный результат: вывод переворачивается в зависимости от типа задачи. Смотреть цифры

https://habr.com/ru/articles/1051504/

#MCP #LLMагенты #Claude_Code #бенчмарк #graphlens #code_intelligence #статический_анализ_кода #LSP #codegraph #AI_для_разработки

Сколько стоит контекст для кодового агента: grep vs граф vs LSP на большом проекте (936 прогонов)

Продолжение статьи про graphlens . Там я описал, что инструмент делает и как устроен, и по дороге уверенно заявил, что «агент жжёт токены, бегая grep'ом по репозиторию». Заявил — но ни одной цифры не...

Хабр

Context7 — стандарт для доков AI-агента. Я измерил 8 альтернатив и собрал бесплатную связку

Context7 — мой дефолтный источник свежих доков для агента уже полтора года. И всё устраивало, пока я не начал ловить устаревший код: старый z.string().email() вместо z.email (), поведение Next 15 вместо 16. Причина — упёрся в потолок free-тарифа: квота исчерпана, сервер молча отдаёт пусто, агент спокойно пишет по памяти. И замечаешь это не сразу — вот что бесит. Тут я и задумался: Context7 вообще всё ещё лучший вариант, или за полтора года появилось что-то лучше? Решил проверить системно. Не поверил цифрам с лендингов и прогнал 8 способов доставки доков в контекст на одном токенайзере: что реально влетает в окно, за сколько токенов, с какой точностью. Победил Ref — но он платный. А ещё дважды я чуть не записал инструмент в аутсайдеры, и оба раза виноват был мой собственный вызов, а не инструмент. В итоге собрал бесплатную связку: локальный @neuledge как основной слой + Context7 free как fallback. Локальный слой отвечает за миллисекунды вместо секунд, работает без сети и без лимитов запросов. Осталось проверить, переживёт ли связка квоту free-тарифа — замерил и это. Внутри: методология, таблицы, два разоблачённых near-miss и миграционный кит для агента в подарок.

https://habr.com/ru/articles/1051282/

#MCP #Context7 #neuledge #документация #AIагенты #Claude_Code #Codex #бенчмарки #токены #RAG

Context7 — стандарт для доков AI-агента. Я измерил 8 альтернатив и собрал бесплатную связку

Context7 — дефолтный docs-MCP, но у free-тарифа жёсткий потолок (~1000 запросов/мес, ещё и 60/час). Когда квота исчерпана, сервер молча отдаёт пусто — и агент спокойно пишет по устаревшей памяти....

Хабр