コーディングエージェントの実行過程を検証する Agent as a Judge をフィードバックループに導入する
https://developers.cyberagent.co.jp/blog/archives/64354/
コーディングエージェントの実行過程を検証する Agent as a Judge をフィードバックループに導入する
https://developers.cyberagent.co.jp/blog/archives/64354/
Yeah, did they mean 1 year? lmao.
Claude Code is an agentic command line tool released in February 2025 that enables developers to delegate coding tasks directly from their terminal using natural language prompts.
Как объяснить вайбкодеру, что “работает” — не значит “сделано нормально”
Вайб-кодер в чистой форме — человек, который вообще не имеет отношения к разработке — физически не способен оценить код. Для него работает = работает. А я утверждаю: код, сгенерированный нейронкой, всё равно будет более плоским, более ущербным и менее оптимальным, чем код живого разработчика. Проблема в том, как это доказать человеку, который код читать не умеет. Поэтому зайдём через аналогию, которую может проверить КАЖДЫЙ — через тексты.
https://habr.com/ru/articles/1052616/
#LLM #нейросети #вайбкодинг #Claude_Code #качество_кода #code_review #технический_долг #фриланс #искусственный_интеллект #программирование
Граф кода одной командой: ставим graphlens-mcp в проект и перестаём жечь токены на grep
В первых двух статьях я сделал две вещи и обе — честно. Описал движок graphlens: как он берёт исходники на Python, TypeScript, Go, Rust и PHP и нормализует их в единый типизированный граф — узлы-символы, type-aware рёбра ( CALLS , HAS_TYPE , INHERITS_FROM ), детерминированные SHA-256 ID, межъязыковые границы. И померил его: 936 прогонов на apache/superset (~400k строк, Python + TypeScript, граница /api/v1/... ). Вывод — на задачах анализа влияния структурный граф бьёт grep по стоимости в 10–23 раза, а на точечных запросах разница почти нулевая. Но была дыра, о которой я в обеих статьях молчал. Движок — это не продукт. Чтобы реально подключить graphlens к агенту, недостаточно pip install и API. Нужно написать кучу обвязки. Эта статья — про то, как я эту обвязку оформил в отдельный продукт graphlens-mcp , который ставится одной командой и сразу начинает работать. Он в alpha, он бесплатный (MIT), и его можно потестить на своём проекте за пять минут.
https://habr.com/ru/articles/1052776/
#graphlens #MCP #граф_кода #кодовые_агенты #Claude_Code #LLM #статический_анализ_кода #оптимизация_токенов #Python #treesitter
Код от нейронки плоский — как и её тексты. Только в тексте это заметно всем
Вайб-кодер в чистой форме — человек, который вообще не имеет отношения к разработке — физически не способен оценить код. Для него работает = работает. А я утверждаю: код, сгенерированный нейронкой, всё равно будет более плоским, более ущербным и менее оптимальным, чем код живого разработчика. Проблема в том, как это доказать человеку, который код читать не умеет. Поэтому зайдём через аналогию, которую может проверить КАЖДЫЙ — через тексты.
https://habr.com/ru/articles/1052616/
#LLM #нейросети #вайбкодинг #Claude_Code #качество_кода #code_review #технический_долг #фриланс #искусственный_интеллект #программирование
Разработчики больше не нужны? Новое исследование Anthropic на 400 000 сессий — и мой спор с ним
«Разработчики больше не нужны»? Так читается вывод нового исследования Anthropic — ~400 000 реальных сессий Claude Code за полгода. По их данным, с AI-агентами выигрывает не тот, кто умеет кодить, а тот, кто разбирается в своём деле: у не-программистов 26% успеха против 30% у разработчиков, разница всего 4 пункта. Эксперт запускает в 2.4× больше действий агента и вчетверо чаще вытаскивает зависшую сессию. А вот с их выводом я не согласен. С цифрами вопросов нет — но вытащили из них не то. Эксперт-одиночка и правда соберёт прототип быстрее инженера. Только без инженера он не покроет это тестами, не заложит масштабирование и безопасность — и продукт ляжет при первой же нагрузке. Разбираю исследование по цифрам, рассказываю, где это сходится с тем, что я писал раньше, и почему рабочая связка одна: эксперт предметной области + инженер, который знает harness вокруг агентов.
https://habr.com/ru/articles/1052348/
#AIагенты #LLM #Claude_Code #вайбкодинг #промптинжиниринг #управление_разработкой
Несколько LLM-агентов в одном Chrome: изоляция вкладок без потери логинов
Когда у вас один AI-агент в браузере, всё просто. Когда их пять и они параллельно ходят по разным сайтам через Playwright MCP, начинается война за вкладку. Штатный @playwright /mcp работает в общем BrowserContext, и агенты перехватывают страницы друг у друга. Отдельный контекст через newContext() решает изоляцию, но убивает логины. На основании собственных мучений, в этой статье разбираю, как получить и то, и другое: изолированные окна на каждого агента с общими куками профиля, используя недокументированный contextGetter в createConnection. С кодом, граблями и честными ограничениями.
https://habr.com/ru/articles/1052062/
#playwright #mcp #chrome_devtools_protocol #browser_automation #llm_agents #claude_code
[Перевод] Loop Engineering: 14 шагов от промптера до архитектора систем
Два года работа c AI-агентами для написания кода выглядели одинаково: написать промпт, передать контекст, прочитать дифф, написать следующий промпт. Агент был инструментом, человек держал его за руку от начала до конца. Эта схема устаревает. Loop Engineering: сборка небольшой системы, которая сама находит задачу, передаёт её агенту, проверяет результат, фиксирует, что произошло, и решает, что делать дальше. Систему проектируют один раз, дальше она сама промптит агента. Материал собран из инженерной документации Anthropic, эссе Эдди Османи (Addy Osmani) о loop engineering и недавних замеров продуктивности.
https://habr.com/ru/articles/1051834/
#loop_engineering #AIагенты #Claude_Code #Codex #MCP #автоматизация_разработки #prompt_engineering #subагенты #security
Сколько стоит контекст для кодового агента: grep vs граф vs LSP на большом проекте (936 прогонов)
Я взял одного и того же агента (Claude Code), менял у него ровно одну вещь — какой MCP-сервер отдаёт контекст по коду, — и гонял по 26 задачам на apache/superset . Четыре «руки»: filesystem (grep + read), graphlens (структурный граф), serena (LSP) и codegraph . Три модели (haiku / sonnet / opus), три сида — 936 прогонов . Главный результат: вывод переворачивается в зависимости от типа задачи. Смотреть цифры
https://habr.com/ru/articles/1051504/
#MCP #LLMагенты #Claude_Code #бенчмарк #graphlens #code_intelligence #статический_анализ_кода #LSP #codegraph #AI_для_разработки

Продолжение статьи про graphlens . Там я описал, что инструмент делает и как устроен, и по дороге уверенно заявил, что «агент жжёт токены, бегая grep'ом по репозиторию». Заявил — но ни одной цифры не...
Context7 — стандарт для доков AI-агента. Я измерил 8 альтернатив и собрал бесплатную связку
Context7 — мой дефолтный источник свежих доков для агента уже полтора года. И всё устраивало, пока я не начал ловить устаревший код: старый z.string().email() вместо z.email (), поведение Next 15 вместо 16. Причина — упёрся в потолок free-тарифа: квота исчерпана, сервер молча отдаёт пусто, агент спокойно пишет по памяти. И замечаешь это не сразу — вот что бесит. Тут я и задумался: Context7 вообще всё ещё лучший вариант, или за полтора года появилось что-то лучше? Решил проверить системно. Не поверил цифрам с лендингов и прогнал 8 способов доставки доков в контекст на одном токенайзере: что реально влетает в окно, за сколько токенов, с какой точностью. Победил Ref — но он платный. А ещё дважды я чуть не записал инструмент в аутсайдеры, и оба раза виноват был мой собственный вызов, а не инструмент. В итоге собрал бесплатную связку: локальный @neuledge как основной слой + Context7 free как fallback. Локальный слой отвечает за миллисекунды вместо секунд, работает без сети и без лимитов запросов. Осталось проверить, переживёт ли связка квоту free-тарифа — замерил и это. Внутри: методология, таблицы, два разоблачённых near-miss и миграционный кит для агента в подарок.
https://habr.com/ru/articles/1051282/
#MCP #Context7 #neuledge #документация #AIагенты #Claude_Code #Codex #бенчмарки #токены #RAG