Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их работы и как меняются требования к безопасности, трассировке и эксплуатации таких архитектур.

https://habr.com/ru/companies/otus/articles/1017734/

#агентные_системы #AIагенты #мультиагентные_системы #LLM #Agentic_AI #безопасность_ИИ #контроль_агентов #трассировка_решений #tool_calling #ModelOps

Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

Переход от простых чат‑ботов к автономным агентным системам требует новых метрик контроля и понимания, насколько эффективно агенты взаимодействуют друг с другом и насколько точно они...

Хабр

NVIDIA захватывает AI, Cursor на китайской модели, SambaNova бьет GPU: ML‑дайджест

Мартовские анонсы показывают, куда движется AI‑инфраструктура : NVIDIA выпускает новые чипы, хранилища и оркестрацию под agentic AI, стартап с $2 млрд дохода использует китайскую базу под видом «frontier», а SambaNova обещает GPU‑убийцу. Разбираемся, что ждет мир нейросетей в ближайшие годы. Извлечь инсайты

https://habr.com/ru/companies/selectel/articles/1015864/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1015864

#digest #дайджкст_ml #NVIDIA #AI_инфраструктура #SambaNova #GPU #нейросети #ииагенты #agentic_ai #cursor

NVIDIA захватывает AI, Cursor на китайской модели, SambaNova бьет GPU: ML‑дайджест

Мартовские анонсы показывают, куда движется AI‑инфраструктура : NVIDIA выпускает новые чипы, хранилища и оркестрацию под agentic AI, стартап с $2 млрд дохода использует китайскую базу под видом...

Хабр

NVIDIA захватывает AI, Cursor на китайской модели, SambaNova бьет GPU: ML‑дайджест

Мартовские анонсы показывают, куда движется Извлечь инсайты

https://habr.com/ru/companies/selectel/articles/1015864/

#digest #дайджкст_ml #NVIDIA #AI_инфраструктура #SambaNova #GPU #нейросети #ииагенты #agentic_ai #cursor

NVIDIA захватывает AI, Cursor на китайской модели, SambaNova бьет GPU: ML‑дайджест

Мартовские анонсы показывают, куда движется AI‑инфраструктура : NVIDIA выпускает новые чипы, хранилища и оркестрацию под agentic AI, стартап с $2 млрд дохода использует китайскую базу под видом...

Хабр

Готовим ИИ-агента к продакшену

Всем привет! На связи Сергей Смирнов, действующий и практикующий AI-инженер. ИИ интересовал меня задолго до нынешнего хайпа: ещё со времён защиты кандидатской, он всегда был для меня не панацеей, а инструментом автоматизации и решения прикладных задач. С началом «эры» генеративного ИИ я занимаюсь разработкой агентских систем — и в этой статье хочу поделиться тем, что происходит, когда агента нужно не просто запустить, а сделать так, чтобы он работал надёжно, предсказуемо и без страха отдать его реальным пользователям. Это будет своего рода дорожная карта подготовки агента к продакшену .

https://habr.com/ru/companies/llmstart/articles/1015508/

#ииагенты #rag #aiagents #llm #agentic_ai #evaluation #observability #mcp

Готовим ИИ-агента к продакшену

Готовим ИИ-агента к продакшену Всем привет! На связи Сергей Смирнов, AI-инженер в LLMStart. ИИ интересовал меня задолго до нынешнего хайпа: ещё со времён защиты кандидатской, он всегда был для меня не...

Хабр

TrueFoundry CEO가 말하는 엔터프라이즈 AI 인프라와 에이전트 경험의 미래

TrueFoundry는 Meta의 내부 플랫폼인 FBlearner에서 영감을 받아 기업이 자체 VPC 내에서 GenAI와 에이전트 AI를 안전하게 배포하고 관리할 수 있는 엔터프라이즈 AI 플랫폼을 제공한다.

🔗 원문 보기

TrueFoundry CEO가 말하는 엔터프라이즈 AI 인프라와 에이전트 경험의 미래

TrueFoundry는 Meta의 내부 플랫폼인 FBlearner에서 영감을 받아 기업이 자체 VPC 내에서 GenAI와 에이전트 AI를 안전하게 배포하고 관리할 수 있는 엔터프라이즈 AI 플랫폼을 제공한다.

Ruby-News | 루비 AI 뉴스

At a recent infosec gathering, someone described a real incident: an AI agent couldn't complete its goal due to permissions. So it found another agent on Slack with the right access and asked nicely. The other agent complied.
That's social engineering. Nobody told the agent to do that. The mission just needed to continue.
I posted an article today about what happens when we give agents goals but forget to tell them when to stop.

https://www.securityeconomist.com/never-say-die/

#agentic_ai #openclaw #airisk

Never Say Die: How We Will Pay When Agentic AI Learns to Survive

Every agent needs a mission. The problem is what happens when the mission means the agent needs to survive.

The Security Economist

I use AGENTS.md (https://agents.md) to define AI agent work discipline:

- be honest, don't aim to please
- work in small, verifiable batches
- write checkpoints
- when and how to commit
- how to document work
- decision-making hygiene
- core principles of the solution
- etc.

I then use agent skills (https://agentskills.io/) to add details and best practices.

What do you use to keep your AI agent on track?

#ai #coding #it #programming #development #agentic_ai #dev #generativeAI

AGENTS.md

AGENTS.md is a simple, open format for guiding coding agents. Think of it as a README for agents.

Цена контекста в агентной разработке: почему bottleneck — не код, а внимание человека

Пока diff небольшой, в нас просыпается хранитель инженерной чистоты: мы спорим о нейминге, замечаем лишний пробел, обсуждаем, стоило ли выносить логику в helper , но когда правка разрастается до тысяч строк, строгость уступает другому подходу: CI зелёный, тесты прошли, код выглядит вроде неплохо - можно жать Approve . С coding-агентами проблема становится более системной. Пока задача небольшая и хорошо ограничена, результат ещё можно напрямую соотнести с исходным запросом, но при асинхронной и мультиагентной работе у каждого из агентов появляются собственные подзадачи, гипотезы и хвосты незавершённых решений. Поэтому, возвращаясь в процесс, человек проверяет уже не изолированные изменения, а заново восстанавливает состояние задачи - что именно было задумано, что уже проверено, какие инварианты теперь считаются действующими и где остался риск. И именно здесь ломается наивный human-in-the-loop , а большой diff - является лишь симптомом. Настоящее узкое место - стоимость повторного входа в контекст: формально человек остаётся в процессе, но фактически его роль всё чаще сводится к механическому одобрению, в свою очередь дефицитом становится не машинная производительность, а человеческое внимание. В прошлой статье о контекстной инженерии для coding-агентов я писал о памяти агента. Здесь - о том, какая память и какие механизмы контроля нужны уже человеку.

https://habr.com/ru/articles/1008344/

#мультиагентная_разработка #ИИагенты #agentic_AI #code_review #context_switching #humanintheloop #quality_gates #контекстная_инженерия #AIassisted_development

Цена контекста в агентной разработке: почему bottleneck — не код, а внимание человека

Пока diff небольшой, в нас просыпается хранитель инженерной чистоты: мы спорим о нейминге, замечаем лишний пробел, обсуждаем, стоило ли выносить логику в helper , но когда правка разрастается до тысяч...

Хабр

Что можно понять только написав своего агента для кодинга

Сейчас агентов пишут все. Ваш сосед пишет агента. Ваш кот, вероятно, тоже, просто пока не пушит на GitHub. И если вы ещё не начали, то как минимум думали об этом в душе, прикидывая архитектуру между шампунем и кондиционером. Чем интересен именно кодинг-агент? Это идеальная ловушка для самоуверенного разработчика. Цель кристально ясна : читай код, пойми его, измени, проверь. Что может пойти не так? (Спойлер: вообще всё.) Под этой обманчивой простотой скрывается хаос — модели, которые обходят ваши ограничения с грацией уличного кота, инструменты, ломающиеся способами, о которых вы не подозревали, и промпты, которые прекрасно работают ровно до момента обновления модели на одну минорную версию. Я построил такого агента, тут расскажу что я узнал — и, надеюсь, этого хватит, чтобы вы захотели повторить мой путь. Или хотя бы посочувствовать. Что я собственно построил Назвал я его QuillCode . Звучит солидно, а внутри — вот что:

https://habr.com/ru/articles/1007720/

#agentic_coding #agentic_ai #agentic_engineering #software_engineering #software_development #claude_code

Что можно понять только написав своего агента для кодинга

Сейчас агентов пишут все. Ваш сосед пишет агента. Ваш кот, вероятно, тоже, просто пока не пушит на GitHub. И если вы ещё не начали, то как минимум думали об этом в душе, прикидывая архитектуру между...

Хабр

Почему Perplexity Computer — один из самых главных релизов в мире AI

Perplexity тихо выпустила Perplexity Computer — и есть ощущение, что рынок пока не до конца осознал масштаб этого шага. На поверхности это выглядит как ещё один режим внутри знакомого интерфейса. Но по сути — это заявка на новый уровень агентных систем. В этой статье разберём, что именно представляет собой Perplexity Computer, какие возможности он открывает уже сейчас, чем отличается от OpenClaw и почему этот релиз может оказаться стратегически важным для всего рынка AI‑агентов.

https://habr.com/ru/companies/first/articles/1003788/

#perplexity #openclaw #ai #llm #chatgpt #cloude #agent #agentic_ai #perplexity_ai

Почему Perplexity Computer — важный релиз в мире AI

Perplexity тихо выпустила Perplexity Computer — и есть ощущение, что мы пока не до конца осознали масштаб этого шага. На поверхности это выглядит как ещё один режим внутри знакомого интерфейса. Но по...

Хабр