Пишем кодинг‑агента на Swift с нуля: неочевидные сложности очевидной идеи

Я долго пользовался разными кодинг‑агентами, и на их фоне Claude Code для меня заметно выделялся: качеством решений, удобством работы и вниманием к деталям. В какой‑то момент мне захотелось не просто пользоваться таким инструментом, а понять, что на самом деле происходит у него под капотом. Так я сел писать собственного агента на Swift, с нуля, без использования готовых решений. Довольно быстро стало понятно, что сложность не в том, чтобы вызвать модель и попросить ее сгенерировать код. Настоящая сложность начинается там, где система должна стабильно работать: удерживать контекст, пользоваться инструментами, справляться с ошибками и непредсказуемыми ответами модели. На обвязку вокруг модели и уходит почти все время. Дальше я разберу места, где это проявляется: от устройства главного цикла до управления контекстом. Многие выводы задним числом кажутся очевидными, но на практике они становятся понятны, только тогда когда строишь агента сам и упираешься в каждую проблему руками.

https://habr.com/ru/articles/1048946/

#swift #aiагенты #llm #кодингагенты #claudecode #agent_loop #context_management #tool_calling #управление_контекстом #ии

Пишем кодинг‑агента на Swift с нуля: неочевидные сложности очевидной идеи

Я долго пользовался разными кодинг‑агентами, и на их фоне Claude Code для меня заметно выделялся: качеством решений, удобством работы и вниманием к деталям. В какой‑то момент мне...

Хабр

RubyLLM 1.12: 도구를 갖춘 LLM으로서의 에이전트 구현

에이전트를 복잡한 오케스트레이션 엔진이 아닌, 도구(Tools)를 호출할 수 있는 기능을 갖춘 LLM으로 정의하며 단순함을 강조합니다.

🔗 원문 보기

RubyLLM 1.12: 도구를 갖춘 LLM으로서의 에이전트 구현

에이전트를 복잡한 오케스트레이션 엔진이 아닌, 도구(Tools)를 호출할 수 있는 기능을 갖춘 LLM으로 정의하며 단순함을 강조합니다.

Ruby-News

Ruby 및 Rails로 AI 에이전트 구축하기: 아무도 알려주지 않는 것들

AI 에이전트 구축은 툴 호출, 상태 관리, 엄격한 컨텍스트 제어가 필요한 복잡한 과정이며, 단순한 코드 리팩토링보다 훨씬 어렵습니다.

🔗 원문 보기

Ruby 및 Rails로 AI 에이전트 구축하기: 아무도 알려주지 않는 것들

AI 에이전트 구축은 툴 호출, 상태 관리, 엄격한 컨텍스트 제어가 필요한 복잡한 과정이며, 단순한 코드 리팩토링보다 훨씬 어렵습니다.

Ruby-News

Почему AI-агент с доступом к API опаснее обычного ChatGPT

Небольшое уточнение перед началом. В статье будет упоминаться некий (скриптовый) язык описания политик SIL (Security Intent Language). На его месте могло бы быть любое другое название, формат или технология. В рамках материала SIL используется исключительно как пример удобного способа описания правил поведения AI-агентов. Основная цель статьи - объяснить проблему контроля действий AI и показать один из возможных подходов к её решению.

https://habr.com/ru/articles/1042998/

#AI_Agents #Agentic_AI #LLM #Tool_Calling #Prompt_Injection #AI_Security #API_Security #RBAC #Runtime_Control #Policy_Engine

Почему AI-агент с доступом к API опаснее обычного ChatGPT

Небольшое уточнение перед началом. В статье будет упоминаться некий (скриптовый) язык описания политик SIL (Security Intent Language). На его месте могло бы быть любое другое название, формат или...

Хабр

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, долю успешных задач. Это полезно для общего контроля ситуации, но почти бесполезно для реальной диагностики системы. Например, если success rate упал с 85% до 72%, то само по себе число не объясняет причину деградации. Команда вынуждена гадать, какая часть системы вдруг начала допускать ошибки. Сломался retrieval? Модель хуже начала выбирать инструменты? Контекст загрязняется после нескольких ходов? Или система уперлась в возможности base model? При росте проекта и увеличении сложности кодовой базы, сбои начинают расти мультипликативно – ошибки всех систем начинают перемножаться между собой. В конечном итоге, команда теряет реальный контроль. Проблему решает внедрение покомпонентных eval. Они дополняют end-to-end метрики, показывая, какой слой AI-агента работает, какой деградировал – и где именно искать причину. То есть внедрение evals помогает получать метрики производительности каждого компонента вашего агента.

https://habr.com/ru/articles/1042924/

#aiагенты #llm #rag #evals #orchestration #retrieval #tool_calling #context_engineering #production #ai_infrastructure

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, долю успешных задач. Это полезно для общего...

Хабр

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

https://habr.com/ru/articles/1039292/

#aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ,...

Хабр
Microsoft Agent Framework - Building Blocks for AI Part 3 - .NET Blog

Build intelligent AI agents in .NET with the Microsoft Agent Framework. Learn how to create agents with tools, multi-turn conversations, memory, and graph-based workflows that bring together the building blocks from Parts 1 and 2.

.NET Blog

[Перевод] Локальный запуск GLM-5.1

Перевод подготовил автор канала Друг Опенсурса , приятного прочтения, заранее благодарю за подписку В этой статье мы подробно разберем процесс развертывания GLM-5.1 с использованием llama.cpp и форматов GGUF. Узнаем о системных требованиях, сборке и настройках, оптимизации и практическом применении.

https://habr.com/ru/articles/1022242/

#glm51 #llm #Llamacpp #Unsloth #GGUF #Локальный_запуск #tool_calling #Zai #искусственный_интеллект

Локальный запуск GLM-5.1

Перевод подготовил автор канала  Друг Опенсурса , приятного прочтения, заранее благодарю за подписку GLM-5.1 — это новая открытая модель от Z.ai. Она имеет 744 млрд параметров (40 млрд активных)...

Хабр

Один скилл, четыре модели — что может пойти не так

На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает. Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А модели читают по-разному. Представьте: вы написали подробное ТЗ и отдали его четырём специалистам. Все четверо — профессионалы, все мотивированы, все прочитали ТЗ целиком. Результат будет разный. Каждый делает как его учили, как привык, какой опыт накопил. И всегда есть шанс, что кто-то начнёт не с того конца или вообще решит ответить устно вместо того, чтобы сделать. Модель = работник. Скилл = ТЗ. Я взял одно ТЗ, отдал четырём работникам, и каждый выполнял его 120 раз. Вот что получилось. Забегая вперёд: скиллы работают. Но не так, как обещают. И самый интересный результат оказался не там, где я ожидал. Смотреть результаты

https://habr.com/ru/articles/1020786/

#AI_skills #LLM #tool_calling #кроссмодельное_тестирование #Claude #GPT #DeepSeek #Gemini #бенчмарк #AIагенты

Один скилл, четыре модели — что может пойти не так

На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее....

Хабр

Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их работы и как меняются требования к безопасности, трассировке и эксплуатации таких архитектур.

https://habr.com/ru/companies/otus/articles/1017734/

#агентные_системы #AIагенты #мультиагентные_системы #LLM #Agentic_AI #безопасность_ИИ #контроль_агентов #трассировка_решений #tool_calling #ModelOps

Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

Переход от простых чат‑ботов к автономным агентным системам требует новых метрик контроля и понимания, насколько эффективно агенты взаимодействуют друг с другом и насколько точно они...

Хабр