Почему мы спорим о памяти для AI-агентов

На днях наткнулся на статью про память для AI-агентов. Сама статья была вполне типичной: SQLite, хранение контекста, поиск по накопленным знаниям, экономия токенов. Но гораздо интереснее оказались комментарии. Под публикацией быстро возник спор, который на первый взгляд выглядел техническим. Одни утверждали:

https://habr.com/ru/articles/1046944/

#AI_Agents #Agent_Memory #LLM #Agentic_AI #Knowledge_Management #Context_Engineering #Longterm_Memory #Project_Memory #Retrieval_Systems #AI_Architecture

Почему мы спорим о памяти для AI-агентов

Введение На днях читал статью про память для AI-агентов — одну из тех, где рядом мирно уживаются SQLite, экономия токенов, поиск по накопленным знаниям и надежда наконец перестать кормить модель...

Хабр

Самая опасная ошибка AI‑агента — не плохой код

За последний год вокруг AI-агентов сформировался довольно устойчивый набор ожиданий. Нам обещают всё более умные модели, всё более длинные контекстные окна, всё более автономных агентов. Создаётся впечатление, что осталось решить ещё пару технических проблем — и агент сможет самостоятельно разрабатывать сложные проекты почти без участия человека. Я тоже так думал.

https://habr.com/ru/articles/1046920/

#AI_Agents #LLM #Agentic_AI #Agent_Memory #AI_Governance #AI_Safety #Human_in_the_Loop #Context_Engineering #CapabilityBased_Security #Agent_Workflow

Самая опасная ошибка AI‑агента — не плохой код

Предыстория Давеча я обсуждал в агентской сессии, почему старая задача перестала находиться после переименования проекта. Ситуация выглядела достаточно простой: у задачи был стабильный...

Хабр

Харнесс вокруг кодящего агента, или Как я создал собственного монстра

Качество работы с кодящим агентом почти не зависит от того, какая под капотом модель. Я довольно долго в это не верил — менял модели, крутил промпты, ждал следующий релиз. А разница, оказалось, не в модели. Она в том, что вокруг модели: есть ли у агента память между сессиями, карта проекта, правила, руки и место под результат. Голая модель — это эрудит без рабочего места. Каждый разговор она начинает с чистого листа. Вот это всё вокруг модели — память, карта, правила, руки — и называется харнесс. Ниже — разбор моего харнесса целиком, слой за слоем, на одном реальном проекте: пять сервисов, Kubernetes, прод. Не идеальная схема из README, а то, что видно в логах: что реально вызывается каждый день, а что я нагородил и забыл. Спойлер: половина подключённых MCP-серверов за 98 сессий не вызвалась ни разу. Сразу оговорюсь: сессии сохранились не все — у Claude Code, похоже, есть ротация логов, часть истории потерялась. Так что мои числа — это нижняя граница, реальные ещё выше.

https://habr.com/ru/articles/1045348/

#claude_code #ииагенты_для_разработки #харнесс #context_engineering #agentic_coding

Харнесс вокруг кодящего агента, или Как я создал собственного монстра

Качество работы с кодящим агентом почти не зависит от того, какая под капотом модель. Я довольно долго в это не верил — менял модели, крутил промпты, ждал следующий релиз. А разница, оказалось, не в...

Хабр

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, долю успешных задач. Это полезно для общего контроля ситуации, но почти бесполезно для реальной диагностики системы. Например, если success rate упал с 85% до 72%, то само по себе число не объясняет причину деградации. Команда вынуждена гадать, какая часть системы вдруг начала допускать ошибки. Сломался retrieval? Модель хуже начала выбирать инструменты? Контекст загрязняется после нескольких ходов? Или система уперлась в возможности base model? При росте проекта и увеличении сложности кодовой базы, сбои начинают расти мультипликативно – ошибки всех систем начинают перемножаться между собой. В конечном итоге, команда теряет реальный контроль. Проблему решает внедрение покомпонентных eval. Они дополняют end-to-end метрики, показывая, какой слой AI-агента работает, какой деградировал – и где именно искать причину. То есть внедрение evals помогает получать метрики производительности каждого компонента вашего агента.

https://habr.com/ru/articles/1042924/

#aiагенты #llm #rag #evals #orchestration #retrieval #tool_calling #context_engineering #production #ai_infrastructure

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, долю успешных задач. Это полезно для общего...

Хабр

Чем умнее модель, тем меньше ей нужно: четыре дисциплины production‑агента

Если твой агент обвешан пошаговыми инструкциями и десятком узких инструментов под каждый шаг — он, скорее всего, работает хуже, чем мог бы. Звучит контр‑интуитивно, но это прямой вывод из инженерных постов Anthropic за последний год: чем умнее становится модель, тем сильнее прежняя обвязка её сдерживает. За год правила производства агентов пересобрались. Появилось семь отдельных дисциплин. Это первая из двух частей: здесь — четыре дисциплины‑фундамента, на которых держится рабочий агент, а не демка. И три из этих четырёх — не про то, что добавить, а про то, что убрать лишнее и довериться модели.

https://habr.com/ru/articles/1042514/

#AIагенты #productionагенты #context_engineering #инженерия_контекста #Anthropic #Claude #LLM #Agent_Skills #промптинжиниринг #tool_design

Чем умнее модель, тем меньше ей нужно: четыре дисциплины production‑агента

Если твой агент обвешан пошаговыми инструкциями и десятком узких инструментов под каждый шаг — он, скорее всего, работает хуже, чем мог бы. Звучит контр‑интуитивно, но это...

Хабр

Мультимодальность в ИИ-агентах: картинки на вход, картинки на выход и отказ от Multimodal RAG

На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Сегодня разбираем мультимодальность в ИИ-агентах на реальном примере из продакшена. Мы проанализировали 258 диалогов нашего агента-консультанта по 1С и поняли: у входящих и исходящих картинок совершенно разная физика. Для входящих критично качество распознавания, а для исходящих — надежная доставка. В статье я подробно рассказываю, почему мы осознанно отказались от модного Multimodal RAG и как на самом деле нужно выбирать архитектуру под свои данные. Спойлер: экономить копейки на токенах — плохая идея, а усложнять систему стоит только тогда, когда это приносит реальные деньги.

https://habr.com/ru/companies/llmstart/articles/1039444/

#RAG #multimodal_RAG #мультимодальность #vision_LLM #imageonly #ColPali #CLIP #LLMагенты #LangChain #context_engineering

Мультимодальность в ИИ-агентах: картинки на вход, картинки на выход и отказ от Multimodal RAG

Мультимодальность в ИИ-агентах На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru . Мы делаем AI-системы для бизнеса. Сегодня разбираем мультимодальность в нашем ИИ-агенте для компании Айтон...

Хабр
TokenSpiracy: How AI Providers Are Picking Our Pockets

Your context is contaminated and you probably have no idea what you’re asking

Medium

Память на миллион, а толку ноль: как мы спасали ИИ-агента от «тупости»

На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Сегодня разбираем горячую тему, на которой спотыкаются многие разработчики ботов — память нейросетей. У всех современных топовых моделей появились гигантские окна контекста — от миллиона токенов. Кажется, что теперь туда можно просто закинуть всю историю переписки, все корпоративные методички, и агент сам во всём разберётся или не разберётся?.. В статье разбираем реальный кейс — как мы управляем памятью ИИ-агента, чтобы он отвечал быстро, точно и не сжигал бюджет на токены впустую. Внутри — наглядные графики, три механизма очистки памяти и хитрый инженерный трюк с изолированным субагентом-аудитором.

https://habr.com/ru/companies/llmstart/articles/1038506/

#LangChain #ИИагенты #RAG #context_engineering #LLM #AIdriven_разработка #llmstart #контекстинжиниринг #production #productionready

Память на миллион, а толку ноль: как мы спасали ИИ-агента от «тупости»

Память на миллион токенов: почему контекст забивается и как его чистить На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru . Мы делаем AI-системы для бизнеса, и эта статья — про то, как мы...

Хабр

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

https://habr.com/ru/articles/1039292/

#aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ,...

Хабр

От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде

На связи Сергей Смирнов, AI-инженер LLMStart.ru. Сегодня расскажу о полноценном кейсе, который мы делали для компании Айтон: агенте-консультанте по 1С:УНФ, который помогает отвечать на вопросы клиентов по базе знаний, реальным диалогам поддержки и контексту конкретного обращения. Разберу всю хронологию, нюансы и путь от первой гипотезы до продакшена, которым уже пользуются клиенты. Для бизнеса этот кейс интересен как пример реальной автоматизации через ИИ: сначала ассистент для сотрудников, потом сервис для клиентов. Для технарей — подходом, где решение эволюционировало от RAG-прототипа к агенту на основании данных и метрик, а не потому, что «так модно».

https://habr.com/ru/companies/llmstart/articles/1038436/

#RAG #LLM #ИИагенты #LangChain #LangFuse #Ragas #метрики_качества #context_engineering #мультимодальность #ии

От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде

Агент 1С-консультант: от RAG-прототипа до агента в продакшне На связи Сергей Смирнов, AI-инженер LLMStart.ru . Сегодня расскажу о полноценном кейсе, который мы делали для компании Айтон:...

Хабр