Когда контекстное окно кончается, а проект — нет

Браузерная игра на 114 тысяч строк, целиком написанная с помощью нейросетей за три недели. Не про то, что ИИ умеет код, а про то, что удерживает большой проект управляемым, когда кодовая база не влезает в контекстное окно. Осознать масштаб

https://habr.com/ru/articles/1050728/

#context_engineering #agentsmd #архитектура_систем #браузерная_игра #typescript #ralphex #aiагенты_в_работе #оркестратор #ecs #vibecoding

Когда контекстное окно кончается, а проект — нет

Браузерная игра. Я никогда не писал игры. 114 тысяч строк TypeScript. Навайбкожена за три недели. То, что ИИ умеет писать рабочий код, уже не новость. Я расскажу вам о том, что удерживает проект...

Хабр

AI 에이전트 구축: LLM과 도구를 활용한 반복적 문제 해결 가이드

AI 에이전트는 대규모 언어 모델(LLM)이 도구를 활용하여 사용자의 목표를 동적으로 달성하는 시스템입니다.

🔗 원문 보기

AI 에이전트 구축: LLM과 도구를 활용한 반복적 문제 해결 가이드

AI 에이전트는 대규모 언어 모델(LLM)이 도구를 활용하여 사용자의 목표를 동적으로 달성하는 시스템입니다.

Ruby-News

Chroma CEO Jeff Huber: AI 시대의 현대적인 검색 인프라와 컨텍스트 엔지니어링

Chroma는 AI/ML 프로덕션 시스템 구축의 난제를 해결하기 위해 설립되었으며, 초기에는 대중화되지 않았던 임베딩의 잠재력을 간파하여 AI 시스템의 신뢰성과 해석 가능성을 높이는 데 주력하고 있습니다.

🔗 원문 보기

Chroma CEO Jeff Huber: AI 시대의 현대적인 검색 인프라와 컨텍스트 엔지니어링

Chroma는 AI/ML 프로덕션 시스템 구축의 난제를 해결하기 위해 설립되었으며, 초기에는 대중화되지 않았던 임베딩의 잠재력을 간파하여 AI 시스템의 신뢰성과 해석 가능성을 높이는 데 주력하고 있습니다.

Ruby-News

Почему мы спорим о памяти для AI-агентов

На днях наткнулся на статью про память для AI-агентов. Сама статья была вполне типичной: SQLite, хранение контекста, поиск по накопленным знаниям, экономия токенов. Но гораздо интереснее оказались комментарии. Под публикацией быстро возник спор, который на первый взгляд выглядел техническим. Одни утверждали:

https://habr.com/ru/articles/1046944/

#AI_Agents #Agent_Memory #LLM #Agentic_AI #Knowledge_Management #Context_Engineering #Longterm_Memory #Project_Memory #Retrieval_Systems #AI_Architecture

Почему мы спорим о памяти для AI-агентов

Введение На днях читал статью про память для AI-агентов — одну из тех, где рядом мирно уживаются SQLite, экономия токенов, поиск по накопленным знаниям и надежда наконец перестать кормить модель...

Хабр

Самая опасная ошибка AI‑агента — не плохой код

За последний год вокруг AI-агентов сформировался довольно устойчивый набор ожиданий. Нам обещают всё более умные модели, всё более длинные контекстные окна, всё более автономных агентов. Создаётся впечатление, что осталось решить ещё пару технических проблем — и агент сможет самостоятельно разрабатывать сложные проекты почти без участия человека. Я тоже так думал.

https://habr.com/ru/articles/1046920/

#AI_Agents #LLM #Agentic_AI #Agent_Memory #AI_Governance #AI_Safety #Human_in_the_Loop #Context_Engineering #CapabilityBased_Security #Agent_Workflow

Самая опасная ошибка AI‑агента — не плохой код

Предыстория Давеча я обсуждал в агентской сессии, почему старая задача перестала находиться после переименования проекта. Ситуация выглядела достаточно простой: у задачи был стабильный...

Хабр

Харнесс вокруг кодящего агента, или Как я создал собственного монстра

Качество работы с кодящим агентом почти не зависит от того, какая под капотом модель. Я довольно долго в это не верил — менял модели, крутил промпты, ждал следующий релиз. А разница, оказалось, не в модели. Она в том, что вокруг модели: есть ли у агента память между сессиями, карта проекта, правила, руки и место под результат. Голая модель — это эрудит без рабочего места. Каждый разговор она начинает с чистого листа. Вот это всё вокруг модели — память, карта, правила, руки — и называется харнесс. Ниже — разбор моего харнесса целиком, слой за слоем, на одном реальном проекте: пять сервисов, Kubernetes, прод. Не идеальная схема из README, а то, что видно в логах: что реально вызывается каждый день, а что я нагородил и забыл. Спойлер: половина подключённых MCP-серверов за 98 сессий не вызвалась ни разу. Сразу оговорюсь: сессии сохранились не все — у Claude Code, похоже, есть ротация логов, часть истории потерялась. Так что мои числа — это нижняя граница, реальные ещё выше.

https://habr.com/ru/articles/1045348/

#claude_code #ииагенты_для_разработки #харнесс #context_engineering #agentic_coding

Харнесс вокруг кодящего агента, или Как я создал собственного монстра

Качество работы с кодящим агентом почти не зависит от того, какая под капотом модель. Я довольно долго в это не верил — менял модели, крутил промпты, ждал следующий релиз. А разница, оказалось, не в...

Хабр

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, долю успешных задач. Это полезно для общего контроля ситуации, но почти бесполезно для реальной диагностики системы. Например, если success rate упал с 85% до 72%, то само по себе число не объясняет причину деградации. Команда вынуждена гадать, какая часть системы вдруг начала допускать ошибки. Сломался retrieval? Модель хуже начала выбирать инструменты? Контекст загрязняется после нескольких ходов? Или система уперлась в возможности base model? При росте проекта и увеличении сложности кодовой базы, сбои начинают расти мультипликативно – ошибки всех систем начинают перемножаться между собой. В конечном итоге, команда теряет реальный контроль. Проблему решает внедрение покомпонентных eval. Они дополняют end-to-end метрики, показывая, какой слой AI-агента работает, какой деградировал – и где именно искать причину. То есть внедрение evals помогает получать метрики производительности каждого компонента вашего агента.

https://habr.com/ru/articles/1042924/

#aiагенты #llm #rag #evals #orchestration #retrieval #tool_calling #context_engineering #production #ai_infrastructure

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, долю успешных задач. Это полезно для общего...

Хабр

Чем умнее модель, тем меньше ей нужно: четыре дисциплины production‑агента

Если твой агент обвешан пошаговыми инструкциями и десятком узких инструментов под каждый шаг — он, скорее всего, работает хуже, чем мог бы. Звучит контр‑интуитивно, но это прямой вывод из инженерных постов Anthropic за последний год: чем умнее становится модель, тем сильнее прежняя обвязка её сдерживает. За год правила производства агентов пересобрались. Появилось семь отдельных дисциплин. Это первая из двух частей: здесь — четыре дисциплины‑фундамента, на которых держится рабочий агент, а не демка. И три из этих четырёх — не про то, что добавить, а про то, что убрать лишнее и довериться модели.

https://habr.com/ru/articles/1042514/

#AIагенты #productionагенты #context_engineering #инженерия_контекста #Anthropic #Claude #LLM #Agent_Skills #промптинжиниринг #tool_design

Чем умнее модель, тем меньше ей нужно: четыре дисциплины production‑агента

Если твой агент обвешан пошаговыми инструкциями и десятком узких инструментов под каждый шаг — он, скорее всего, работает хуже, чем мог бы. Звучит контр‑интуитивно, но это...

Хабр

Мультимодальность в ИИ-агентах: картинки на вход, картинки на выход и отказ от Multimodal RAG

На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Сегодня разбираем мультимодальность в ИИ-агентах на реальном примере из продакшена. Мы проанализировали 258 диалогов нашего агента-консультанта по 1С и поняли: у входящих и исходящих картинок совершенно разная физика. Для входящих критично качество распознавания, а для исходящих — надежная доставка. В статье я подробно рассказываю, почему мы осознанно отказались от модного Multimodal RAG и как на самом деле нужно выбирать архитектуру под свои данные. Спойлер: экономить копейки на токенах — плохая идея, а усложнять систему стоит только тогда, когда это приносит реальные деньги.

https://habr.com/ru/companies/llmstart/articles/1039444/

#RAG #multimodal_RAG #мультимодальность #vision_LLM #imageonly #ColPali #CLIP #LLMагенты #LangChain #context_engineering

Мультимодальность в ИИ-агентах: картинки на вход, картинки на выход и отказ от Multimodal RAG

Мультимодальность в ИИ-агентах На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru . Мы делаем AI-системы для бизнеса. Сегодня разбираем мультимодальность в нашем ИИ-агенте для компании Айтон...

Хабр
TokenSpiracy: How AI Providers Are Picking Our Pockets

Your context is contaminated and you probably have no idea what you’re asking

Medium