Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах

32 tools в промпте - дешевле, чем 7. Да, да - если вы строите агентов, это не опечатка. Это следствие того, как работает prefix cache в агентском цикле, и почему локальная оптимизация одного запроса ломает кэш на всей траектории. Третья статья серии про prefix caching - теперь про этих ваших агентов.

https://habr.com/ru/companies/bitrix/articles/1033822/

#llmагент #prefix_caching #токены #aiагенты #ai #prompt_caching #promptengineering #contextengineering

Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах

Привет, Хабр! Меня зовут Сергей Нотевский, я AI Platform Lead в Битрикс24. Это третья статья серии про prefix caching: первая - про экономику кэширования и особенности разных провайдеров, вторая - про...

Хабр

KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов

Почему Cache Read и Cache Write стоят денег и как работает Prompt Caching? Разбираем KV-Cache через 9 ключевых вопросов. Разобраться

https://habr.com/ru/articles/1021832/

#машинное_обучение #машинное_обучение_нейросети #llm #gpu #transformers #kvcache #prompt_caching #attention #vllm #prefix_caching

KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов

Не так давно лимиты на использование Claude Code резко уменьшились, и люди стали лучше считать свои токены. Я не стал исключением, поэтому первым делом собрал информацию по использованию токенов в...

Хабр

Погоди переезжать на дешёвую модель: считаем effective cost с учётом кэша

В сообществе часто пишут о том что KV-cache hit rate - один из главных приоритетов при оптимизации стоимости. Manus в той-самой статье про context engineering и своего агента, TikTok в кейсе про оптимизацию AI-агента для тестирования, AiSDR в статье про перестройку шаблонов генерации писем. Стало интересно стало: а как это считается у MaaS-провайдеров? Я знаком со скидкой за кэш токены, но никогда не садился детально разбирать экономику кэша у OpenAI, Anthropic, Gemini, DeepSeek - с цифрами, сценариями, сравнением. Сел считать. Первый же результат удивил: два запроса к одной и той же модели с одним и тем же объёмом токенов - разница в цене в 3 раза. Зависит только от того, попали ли токены в кэш. Про то как KV-кэш устроен внутри - уже хорошо написано на Хабре, ссылки в конце. Здесь только про деньги и токены: как считать реальную стоимость и почему прайс-лист для этого не подходит только прайс-лист.

https://habr.com/ru/companies/bitrix/articles/1008320/

#ai #нейросети #contextengineering #promptengineering #openai #anthropic #gemini #tokens #prefix_caching

Погоди переезжать на дешёвую модель: считаем effective cost с учётом кэша

Привет, Хабр! Меня зовут Сергей Нотевский, я AI Platform Lead в Битрикс24. Мы строим AI-платформу на self-hosted инференсе - vLLM, свои модели, своя оптимизация. Кэш - одна из ключевых метрик: hit...

Хабр

[Перевод] Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы

Prompt caching часто обсуждают как «бонусную опцию» в API-прайсе: мол, попал в кэш — дешевле и быстрее. В статье разбираем, что за этим стоит на самом деле: почему кэш — это не «память диалога», а переиспользование KV-тензоров на уровне одинаковых префиксов, как из этого вырастает PagedAttention/vLLM с блоками и хэш-цепочками, и какие мелкие, но фатальные детали (динамический системный промпт, недетерминированный JSON, перестановка tool defs) мгновенно превращают кэш в тыкву. Как это устроено

https://habr.com/ru/companies/otus/articles/984434/

#prompt_caching #префилл #декодинг #инференс_LLM #vLLM #PagedAttention #prefix_caching #фрагментация_памяти #планировщик_инференса

Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы

Содержание Предыстория и мотивация — коротко о том, зачем я написал этот пост, и краткий обзор территории, куда мы сейчас полезем. Советы, как стабильнее попадать в кэш промпта — зачем вообще нужно...

Хабр