Mastodawn

Hermes Agent сжигал 603M токенов за спиной — как я сократил фоновые расходы в 125 раз

На днях я заметил, что квота Ollama Cloud Pro тратится быстрее обычного. Значительно быстрее. За семь дней я сжёг 603 миллиона токенов и не понимал, куда они уходили. Я открыл логи Hermes Agent и нашёл то, о чём не знал: блок auxiliary: с двенадцатью фоновыми задачами. Сжатие контекста, извлечение из веба, vision, поиск по сессиям, подбор навыков — всё это молча запускалось при каждом моём сообщении. Каждая задача стояла на provider: auto . И поскольку у меня не было ключей для цепочки fallback, каждая молча откатывалась на kimi-k2.6 , мою основную модель на триллион параметров. Я понятия не имел, что это происходит. Пока я печатал одно сообщение, агент отправлял одиннадцать других в фоне — через ту же модель, из того же квоты, не показывая мне промпты. Только сжатие контекста срабатывало 10–20 раз за длинную сессию, каждый раз отправляя всю историю.

https://habr.com/ru/articles/1042860/

#hermes_agent #ollama_cloud #llm #token_management #kimi_k26 #ai_agents

Hermes Agent сжигал 603M токенов за спиной — как я сократил фоновые расходы в 125 раз

Обложка: routing моделей в Hermes Agent На днях я заметил, что квота Ollama Cloud Pro тратится быстрее обычного. Значительно быстрее. За семь дней я сжёг 603 миллиона токенов и не понимал, куда они...

Хабр