Mastodawn

Hermes Agent сжигал 603M токенов за спиной — как я сократил фоновые расходы в 125 раз

На днях я заметил, что квота Ollama Cloud Pro тратится быстрее обычного. Значительно быстрее. За семь дней я сжёг 603 миллиона токенов и не понимал, куда они уходили. Я открыл логи Hermes Agent и нашёл то, о чём не знал: блок auxiliary: с двенадцатью фоновыми задачами. Сжатие контекста, извлечение из веба, vision, поиск по сессиям, подбор навыков — всё это молча запускалось при каждом моём сообщении. Каждая задача стояла на provider: auto . И поскольку у меня не было ключей для цепочки fallback, каждая молча откатывалась на kimi-k2.6 , мою основную модель на триллион параметров. Я понятия не имел, что это происходит. Пока я печатал одно сообщение, агент отправлял одиннадцать других в фоне — через ту же модель, из того же квоты, не показывая мне промпты. Только сжатие контекста срабатывало 10–20 раз за длинную сессию, каждый раз отправляя всю историю.

https://habr.com/ru/articles/1042860/

#hermes_agent #ollama_cloud #llm #token_management #kimi_k26 #ai_agents

Hermes Agent сжигал 603M токенов за спиной — как я сократил фоновые расходы в 125 раз

Обложка: routing моделей в Hermes Agent На днях я заметил, что квота Ollama Cloud Pro тратится быстрее обычного. Значительно быстрее. За семь дней я сжёг 603 миллиона токенов и не понимал, куда они...

Хабр

Habr May 4

Сепаратор для логов. Сжимаем логи для контекста LLM без потери читаемости

logzip — утилита для сжатия логов перед анализом в LLM. Вместо того чтобы отправлять в Claude/GPT сырые 10 МБ лога, мы сжимаем его до 3.4 МБ (−58%), сохраняя полную читаемость и видимость ошибок. Статья рассказывает о проблеме (Lost in the Middle, переплата за мусорные токены), архитектуре на Rust, алгоритме Recursive BPE и реальном ROI: −$2,070 в год на API. Проект open source (MIT), интегрирован с Claude Desktop через MCP.

https://habr.com/ru/articles/1030964/

#logzip #llmинструменты #mcptools #token_management #compression #log #python #rust #devops #optimization

Сепаратор для логов. Сжимаем логи для контекста LLM без потери читаемости

Я думаю, многим знакомо устройство под названием сепаратор-то, что отделяет сливки от молока. Моя библиотека logzip занимается примерно тем же самым - отделяет сливки больших логов, оставляя самую...

Хабр

Habr Feb 23

$20 в месяц на Cursor. Куда уходят токены и что с этим можно сделать

У меня небольшой бюджет на AI-ассистент — $20 в месяц. Хватает, но только если понимаешь как работает тарификация. Я потратил время чтобы разобраться что именно ест токены, и написал framework который пытается решить эти проблемы. Расскажу про оба.

https://habr.com/ru/articles/1002714/

#cursor #cursor_ide #contextengineering #promptengineering #token_management #prompt_caching

$20 в месяц на Cursor. Куда уходят токены и что с этим можно сделать

У меня небольшой бюджет на AI-ассистент — $20 в месяц. Хватает, но только если понимаешь как работает тарификация. Я потратил время чтобы разобраться что именно ест токены, и написал framework который...

Хабр

Habr Mar 6, 2024

fido2-token как инструмент администрирования MFA токенов

Всем привет! Хочу рассказать о практическом применении такой утилиты как fido2-token. Утилита создана для поиска и управления токенами работающими со стандартом FIDO2. В русскоязычном сегменте не нашел публикаций на эту тему, поэтому опишу свой опыт её использования. Не буду описывать о самом стандарте, а сразу перейду к практическому применению.

https://habr.com/ru/articles/798355/

#fido2 #mfa #token_management

fido2-token как инструмент администрирования MFA токенов

Всем привет! Хочу рассказать о практическом применении такой утилиты как fido2-token. Утилита создана для поиска и управления токенами работающими со стандартом FIDO2. В русскоязычном сегменте не...

Хабр