LatentMAS: Секрет AI-агентов, которые думают без слов, работают точнее и экономят до 80% токенов

Классические AI-агенты общаются текстом — это дорого и медленно. LatentMAS раскрывает секрет "безмолвного" общения: агенты обмениваются "мыслями" напрямую через общую латентную память (KV-кэш). Разбираемся, как эта архитектура позволяет добиться двузначного прироста точности и радикально сократить расходы на токены.

https://habr.com/ru/articles/972184/

#llm #LatentMAS #multiagent_системы #KVкэш #латентная_рабочая_память #LLM_агенты #экономия_токенов #оптимизация_llm #aiагенты

LatentMAS: Секрет AI-агентов, которые думают без слов, работают точнее и экономят до 80% токенов

Если отбросить маркетинговый флёр вокруг «агентных систем», реальность довольно прозаична: как только вы собираете цепочку из нескольких LLM‑агентов, ваш счёт за токены и latency улетает в...

Хабр

[Перевод] Оптимизация LLM: LoRA и QLoRA

С ростом сложности и масштабности современных языковых моделей, таких как GPT, потребность в эффективных методах их адаптации под специфические задачи становится все более актуальной. Однако традиционные подходы к тонкой настройке моделей часто требуют огромных вычислительных ресурсов и значительного времени. В этой статье мы рассмотрим два подхода — LoRA и QLoRA — которые обещают значительно снизить затраты на обучение без потери качества модели. Мы разберем, как эти методы позволяют оптимизировать вычисления и память, а также как с их помощью можно эффективно адаптировать большие модели под разнообразные прикладные задачи.

https://habr.com/ru/companies/otus/articles/935286/

#Адаптация_нейросетей #квантование #Оптимизация_LLM #Тонкая_настройка_модели #fine_tuning #LoRA #машинное_обучение #LLM

Оптимизация LLM: LoRA и QLoRA

Масштабируемые методы тонкой настройки для больших языковых моделей. С появлением ChatGPT стало очевидно, какими многообещающими могут быть большие языковые модели, способные понимать естественный...

Хабр

Анатомия памяти LLM: Почему будущее не за промптами, а за Инженерией Контекста

Мой счет за Google API взлетел до €51 из-за контекста LLM. Эта статья раскрывает, почему "память" моделей так дорога, как работает механизм Внимания, и предлагает 5 хаков для управления контекстом. Узнайте, почему будущее за Инженерией Контекста, а не за промптами.

https://habr.com/ru/articles/934244/

#инженерия_контекста #llm #llm_память #оптимизация_llm #prompt_engineering #механизм_внимания #rag #контекстное_окно #контекст_llm

Анатомия памяти LLM: Почему будущее не за промптами, а за Инженерией Контекста

При работе с API больших языковых моделей я привык к определенной предсказуемости. Для моих исследовательских задач, экспериментов с кодом и повседневной рутины дневные расходы на API обычно...

Хабр