Почему маленькие модели побеждают большие – и что это значит для вашего стека
Есть такое устойчивое интеллектуальное заблуждение: если модель больше — значит, она лучше. Больше параметров, больше обучающих данных, больше денег в предобучении — и вот вам SOTA. Гонка за размером казалась единственной игрой в городе. Но в 2025–2026 годах что‑то сломалось в этой логике. И сломалось публично, с цифрами и бенчмарками. Я хочу рассказать три истории, которые произошли практически одновременно и складываются в одну картину. Первая — про то, как Microsoft заткнула за пояс «самую опасную» языковую модель Anthropic с помощью ста специализированных агентов. Вторая — про MIT‑трюк, позволяющий маленькой GPT-5-mini обогнать полноразмерный GPT-5 вдвое на сложных задачах. Третья — про китайскую модель Qwen, которую сделала небольшая команда с ограниченными ресурсами, и которая сейчас работает в 200 000 продуктах по всему миру. В каждой истории маленький (или менее очевидный) игрок побеждает «большого». И каждый раз причина примерно одна и та же.
https://habr.com/ru/articles/1043590/
#llm #gpt5mini #qwen #claude_mythos #rlm #архитектура_иимоделей #ииоркестрация #rag







