Gemini-3.5-flash догнал GPT-5.5 на 97/S и в 2.5× дешевле. Но главное — китайцы выигрывают по цене и качеству

Месяц назад я писал про парадокс DeepSeek V4 Pro — модель проиграла собственному Flash и Qwen 3.6 Plus трёхнедельной давности. Сегодня прогнал свежий battle на пяти моделях — два американских флагмана и три китайских — и расклад снова поменялся. Главное: Gemini-3.5-flash взял 97/S, тот же балл, что у GPT-5.5, и в 2.5 раза дешевле. Google впервые на моём тесте встал рядом с OpenAI на длинном русском контенте. Tencent Hy3-preview даёт A-tier за $0.0017 за вызов — в 134 раза дешевле GPT-5.5. DeepSeek V4 Pro я прогнал третий раз — качество стоит на месте (87), но цена упала в 5.4× и она снова в зоне полезного. Qwen 3.7 Max упорно вставляет китайские иероглифы в русский текст — регрессия относительно собственной 3.6, где этой проблемы не было. По дороге заметил, что наша формула cost_per_call жила полгода с приближением, которое занижало стоимость на 50–140%. Починили — теперь берём реальные токены из OpenRouter response.usage . И отдельно — почему при такой скорости релизов модель в продукте стоит держать заменяемой, а не зашитой в код намертво.

https://habr.com/ru/articles/1040770/

#LLM #Gemini #gpt5 #DeepSeek #Qwen #Tencent #Benchmarks #AI #OpenRouter #Russian_NLP

Gemini-3.5-flash догнал GPT-5.5 на 97/S и в 2.5× дешевле. Но главное — китайцы выигрывают по цене и качеству

Главная новость месяца — китайцы перестали быть «дешёвой альтернативой» и стали реальным конкурентом США по соотношению цена/качество. По чистому качеству американцы пока впереди, но по соотношению...

Хабр

Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой

DeepSeek V4 Pro вышел 24 апреля. Огромная модель, топ AIME и SWE-bench, передовая reasoning-архитектура. Я ждал Tier S — 95+ из 100 в нашем battle test на русском контенте. Получил 89. Запустил его собственный Flash — 83. Pro выше на 6 пунктов, но в 13 раз дороже. Перетестировал Qwen 3.6 Plus, который вышел на 22 дня раньше V4 Pro: 92 балла. Старый Qwen обогнал новейший флагман DeepSeek и по качеству, и по цене. В статье: парадокс Pro vs Flash с экономикой production, гипотезы почему reasoning-оптимизация не вытягивает narrative, обновления методологии (max_tokens, paid re-test), формула score-per-dollar и обновлённые рекомендации.

https://habr.com/ru/articles/1029044/

#LLM #DeepSeek #Qwen #Kimi #Benchmarks #AI #OpenRouter #Russian_NLP

Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой

DeepSeek V4 Pro вышел 24 апреля 2026, три дня назад. Огромная модель, топ AIME и SWE-bench, передовая reasoning-архитектура. Вокруг релиза до сих пор много шума — пиарили мощно. Я открыл OpenRouter,...

Хабр