ChatGPT 5.4 Pro: обзор, бенчмарки, сравнение

Помните, как пару лет назад мы восхищались тем, что нейросеть может написать связный абзац? А год назад – что она осилила код без синтаксической ошибки? Сегодня планка взлетела так высоко, что уникальные способности моделей превращаются в стандартный пакет услуг. OpenAI выкатила GPT‑5.4 Pro. И если раньше слово “Pro” в названии часто означало просто “чуть больше токенов и подороже”, то теперь это действительно профессорский уровень . Модель берёт сложнейший тест ARC-AGI-2 с результатом 83,3% (против 54% у предшественницы), решает задачи из FrontierMath , которые ещё недавно казались крепостью для ИИ, и... случайно находит в интернете забытую научную статью 2011 года, чтобы срезать путь к ответу. В этом обзоре мы не только разбираем цифры бенчмарков (хотя они тут просто фантастические), но и устраиваем моделям настоящую проверку : от логической головоломки с серверами до полноценного стелс-симулятора на канвасе. Пристегнитесь, будет интересно!

https://habr.com/ru/companies/bothub/articles/1011040/

#chatgpt_54_pro #gemini_31_pro #claude_opus_46

ChatGPT 5.4 Pro: обзор, бенчмарки, сравнение

Помните, как пару лет назад мы восхищались тем, что нейросеть может написать связный абзац? А год назад – что она осилила код без синтаксической ошибки? Сегодня планка взлетела так высоко, что...

Хабр

Gemini 3.1 Pro vs Claude Opus 4.6 – сравнение февральских новинок

Две недели. Именно столько понадобилось, чтобы гонка ИИ-гигантов превратилась в полноценную войну миров. 5 февраля Anthropic выпускает Claude Opus 4.6 – короля экспертных задач, который мгновенно захватывает вершины рейтингов качества и пользовательских симпатий. Ажиотаж, восторг, заголовки. Но 19 февраля Google берёт паузу... и выстреливает Gemini 3.1 Pro. Результат? +46 процентных пунктов в тесте ARC-AGI-2 (77,1% против 31,1% у предшественника), лидерство в 12 из 18 бенчмарков и ценник, от которого у конкурентов округляются глаза. Gemini 3.1 Pro вдвое обходит предшественника в тестах на рассуждение, стоит в 6,5 раза дешевле флагмана конкурента и штампует 3D-симуляции птичьих стай по текстовому описанию. Claude Opus 4.6, который не гонится за скоростью, а размышляет вслух, взвешивает моральные дилеммы и остаётся любимцем людей в слепых тестах. Как не запутаться в этом треугольнике и выбрать модель под свои задачи? И почему эксперты в финансах и юриспруденции отдают предпочтение Sonnet 4.6, оставляя “тяжеловесов” далеко позади? Разобрали 18 бенчмарков, чтобы вы поняли, за какой моделью – ваше завтра. В этом материале мы свели все цифры, графики и пользовательские ощущения, чтобы у вас была полная картина февральской перезагрузки. Узнайте, какая модель сделает вашу работу лучше, быстрее и дешевле и кто победит в этой дуэли – цифровой гений-отличник или философ с душой.

https://habr.com/ru/companies/bothub/articles/1005724/

#gemini_31_pro #claude_opus_46 #chatgpt_53_codex #claude_sonnet_46

Gemini 3.1 Pro vs Claude Opus 4.6 – сравнение февральских новинок

Две недели. Именно столько понадобилось, чтобы гонка ИИ-гигантов превратилась в полноценную войну миров. 5 февраля Anthropic выпускает Claude Opus 4.6 – короля экспертных задач, который мгновенно...

Хабр

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".

https://habr.com/ru/articles/1003130/

#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Схема: из чего состоит релиз модели LLM (пост → model/system card → методика → цена → независимые Новости об ИИ в 2026 году выглядят как непрерывный поток "самых умных моделей" и "рекордных...

Хабр

Gemini 3.1 Pro: обзор, бенчмарки, сравнение

Прогремел очередной релиз, Google DeepMind 19 февраля 2026 года выпустила свою новую модель - Gemini 3.1 Pro. Это стало неожиданностью даже для искушенного ИИ-сообщества. Обычно Google обновлял версии с шагом 0.5 (1.0 - 1.5 - 2.0 - 2.5 - 3.0), но здесь мы впервые видим обновление 3.1. И это при том, что предыдущая версия (Gemini 3 Pro) до сих пор носит гордую приставку Preview и так и не вышла в полноценный релиз. Согласитесь, немного похоже на ситуацию, когда вы ещё не допили чай, а вам уже наливают новую кружку, утверждая, что она горячее. Но Google явно знает, что делает. Компания заявляет, что 3.1 Pro - это не просто косметическое обновление, а шаг вперёд в фундаментальных рассуждениях. Модель создана для решения задач, где простого ответа недостаточно, и ориентирована на агентные рабочие процессы и глубокое планирование. Забегая вперёд, скажу, что новинка действительно впечатляет, но, как всегда, есть нюансы. Приятного прочтения!

https://habr.com/ru/companies/bothub/articles/1002536/

#ии #ии_и_машинное_обучение #Google_DeepMind #Gemini_31_Pro #модели_ии #тестирование_моделей #анонс_моделей_ии #ai #мышление_моделей

Gemini 3.1 Pro: обзор, бенчмарки, сравнение

Прогремел очередной релиз, Google DeepMind 19 февраля 2026 года выпустила свою новую модель - Gemini 3.1 Pro. Это стало неожиданностью даже для искушенного ИИ-сообщества. Обычно Google обновлял версии...

Хабр

ChatGPT vs Gemini: какая нейросеть реально лучше?

Неделя выдалась достаточно насыщенной . На ней нам представили Claude Sonnet 4.6 и Gemini 3.1 Pro. OpenAI же, по моему личному мнению, немного отстает от них , хотя не так давно была выпущена ChatGPT 5.3 Codex для агентного программирования. В комментариях под некоторыми из выложенных мной новостей иногда наблюдается разброс мнений, мол, Gemini плохо себя показывает, а вот ChatGPT – вещь, но в других моих материалах люди думают ровно наоборот. Сидя и раздумывая над этим, мне пришла в голову идея – сравнить ChatGPT и Gemini в достаточно рутинных задачах . По сути, чтобы просто удовлетворить свой интерес и сделать для себя выбор между ними. А вам решил показать, потому что кому-то тоже может быть интересно, а кому-то поможет сделать свой выбор. Исходя из специфики моего сравнения, возьму две прошные версии от каждой серии: ChatGPT 5.2 Pro и Gemini 3.1 Pro . Одна уже приличное время находится в нашем доступе, другая же была релизнута на этой неделе. Принимайте стратегически удобное для прочтения положение, ну а я приступаю к сравнению.

https://habr.com/ru/companies/bothub/articles/1001882/

#ChatGPT #gemini #Gemini_31_Pro #ИИ #AI #нейросеть

ChatGPT vs Gemini: какая нейросеть реально лучше?

Неделя выдалась достаточно насыщенной . На ней нам представили Claude Sonnet 4.6 и Gemini 3.1 Pro. OpenAI же, по моему личному мнению, немного отстает от них , хотя не так давно была выпущена ChatGPT...

Хабр