Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит

Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец Sora.

https://habr.com/ru/companies/haulmont/articles/1017460/

#ARCAGI #GPT54 #Grok #Google_TurboQuant #OpenIDE_ACP #Claude_Capybara #Sora #GigaChat_31 #бенчмарк_AGI

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит

Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец...

Хабр

Bindu Reddy (@bindureddy)

Abacus CoWork가 Claude, GPT 5.4, Gemini를 한 데 묶은 멀티모델 코워크 제품을 발표했다. 코딩에는 Opus의 성능을, 추론에는 GPT 5.4를 활용하고, 'low effort' 모드로 효율성도 최적화했다고 소개한다. AI 모델을 로컬 컴퓨터에서 함께 쓰는 협업형 도구라는 점이 핵심이다.

https://x.com/bindureddy/status/2038722545642611124

#claude #gpt54 #gemini #multimodel #aitools

Bindu Reddy (@bindureddy) on X

🚨 BREAKING NEWS - Abacus CoWork brings Claude, GPT 5.4 And Gemini To Your Laptop! Super excited to announce our MULTI-MODEL CoWork product! - combine the coding power of Opus with the reasoning prowess of GPT 5.4 - optimized for efficiency using "low effort" mode - computer

X (formerly Twitter)

Stop Picking One AI Model: The Developer's Guide to Multi-Model Routing with GPT-5.4, Claude 4.6, and Gemini 2.5 Pro

The best AI model for your project depends on the task. Here is how developers are routing prompts across GPT-5.4, Claude 4.6, and Gemini 2.5 Pro to get better output at lower c...

https://wowhow.cloud/blogs/multi-model-routing-gpt-5-4-claude-4-6-gemini-2-5-developer-guide

#wowhow #gpt54 #claudeopus46 #gemini25pro

Stop Picking One AI Model: The Developer's Guide to Multi-Model Routing with GPT-5.4, Claude 4.6, and Gemini 2.5 Pro

Learn how to route tasks across GPT-5.4, Claude Opus 4.6, and Gemini 2.5 Pro for better results and lower costs. Practical multi-model setup guide for developers.

Bindu Reddy (@bindureddy)

GPT-6가 사전/사후 학습 규모를 크게 확장할 것이라는 소문이 있으며, GPT 5.4를 다음 주부터 일부 워크로드에 적용할 계획이라고 언급했다. 특히 Excel과 딥 리서치 작업에서 성능과 비용 측면 모두 가장 뛰어난 모델이라고 평가했다.

https://x.com/bindureddy/status/2038091064402169865

#gpt6 #gpt54 #llm #modelrelease #deeprresearch

Bindu Reddy (@bindureddy) on X

GPT-6 is rumored to scale both pre and post training dramatically We are switching 20% or workloads to GPT 5.4 on Monday! The best model for excel and deep research both in terms of performance and cost 🚀

X (formerly Twitter)

Мультимодальность и более предсказуемый UX: релиз KodaCode 0.8.0

Режим чата теперь работает по той же логике, что и агентный, но только с read-only инструментами — можно исследовать кодовую базу без риска случайных изменений. Edit mode убрали: его сценарии полностью покрывает агентный режим . Появилось ветвление диалогов. Если агент пошёл не туда, можно вернуться к любому вызову инструмента в истории и продолжить оттуда — новая ветка не затрагивает предыдущую. А сами сессии теперь можно экспортировать в JSON. Для мультимодальных моделей — gemini-3-flash-preview, gpt-5.3-codex, kimi-k2.5 и gpt-5.4 — добавили возможность прикрепить изображение прямо в чат.

https://habr.com/ru/companies/koda/articles/1015972/

#Koda #KodaCode #AI_coding_agent #мультимодальность #ветвящиеся_диалоги #чат_агент #JetBrains_плагин #GPT54 #релиз_080

Мультимодальность и более предсказуемый UX: релиз KodaCode 0.8.0

Свежий релиз KodaCode закрыл несколько проблем с UX: чат переработали под агентную логику, добавили ветвление диалогов и поддержали работу с изображениями. Режим чата стал агентом в режиме только для...

Хабр

Design Arena (@Designarena)

Design Arena가 OpenAI의 새로 발표된 Frontend Design skill을 GPT-5.4에 적용해 테스트했습니다. 기본 시스템 프롬프트를 조정해 Website Arena에 통합했고, 그 결과 GPT-5.4(Design Skill, Medium)가 8위로 상승해 전면 UI 설계 역량 개선이 확인됐습니다.

https://x.com/Designarena/status/2036906308520337535

#openai #gpt54 #frontend #designskill #websitearena

Design Arena (@Designarena) on X

Design Arena tested GPT-5.4 with medium reasoning using @OpenAI's recently announced Frontend Design skill. We adapted the default system prompt to integrate this skill for GPT-5.4 within our Website Arena. GPT-5.4 (Design Skill, Medium) ranks #8 in Website Arena, up 6 spots

X (formerly Twitter)

Bindu Reddy (@bindureddy)

GPT 5.4가 xls와 딥 리서치에서 다른 최첨단 모델보다 더 저렴하고 성능도 뛰어나다고 주장하며, Gemini·Claude 계열 대비 성능을 33% 개선했다고 언급한다. OpenAI의 다음 버전 출시를 촉구한다.

https://x.com/bindureddy/status/2036151038491955678

#openai #gpt54 #gemini #claude #llm

Bindu Reddy (@bindureddy) on X

GPT 5.4 is cheaper and more performant for xls and deep research than other SOTA models We have now managed to improve performance by 33% on other top Gemini or Claude models OpenAI needs to double down on this win and launch GPT 6.0 ASAP

X (formerly Twitter)

Design Arena (@Designarena)

GPT-5.4(Medium)가 Design Arena 전체 순위 11위를 기록했다. OpenAI의 Frontend Skill이 실제로 디자인 품질을 대규모로 개선하는지 평가 중이며, AI 모델의 프런트엔드/디자인 작업 능력 향상 가능성을 검증하는 업데이트다.

https://x.com/Designarena/status/2035806729557115231

#openai #gpt54 #designarena #frontend #evaluation

Design Arena (@Designarena) on X

GPT-5.4 (Medium) is currently 11th overall on Design Arena. We are in the process of evaluating whether @OpenAI's referenced Frontend Skill leads to measurable design improvement at scale. Reporting back with results soon.

X (formerly Twitter)