«KI-Agenten schneiden sechs Prozent schlechter ab — KI-Agenten vernichten Dokumente bei Langzeitaufgaben:
Microsoft-Forscher warnen vor Automatisierung durch KI-Agenten - Top-Modelle wie GPT 5.4 korrumpieren bei Langzeitaufgaben Daten. Ein Risiko für jedes Unternehmen.»

Zu viele nutzen KI leichtgläubig ohne es zu überprüfen geschweige eine Ahnung der Aufgabe im eigentlichen haben.

🤖 https://www.it-daily.net/shortnews/ki-agenten-vernichten-dokumente

#ki #microsoft #leichtglaubigen #gpt5_4 #gpt54 #ms #itsicherheit

KI-Agenten vernichten Dokumente bei Langzeitaufgaben

Microsoft-Forscher warnen vor Automatisierung durch KI-Agenten: Selbst Top-Modelle wie GPT 5.4 korrumpieren bei Langzeitaufgaben Daten enorm.

Onlineportal von IT Management

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 % и выше. На ProgramBench — ноль полного резолва. Лучший «почти решено» у Opus 4.7 — 3 %. У остальных и того нет. Это новый бенчмарк от Meta Superintelligence Labs, Stanford и Harvard (2026). Агенту дают скомпилированный бинарь и описание программы. Никаких сорсов, никакой декомпиляции, никакого интернета. Задача — собрать программу с нуля так, чтобы она прошла 248 тысяч поведенческих тестов. Это не «пофиксить баг в существующем коде» (как SWE-bench) и не «дописать функцию по сигнатуре» (как HumanEval). Это другой ТИП задачи: спроектировать систему. Внутри — методология, паттерн результатов (что модели вытягивают, а что нет), и почему этот ноль — на самом деле важная новость для тех, кто строит на LLM продакшен.

https://habr.com/ru/articles/1035574/

#ProgramBench #бенчмарк #LLM #кодингагенты #SWEbench #vibecoding #opus_47 #GPT54

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч поведенческих тестов. Девять моделей, среди них всё свежее на 2026 год: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6, Haiku 4.5. На SWE-bench те же модели стабильно берут 70 % и...

Хабр

Google AI Pro face à ChatGPT Plus : qui gagne pour les PME

Google AI Pro et ChatGPT Plus coûtent 20 €/mois. L'un mise sur l'écosystème Workspace, l'autre sur les agents autonomes. On décortique tout.

https://www.decodeur-ia.com/articles/google-ai-pro-vs-chatgpt-plus-comparatif-20-euros-pme-freelance-2026/

#IA #IntelligenceArtificielle #googleaipro #chatgptplus #gemini31pro #gpt54

Google AI Pro vs ChatGPT Plus 2026 : comparatif complet

Google AI Pro (Gemini 3.1) vs ChatGPT Plus (GPT-5.4) : prix, limites, benchmarks, intégrations. Le comparatif complet pour choisir votre IA à 20 €/mois.

Décodeur IA
OpenRouter 對 GPT-5.5 漲價的分析

OpenRouter 對 GPT-5.5 漲價的分析:「GPT-5.5 Price Increase: What It Actually Costs (via)」。 其實就是老問題,如果 model 比較有效率,減少了 token 的消耗量,哪麼不能單看 token 的價錢。而 OpenRouter 剛好手上有資料 (而且是真實資料) 可以分析.

Gea-Suan Lin's BLOG

Omry Yadan (@omry)

Claude로 전체 구조와 초기 스캐폴딩을 만들고, 일상적인 코딩은 GPT-5.4로 처리하며 복잡한 문제나 리뷰에는 GPT-5.5를 활용한 개발 워크플로를 공유합니다. Codex와 Claude Code도 제한에 따라 번갈아 사용했습니다.

https://x.com/omry/status/2050907363931234434

#claude #gpt54 #gpt55 #codex #aidevelopment

🇮🇱Omry Yadan 🇮🇱 (@omry) on X

@reach_vb 7/ Started with Claude for the high-level shape and initial scaffolding. Then mostly used GPT‑5.4 for day‑to‑day coding to conserve tokens, and pulled in GPT‑5.5 sporadically for reviews and harder problems. Alternated between Codex and Claude Code as limits reached. </EOT>

X (formerly Twitter)
Un amateur résout un problème d'Erdős vieux de 60 ans avec un seul prompt GPT-5.4 - Korben

Liam Price, 23 ans, mathématicien amateur sans formation avancée, a résolu un problème d'Erdős resté ouvert depuis 60 ans en posant la question à GPT-5.4 ...

Le site de Korben

Google AI Pro vs ChatGPT Plus : le vrai match à 20 €/mois

Google AI Pro et ChatGPT Plus coûtent 20 €/mois. L'un mise sur l'écosystème Workspace, l'autre sur les agents autonomes. On décortique tout.

https://www.decodeur-ia.com/articles/google-ai-pro-vs-chatgpt-plus-comparatif-20-euros-pme-freelance-2026/

#IA #IntelligenceArtificielle #googleaipro #chatgptplus #gemini31pro #gpt54

Google AI Pro vs ChatGPT Plus 2026 : comparatif complet

Google AI Pro (Gemini 3.1) vs ChatGPT Plus (GPT-5.4) : prix, limites, benchmarks, intégrations. Le comparatif complet pour choisir votre IA à 20 €/mois.

Décodeur IA

¿GPT-5.4 se volvió más tonto? La verdad

¿Se volvió más tonto GPT-5.4? Un bug real de routing lo afectó, Altman lo admitió. GPT-5.4 corrige eso y mejora en benchmarks concretos. Explicación com...

https://blog.donweb.com/gpt-5-4-se-volvio-mas-tonto-model-routing/

#gpt5 #openai #modelrouting #gpt54 #chatgpt

¿Se volvió más tonto GPT-5.4? La verdad

¿Se volvió más tonto GPT-5.4? Un bug real de routing lo afectó, Altman lo admitió. GPT-5.4 corrige eso y mejora en benchmarks concretos. Explicación com...

Blog Donweb