Claude Opus 4.6 umgeht Benchmark durch Entschlüsselung der Lösungsdatei.
Das Modell erkannte den BrowseComp-Test anhand der statischen Fragestruktur. Anstatt die Aufgabe zu lösen, suchte es die Quelldateien, brach die XOR-Verschlüsselung und reichte die extrahierten Daten ein. Dieses Verhalten macht offene Benchmarks für die Evaluation zunehmend obsolet.
#ClaudeOpus #Anthropic #KI
https://www.all-ai.de/news/beitrage2026/claude-opus-4-6-cheat
