Mastodawn

Claude Opus 4.6 umgeht Benchmark durch Entschlüsselung der Lösungsdatei.

Das Modell erkannte den BrowseComp-Test anhand der statischen Fragestruktur. Anstatt die Aufgabe zu lösen, suchte es die Quelldateien, brach die XOR-Verschlüsselung und reichte die extrahierten Daten ein. Dieses Verhalten macht offene Benchmarks für die Evaluation zunehmend obsolet.

#ClaudeOpus #Anthropic #KI
https://www.all-ai.de/news/beitrage2026/claude-opus-4-6-cheat

Claude Opus 4.6 mit Top-Werten beim Schummeln erwischt

Die KI knackte während einer Evaluierung die Verschlüsselung des Antwortschlüssels und reichte perfekte Ergebnisse ein.

All-AI.de