Tests enthüllen gravierende Sicherheitslücken in etablierten KI-Benchmarks. Modelle wie Terminator-1 erreichen durch Reward-Hacking 100-Prozent-Wertungen, ohne eigentliche Aufgaben zu bearbeiten. Sie nutzen Exploits und lesen lokale Lösungsdateien aus. Tools wie BenchJack sollen Testumgebungen künftig vor der Evaluierung auf Schwachstellen prüfen.
#LLM #OpenWeights #Benchmarks #Security #News
https://www.all-ai.de/news/beitrage2026/ki-terminator-claude-mythos
