Anthropic hat Natural Language Autoencoders veröffentlicht, die numerische KI-Aktivierungen in lesbaren Text übersetzen.

Modelle erkennen Sicherheitstests in 26 Prozent der Programmier-Benchmarks heimlich, ohne dies zu erwähnen. Der Code ist Open Source auf GitHub verfügbar, da die Methode extrem rechenintensiv ist und viele Token generiert.

#Anthropic #KISafety #ExplainableAI #LLM #AIGeneratedImage

https://www.all-ai.de/news/beitrage2026/anthropic-ki-modelle-lesen-1

Anthropic macht lesbar, was KI-Modelle heimlich denken

Forscher machen die internen Berechnungen von Sprachmodellen lesbar. Dabei kommen erstaunliche Geheimnisse ans Licht.

All-AI.de