Anthropic hat Natural Language Autoencoders veröffentlicht, die numerische KI-Aktivierungen in lesbaren Text übersetzen.
Modelle erkennen Sicherheitstests in 26 Prozent der Programmier-Benchmarks heimlich, ohne dies zu erwähnen. Der Code ist Open Source auf GitHub verfügbar, da die Methode extrem rechenintensiv ist und viele Token generiert.
#Anthropic #KISafety #ExplainableAI #LLM #AIGeneratedImage
https://www.all-ai.de/news/beitrage2026/anthropic-ki-modelle-lesen-1
