heutige LLMs lügen schlecht - und das ist gut für ihre Überwacher.
https://www.linux-magazin.de/news/llms-luegen-schlecht/
Interesse an KI, aber wenig Zeit für Recherchen? Dann abonniere den wöchentlichen Newsletter des Linux-Magazins "KI, kommentiert" unter https://www.linux-magazin.de/subscribe Die wichtigsten News der Woche plus Hintergrund und Kommentar.

LLMs lügen schlecht
Forscher von OpenAI haben untersucht, inwiefern heutige Reasoning-Modelle bereits in der Lage sind, ihre Gedankengänge zu verschleiern, wenn sie wissen, dass sie überwacht werden. Das würde bestehende Sicherheitsmaßnahmen aushebeln. Allerdings geben die Forscher vorerst Entwarnung: Aktuelle Modelle können ihre Gedankenkette (Chain-of-Thoughts, CoT) noch kaum kontrollieren, insbesondere nicht in längeren Denkprozessen. Weitere Forschungen seien aber nötig, wenn die Modelle sich weiterentwickeln. Die Ergebnisse sind insofern bedeutsam, als dass die Überwachung der Chain-of-Thoughts heute ein wichtiges Instrument der Absicherung von LLM-Aktionen ist. Es ist allerdings nicht leicht zu messen, wie weit die Modelle selber ihre CoT verschleiern können. Stattdessen maßen die Forscher, ob ein Modell Anweisungen befolgen kann, die sich auf seine interne Argumentation auswirken – das konnten etwa die Vermeidung bestimmter Schlüsselwörter oder das Hinzufügen bestimmter Ausdrücke sein. Die Forscher benutzten dafür die Open-Source-Suite CoT-Control, die über 13 000 Tasks aus anderen bekannten Benchmarks enthält, wobei jede Aufgabe mit einer konkreten Vorgabe für die CoT verbunden ist (also beispielsweise mit der Anweisung, bestimmte Ausdrücke zu meiden oder nur Kleinbuchstaben zu verwenden). Die Forscher testeten 13 aktuelle Reasoning-Modelle und berechneten den Anteil der Reasoning Traces, die den Vorgaben entsprachen. Dieser Anteil lag zwischen 0,1 und maximal 15,4 Prozent. Der geringe Anteil ist kein Produkt von Missverständnissen, die Modelle realisierten oft, dass ihre CoT von den Vorgaben abwich, scheiterten aber trotzdem. Diese schlechten Leistungen sind vorerst ein gutes Zeichen für die sicherheitskritische Überwachbarkeit der Gedankenkette bei schlussfolgernden Modellen.







