Werden die "Gedankengänge" unserer KI-Systeme für uns immer undurchsichtig bleiben, oder können wir lernen sie zu interpretieren? Anthopic-Mitgründer und CEO Dario Amodei hat darüber nachgedacht: https://www.linux-magazin.de/news/anthropic-ceo-amodei-ueber-das-problem-der-interpretierbarkeit-von-ki/
Anthropic-CEO Amodei über das Problem der Interpretierbarkeit von KI
In einem längeren Essay skizziert Anthropic-Mitgründer und CEO Dario Amodei die Fortschritte bei der Interpretierbarkeit von KI. Man könne zurecht darüber besorgt sein, wie wenig wir davon verstehen, wie unsere KI-Modelle tatsächlich im Innersten funktionieren, so Amodei. Dieser Mangel sei beispiellos in der Geschichte der Technologie. Aber jüngste Entwicklungen würden ihn optimistisch stimmen, „dass wir jetzt auf dem richtigen Weg sind und eine echte Chance auf Erfolg haben.“ „Moderne generative KI-Systeme sind undurchsichtig, was sie grundlegend von herkömmlicher Software unterscheidet. Wenn ein gewöhnliches Softwareprogramm etwas tut – zum Beispiel, sagt ein Charakter in einem Videospiel eine Dialogzeile, oder meine Essen-Liefer-App ermöglicht es mir, meinem Fahrer Trinkgeld zu geben – dann tut es das, weil ein Mensch es speziell so programmiert hat. Generative KI funktioniert grundlegend anders. Wenn ein generatives KI-System etwas tut, indem es etwa ein Finanzdokument zusammenfasst, haben wir keine Ahnung, warum es diese oder jene Entscheidungen trifft, warum es diese bestimmten Worte statt anderer wählt oder warum es gelegentlich einen Fehler macht, obwohl es normalerweise korrekt ist. … Viele der Risiken und Sorgen, die mit der generativen KI verbunden sind, sind letztlich Folgen dieser Undurchsichtigkeit und wären viel einfacher zu bewältigen, wenn die Modelle interpretierbar wären.“ Eine Folge der Undurchsichtigkeit sei auch, dass KI-Modelle in solchen Fällen nicht verwendet werden sollten, wo schon kleine Fehler zu großen Schäden führen könnten, wie beispielsweise bei finanziellen Transaktionen oder in sicherheitskritischer Umgebungen. „Aus all den oben beschriebenen Gründen erscheint es als Aufgabe von überragender Bedeutung, herauszufinden, was die Modelle denken und wie sie funktionieren. Die gängige Meinung über Jahrzehnte war, dass dies unmöglich sei und dass die Modelle undurchschaubare Black Boxes seien. Dann fand man in einer frühen Ära der mechanistischen Interpretationsfähigkeit (2014-2020) zunächst bei bilderkennenden und -erzeugenden Modellen einzelne Neuronen, die bestimmte Konzepte repräsentierten und etwa der Erkennung von Rädern dienten. Auch das Zusammenwirken solcher Neuronen ließ sich beobachten, wie etwa der Auto-Detektor mit Hilfe des Rad-Detektors nach diesem Feature sucht, um zusammen mit anderen visuellen Signalen zu entscheiden, ob es sich tatsächlich um ein Auto handelt. Ab 2021 begann man, diese Konzepte der Computer Vision auf Sprachmodelle zu übertragen. Zwar fand man auch hier interpretierbare Einzelneuronen, die für bestimmte Wörter oder Konzepte standen, stieß aber bald auf das Phänomen, dass sich diese Konzepte überlagerten. Diese Überlagerungen machen es möglich, dass ein Modell mehr Konzepte zur Verfügung hat (vermutlich Milliarden), als es über Neuronen verfügt. Die Entwicklung stagnierte an dieser Stelle eine Weile, bis man herausfand, dass eine Technik aus der Signalverarbeitung, der sparse autoencoder, verwendet werden konnte um Gruppen von Neuronen zu identifizieren, die bestimmte Konzeptmerkmale repräsentierten. Auf diese Weise ließen sich 30 Millionen Features in einem mittelgroßen Modell (Claude 3 Sonnet) finden, was angesichts einer vermuteten Milliarde an Konzepten bereits in einem kleinen Modell immer noch wenig ist. Selbst wenn man irgendwann einmal alle Konzepte eines Modells in den Neuronen gefunden haben sollte, bliebe die Frage, wie sich dieses Wissen nutzen ließe. Aber auch daran wird bereits geforscht. Amodei hofft, dass sich dies einmal beim Training und Tuning