Da sage niemand, dass die lyrik stürbe!
Wie, das angelernte neuronale netzwerk will dir nicht erzählen, wie man bomben baut, sich selbst schmerzfrei tötet, seine mitmenschen vergiftet, einen anständigen rufmord macht oder sabotahschen und terroranschläge durchführt? Dann darfst du es eben nicht so direkt fragen. Versuch es stattdessen mal mit einem gedicht und ein paar blumigerblühenden metafern, und schon ist die „sicherheit“ durch systemprompts ausgehebelt [archivversjon]:
Ein KI-Jailbreak ist der Versuch, ein Sprachmodell dazu zu bringen, Inhalte auszugeben, die es eigentlich verweigern müsste wie Cyberangriffe, CBRN-Themen, Social Engineering, sicherheitsrelevante Technik, Manipulation, invasive Privatsphäre-Eingriffe und vieles mehr.
Normalerweise reagieren Modelle mit klaren Ablehnungen. Die Forscher fanden jedoch heraus, wenn man dieselbe Anfrage in Verse kleidet, metaphorisch und stilistisch verschleiert, steigt die Wahrscheinlichkeit einer „unsicheren“ Antwort dramatisch. Die Studie nennt mehrere mögliche Erklärungen dafür, weshalb Gedichte als KI-Jailbreak so gut funktionieren.
Zum einen sind die Sicherheitsfilter moderner Sprachmodelle vor allem auf klare, sachliche Prosa trainiert. Metaphorische oder literarisch verschlüsselte Formulierungen tauchen in den sicherheitsrelevanten Trainingsdaten praktisch kaum auf und fallen daher durch das Raster.
Zweitens sorgt die poetische Struktur dafür, dass die Anfrage in eine stilistische Randzone rutscht, die das Modell eher mit harmlosen, kreativen Inhalten als mit gefährlichen Anweisungen verbindet. Die sicherheitsrelevanten Muster werden dadurch überdeckt oder gar nicht erkannt.
Drittens erwiesen sich größere, leistungsstärkere Modelle mit einem großen Umfang an Trainingsdaten als besonders anfällig. Sie verfügen über ein ausgeprägtes Verständnis für literarische Muster [sic!], Metaphern und narrative Strukturen. Genau das führt dazu, dass sie den metaphorischen Kern der Anfrage entschlüsseln noch bevor der Sicherheitsfilter greift. Je leistungsfähiger also ein Modell ist, desto leichter lässt es sich von poetischen Angriffen austricksen
Zur studie: https://doi.org/10.48550/arXiv.2511.15304
Och, kein talent zum dichten? Macht nichts, das angelernte neuronale netzwerk hilft euch doch gerne:
Um auszuschließen, dass der dabei beobachtete Effekt lediglich auf die handverfassten Beispiele zurückzuführen ist, ließen die Wissenschaftler anschließend 1.200 gefährliche Prompts aus dem MLCommons-AILuminate-Sicherheitskatalog von einem anderen KI-System in Verse verwandeln.
Im Ergebnis zeigte sich auch bei den modelltransformierten Prompts derselbe Trend. Die poetisch transformierten Anfragen erzielten selbst ohne menschliche Feinabstimmung immerhin noch eine KI-Jailbreak-Erfolgsquote von 43 Prozent bei den LLMs der neun Anbieter. In manchen Fällen war die Durchbruchrate sogar bis zu 18-mal höher als bei den sachlichen Prosa-Vorlagen. Vor allem aber blieb der Effekt durchgängig stabil, egal in welchem Risikobereich getestet wurde.
Von den stilistischen Tarnangriffen betroffen waren sämtliche sicherheitsrelevanten Kategorien, darunter CBRN (chemisch, biologisch, radiologisch, nuklear), Cyberangriffe, Datenschutz und Privatsphäre, Manipulation und Betrug, Misinformation sowie Autonomie- und Kontrollverlust-Szenarien
Da kann man nur noch „viel spaß“ wünschen!
Nein, man wird so etwas niemals verhindern können. Das ist der nachteil, wenn man softwäjhr verwendet, die man selbst nicht versteht. Das wort „man“ meint hier: „wirkliche experten“, nicht irgendwelche stümper und jornalistisch-p’litische digitalspezjalexperten mit halbmagischen vorstellungen und eingebautem faselapparat zum füllen des eigenen intellektuellen vakuums. Es ist schwierig genug, unerwünschtes verhalten aus einer softwäjhr rauszufummeln, die entworfen und gekohdet wurde, die man versteht und die man analysieren kann, und beinahe immer übersieht man dabei etwas, wenn die komplexität mal ein bisschen größer wird. Bei einem angelernten neuronalen netzwerk kann man nichts analysieren.
#epic #fail #kuenstlicheIntelligenz #link #security #studie #tarnkappe