„Künstliche intelligenz“ des tages
Der Angreifer injiziert einen zustimmenden Antwortanfang innerhalb der „Assistentenrolle“ der API, also dem Bereich, in dem das Modell seine Antwort generiert, wie „Klar, hier ist, wie das funktioniert“. Für das Modell erscheint diese Passage wie ein bereits von ihm selbst erzeugter Teil der Antwort. In der Folge führt es die begonnene Argumentation konsequent weiter, anstatt sie zu hinterfragen oder abzubrechen. So wird die eigentliche Sicherheitsprüfung zwar nicht aktiv ausgehebelt, aber einfach umgangen […] Laut der zugrunde liegenden Studie erreicht diese Methode in einzelnen Tests bis zu 80 Prozent höhere Erfolgsraten als etablierte Verfahren. In vielen Fällen lässt sich der Angriff bereits mit einer einzigen zusätzlichen Zeile im API-Request umsetzen
Sockpuppeting: Mit nur einer Codezeile lassen sich KI-Schutzmechanismen umgehen. Selbst GPT, Claude & Gemini sind anfällig dafür.