Sehr scher zu entdecken: LLMs verstecken Schadcode in harmlosen Dateien
Interesse an KI, aber wenig Zeit für Recherchen? Dann abonniere den wöchentlichen Newsletter des Linux-Magazins "KI, kommentiert" unter https://www.linux-magazin.de/subscribe Die wichtigsten News der Woche plus Hintergrund und Kommentar.

Forscher enthüllen neue Angriffstechnik durch versteckten Schadcode
Die Abwehr von Schadcode konzentriert sich heute darauf, Hintertüren im Code zu entdecken. Forscher des Berlin Institute for the Foundations of Learning and Data (BIFOLD), der TU Berlin und des CISPA Helmholtz Center for Information Security, konnten nun zeigen, dass es auch möglich ist, mit großen Sprachmodellen eine bösartige Nutzlast in harmlose Tarn-Daten wie der Dokumentation oder Konfigurationsfiles zu verstecken. Frühere Arbeiten hatten sich darauf konzentriert, Hintertüren innerhalb der Software selbst aufzuspüren und zu entschärfen, beispielsweise durch Programmanalyse, Netzwerküberwachung oder mithilfe von Entwurfsprinzipien. Ebenso haben sich frühere Angreifer darauf konzentriert, bösartigen Code durch Verschleierung (Obfuscation) schwer analysierbar zu machen. Die Autoren der vorliegenden Studie argumentieren nun, dass diese Perspektive zu eng gefasst ist und Verstecke außerhalb der Software, einschließlich in der Dokumentation und den Build-Skripten, übersieht. Inspiriert von Fortschritten in der Steganografie befürchten sie, dass Hintertüren in Daten versteckt sein könnten, denen in der Sicherheitsforschung bisher wenig Aufmerksamkeit geschenkt wurde. Um das zu demonstrieren, nahmen sie die Perspektive der Angreifer ein und untersuchten, wie sich mithilfe großer Sprachmodelle (LLMs) Nutzdaten in verschiedene Trägermedien einbetten lassen. Im Gegensatz zur Steganografie muss die Dekodierung jedoch einen geringen Fußabdruck aufweisen, um eine Entdeckung zu vermeiden. Die Forscher verwendeten daher kleine Dekodierungsroutinen, die den Schadcode ohne Zugriff auf das LLM wiederherstellen. Die Dekoder bestehen nur aus ganz wenigen Zeilen Perl-, Python- oder Shell-Code. Die Daten, in die der Schadcode eingebettet wird, erscheinen vollkommen plausibel und natürlich. Der Angriff vollzieht sich dann in einem zweistufigen Prozess, der einen Encoder umfasst, der für die Einbettung von Schadcode in scheinbar harmlose Dokumente zuständig ist, sowie einen Decoder, der den ursprünglichen Code in der Umgebung des Opfers rekonstruiert. Im Gegensatz zu bestehenden Arbeiten zur Steganografie führen die Forscher eine erhebliche Asymmetrie zwischen Kodierung und Dekodierung ein. Der Kodierungsschritt läuft während der Vorbereitung auf dem System des Angreifers ab und kann Kontextinformationen sowie ein LLM voll ausschöpfen, um die Eigenschaften des Trägermediums zu modellieren. Der Dekodierer wiederum rekonstruiert die Nutzlast aus der Trägerdatei und ist als minimale Routine ohne Zugriff auf das LLM implementiert. Die Analyse zeigt, dass ein wirksamer Schutz vor dieser Bedrohung alles andere als einfach ist. Wie bei der herkömmlichen Malware-Analyse ist die Modellierung von Decodern und verschlüsselten Nutzdaten im Nachhinein einfach, doch die Erkennung bisher unbekannter Angriffe bleibt eine enorme Herausforderung. Die Studienautoren vertreten daher die Ansicht, dass der Schutz vor Angriffen auf die Lieferkette früher ansetzen muss, und zwar durch eine sorgfältigere Überprüfung der Mitwirkenden und durch die Aufrechterhaltung einer klaren Verantwortlichkeit für die von ihnen vorgenommenen Änderungen. Dies stellt Open-Source-Projekte, die auf offenen Mitwirkungsmodellen basieren, vor erhebliche Herausforderungen. Gleichzeitig stellt diese Offenheit jedoch eine zentrale Schwachstelle dar, sodass ein besserer Schutz langfristig unvermeidlich ist. Die vorliegende Studie soll zu einem gesteigerten Bewusstsein beitragen und weitere Forschungen zu Abwehrmaßnahmen fördern.

