Mastodawn

RE: https://mastodon.social/@AwetTesfaiesus/116340595836143259

Ein Mal das Gerechtigkeitsempfinden aller billig und gerecht denkenden Nerds getestet.

Ich denke, das empfinden steht nicht unbedingt im Einklang mit geltenden Recht. Ich würde auch sagen, die Büchse der Pandora ist sehr weit offen.

Die Frage ist: was folgt nun daraus?
(Bitte gern bevorzugt gewaltfrei aber radikale Ideen)

Show thread

Brewbart 4d ago

@AwetTesfaiesus Ich denke eine datenschutzrechtliche Kontrolle ist ohne Zerschlagung der größten Modelle nicht mehr möglich. Neuronale Netze sind eine so überkomplizierte Datenstruktur, was einmal in die Gewichte gekommen ist kriegst du nie mehr raus. Auch wenn du einen konkreten "Gedächtnisteil" kontrollieren kannst, die Wahrscheinlichkeitsverteilung bereinigen - no way. Was ein Teilansatz sein könnte wäre eine Pflicht zur Kontexttransparenz (siehe https://arxiv.org/abs/2410.12586v2) (1/2)

How to Make LLMs Forget: On Reversing In-Context Knowledge Edits

In-context knowledge editing (IKE) enables efficient modification of large language model (LLM) outputs without parameter changes and at zero-cost. However, it can be misused to manipulate responses opaquely, e.g., insert misinformation or offensive content. Such malicious interventions could be incorporated into high-level wrapped APIs where the final input prompt is not shown to end-users. To address this issue, we investigate the detection and reversal of IKE-edits. First, we demonstrate that IKE-edits can be detected with high accuracy (F1 > 80\%) using only the top-10 output probabilities of the next token, even in a black-box setting, e.g. proprietary LLMs with limited output information. Further, we introduce the novel task of reversing IKE-edits using specially tuned reversal tokens. We explore using both continuous and discrete reversal tokens, achieving over 80\% accuracy in recovering original, unedited outputs across multiple LLMs. Our continuous reversal tokens prove particularly effective, with minimal impact on unedited prompts. Through analysis of output distributions, attention patterns, and token rankings, we provide insights into IKE's effects on LLMs and how reversal tokens mitigate them. This work represents a significant step towards enhancing LLM resilience against potential misuse of in-context editing, improving their transparency and trustworthiness.

arXiv.org

Show thread

Brewbart 3d ago

@AwetTesfaiesus Zusätzlich müsste es einen Datenschutzlayer geben der Antworten auf Konformität prüft, also sobald da kontextexterner, schützenswerter Inhalt generiert wird darf dieser entweder nicht zum User geleitet werden oder muss hypothetisiert / gescrambelt werden. Gleichzeitig sollte in diesem Fall eine Strichliste bei einer Datenschutzkartei geführt werden: Wenn dein Produkt regelmäßig gegen Recht verstößt hagelt es so viele Strafen, dass deine Wirtschaftlichkeit über Bord geht (2/2)

Show thread

Brewbart

@AwetTesfaiesus Nachtrag: Woher weiß ein llm was echte schutzwürdige Daten sind und was nicht? Also ohne Abgleich mit bspw Einwohnermeldeamtdaten. Da haben wir wieder das Grundproblem der Datensammlung. Ein Anwendungsfall ist die LLM Persona, die für erste Akzeptanztests genutzt wird von unempathischen Leuten mit zu viel Geld..

Show thread

Awet Tesfaiesus, MdB 3d ago

@brewbart aus dem Prompt?

Show thread

Brewbart 3d ago

@AwetTesfaiesus Das klärt aber nur den Fall, wenn wer direkt danach fragt! Und in Falle "Persona im großen LLM" muss ich ja auch garantieren, dass wenn ich meine Persona "Marlis Meier" nenne, dass keine wirklichen Daten zu einer Marlis Meier ausgegeben werden