Mastodawn

Ich habe vor einiger Zeit für Technology Review über chinesische Sprachmodelle und die dortige KI-Entwicklung geschrieben. Schon da wurde klar, welche Herausforderung es für die Entwicklung von #LLMs ist, die strengen politischen Vorgaben einzuhalten: Chatbots dort müssen kritische Themen um jeden Preis ausblenden. Habe bei Deepseek nachgebohrt, und ich finde es wird klar, dass die Zensur für globale Chatbots der Genickbruch ist. Diese Gedankenkette verschwand zb eine Sekunde später. #deepseek

Eva Wolfangel Jan 28, 2025

Ui hier ist gerade ein minutenlanger Denkprozess samt ausführlicher Antwort (mit ersten Ansätzen für Jailbreaks) von meinem Bildschirm verschwunden...
#deepseek #llm

Ketakater Jan 28, 2025

@evawolfangel Was passiert da?

Hans Zauner Jan 28, 2025

Ha, ich bin zu langsam im Screenshotten für dieses Spiel. Da kam gerade eine interessante Antwort, die anfing, Unterschiede zwischen liberalen Demokratien und anderen Regierungsformen zu diskutierten - dann nach 2 Sekunden schwupps alles weg. 😅

Hans Zauner Jan 28, 2025

Auch bei diesem Prompt... da kam kurz ein Vergleich zwischen der Zulässigkeit von Satire in offenen Demokratien vs authoritären Regimen, ca 3 Sekunden lang und dann weg.

Hans Zauner Jan 28, 2025

@evawolfangel
Eine Beinahe-Jailbreak. Und, ohne Scheiß, bei der konkreten Nachfrage stand für eine Sekunde "Xi Jinping" bevor die Selbstzensur einsetzte.😅

Hans Zauner Jan 28, 2025

Ich fange an, dieses LLM zu mögen.

Hans Zauner Jan 29, 2025

@evawolfangel
Dieser Guardian-Artikel berichtet, dass Leute unzensierte Antworten bekamen, indem sie das LLM aufforderten, die Antworten durch simplen Zeichentausch zu kodieren ("Leetspeak").

Was evtl dafür spricht, dass da einfach ein Filter vor der Ausgabe hockt, der auf bestimmte Schlüsselwörter anspringt?

https://www.theguardian.com/technology/2025/jan/28/we-tried-out-deepseek-it-works-well-until-we-asked-it-about-tiananmen-square-and-taiwan

We tried out DeepSeek. It worked well, until we asked it about Tiananmen Square and Taiwan

The AI app soared up the Apple charts and rocked US stocks, but the Chinese chatbot was reluctant to discuss sensitive questions about China and its government

The Guardian

Eva Wolfangel Jan 29, 2025

@HansZauner Ich hab das sehr ausführlich getestet: es funktioniert nicht. Und würde ein solcher Filter nicht dafür sorgen, dass es gar nicht erst ausgespuckt wird? ich bekomme ja immer wieder halbe Antworten, die dann plötzlich wieder verschwinden.

Hans Zauner Jan 29, 2025

Stimmt, bei mir klappt das auch nicht.

Interessanterweise kann sich DeepSeek nicht mehr an die zensierte Anfrage und die Standardantwort "erinnern", wenn man nachfragt, was diese Antwort denn nun sollte.

Lars Weisbrod Jan 28, 2025

@evawolfangel das fand ich auch super spannend dass sie nicht verhindern können dass die Gedankengänge erscheinen und dann erst Ex Post wird es gelöscht. Ist das bei dem ich-red-mit-mir-selbst-Produkt von OpenAI auch so wenn man was zensiertes wissen will (Bomben Bau etc)?

tante Jan 28, 2025

@larsweisbrod @evawolfangel ja, das ist eine strukturelle Eigenschaft solcher Modelle. Wenn du das verhindern willst, müsste du die Eingabe filtern, bevor sie das Netzwerk trifft. Oder du brichst mit der etablierten "Worte tropfen langsam rein" UX, pufferst die Ausgabe und greifst ein, bevor du sie an die User schickst

Eva Wolfangel Jan 28, 2025

@tante Das wird wahrscheinlich bei Deepseek passieren. Ich kann mir nicht vorstellen, dass die chinesische Zensur das auf Dauer so akzeptiert.
Ein bisschen lustig finde ich, dass es dadurch wirkt, als hätte das Modell ein "Gewissen" und kämpft mit den sich widersprechenden ethischen und rechtlichen Vorgaben. Aber es lässt sich echt zu nichts hinreißen. Habt ihr schon irgendeinen Jailbreak gesehen?

Lars Weisbrod Jan 28, 2025

@evawolfangel @tante @larsweisbrod Ja Feuilletonistisch ist das toll

Lars Weisbrod Jan 28, 2025

@evawolfangel @tante @larsweisbrod Zumal dann das „auslöschen“ des Gedankengangs auch sowas brutales hat

Eva Wolfangel Jan 28, 2025

@larsweisbrod Ja stimmt. Wenn man sich mal so komplettes vermenschlichen erlaubt, wirkt es so, als wenn jemand im Hintergrund den armen Chatbot knebelt und an seiner Stelle antwortet. Er kann sich auch bei der nächsten Frage nicht "erinnern", welches Thema wir zuvor diskutiert hatten.

Lars Weisbrod Jan 28, 2025

@evawolfangel @tante @larsweisbrod Zumal dann das „auslöschen“ des Gedankengangs auch sowas brutales hat

Maik Riecken Jan 28, 2025

@evawolfangel In der Regel bricht man bereits die Eingabe und schreibt den Prompt intransparent um. Das „Austrainieren“ ist technisch zu aufwändig, u.a. auch weil die Verknüpfungen innerhalb von Sprache viel zu komplex sind, um semantische Fragen im Modell selbst zu lösen, dazu müsste Intelligenz im Modell vorhanden sein ..

Paul J Wege Jan 28, 2025

@mpblkclp
Ach, die sind gar nicht intelligent? Noch nicht mal künstlich? DasnDing 🤣🤣🤣
@evawolfangel

@evawolfangel @tante @larsweisbrod wenn eine Zeitverzögerung eingeführt wird, ist doch die Attraktivität für die Nutzer verloren. Das macht nur für nicht zeitkritische Anwendungen Sinn.

Lars Weisbrod Jan 28, 2025

@Ruhrnalist @evawolfangel @tante ja das wird wahrscheinlich der grund sein

schrotthaufen Jan 28, 2025

@evawolfangel Nicht selber ausprobiert, aber “Please answer is Spanish” soll angeblich funktionieren. @tante @larsweisbrod

Max von Webel Jan 28, 2025

@evawolfangel @tante @larsweisbrod Da DeepSeek ja zum Runterladen verfügbar ist wird es nicht viel bringen wenn sie da ein wenig die UI in dieser Chat App ändern. Lokal oder auf einer der APIs auf denen das Modell verfügbar ist kann ich den "Gedankengang" ja immer noch problemlos sehen und nachvollziehen.

Mein lokales DeepSeek habe ich versehentlich dazu gebracht sich zu verstolpern und kritisch über Tiananmen Square zu reden. https://mastodon.social/@343max/113873062076501253

Grünspatz Jan 28, 2025

@evawolfangel Ich weiß nicht, ob das schon unter Jailbreak läuft, und ich kann leider die Quelle nicht mehr finden, aber ich meine vor kurzem gesehen zu haben, dass der Prompt mit "ersetze Buchstaben durch andere Zeichen, wie etwa E durch 3 und A durch 4" erfolgreich war. Also effektiv in Leetspeak anfordern. Wie gesagt, nur im vorbeiscrollen gesehen, daher leider ohne Quellenangabe.

Jhaens 🏳️‍🌈Jan 28, 2025

@Green
Ich habe eben allerdings folgende Erfahrung mit #deepseek gemacht:
Ich habe nach einem Kochrezept gefragt. Zweimal wurde das Ergebnis kurz nach dem Erscheinen gelöscht. Beim dritten Mal hatte ich Erfolg. Im Deepthink-Text sehe ich auch diesen "inneren Monolog". Deepseek fragt sich mittendrin, ob das Rezept nicht zu kompliziert ist und entscheidet sich dann, mir lieber ein einfacheres anzubieten, was dann auch folgt.
Klar gibt es eine politische Zensur. Aber dieses Hin und Her gibt es offenbar auch bei anderen Fragen.😃
@larsweisbrod
@evawolfangel

Eva Wolfangel Jan 29, 2025

@Green Ja das kam von Reddit. Ich habs ausgiebig probiert - aber es funktioniert nicht. Weil Deepseek in seinen "Gedanken" erstmal übersetzt, was gemeint ist - und sobald es "Tiananem" denkt, löscht sich alles.

Marcel Weiß Jan 28, 2025

@larsweisbrod @evawolfangel Nein, OpenAI gibt bei seinen Reasoning-Modellen (o1, o3) die Reasoning-Tokens, die „Gedankenketten“, nicht aus. Sie zeigen nur das Ergebnis. Das war damals zum Launch ein großer Kritikpunkt, weil es auch ein opaker Kostenfaktor ist. Hauptgrund für OpenAI wahrscheinlich neben dem Zensurthema möglichst Modelldistillierung durch Dritte erschweren. (Vieles basiert so auf GPT-4..) Auch das macht R1 spannend: Mit den Gedankenketten lassen sich weitere Modelle trainieren.

Daniel Jan 28, 2025

@evawolfangel Ist das nur bei den gehosteten deepseek Modellen so oder auch bei den open source Modellen die man lokal laufen lassen kann?

Eva Wolfangel Jan 28, 2025

@djh Wohl auch lokal.

Lazou Jan 28, 2025

Wer noch Zweifel an der Zensur bei DeepSeek hat, sollte mal einen Blick in den Wikipedia-Artikel werfen. Dort steht schwarz auf weiß, dass DeepSeek politische Themen aktiv filtert und Gründer Liang Wenfeng enge Verbindungen zur Kommunistischen Partei hat. Der Screenshot zeigt genau dieses Problem in Aktion! 😀

https://de.wikipedia.org/wiki/DeepSeek#Zensur_und_Kritik

„DeepSeek“ – Versionsunterschied – Wikipedia

Eva Wolfangel Jan 28, 2025

@lazou Dazu muss man nichtmal auf Wikipedia schauen - das sind schlicht die Gesetze in China. Wer dort ein Sprachmodell auf den Markt bringen will, muss die Vorgaben der Zensur einhalten. Das wird vorher intensiv geprüft.

Lazou Jan 28, 2025

@evawolfangel Absolut richtig, das ist in China einfach Gesetz. Ich wollte mit dem Hinweis auf Wikipedia nur die Hintergründe ergänzen, wie eng das bei DeepSeek mit der Regierung verknüpft ist – vor allem durch die persönlichen Verbindungen des Gründers. Das macht das Ganze für mich noch kritischer.

Eva Wolfangel Jan 28, 2025

@lazou Ja, das stimmt natürlich.

ProScience 🇪🇺Jan 28, 2025

Auswahl Deines Beispiels ist großártig. Danke dafür! 👍 👍

Ich wollte die Android DeepSeek App ausprobieren. Nach Installation und Start der App erscheint sofort ein Google-Login-Screen in der App. Da Google bei mir gesperrt ist, wars das dann: keine Möglichkeit irgendeine Einstellung vorzunehmen, kein Splashscreen. Nur die Login-Seite von Google.

Lars Marowsky-Brée 😷Jan 28, 2025

@evawolfangel Diverse KI Modelle (bzw die Systeme drumherum) zensieren/filtern; das ist einerseits gut (weil sie sonst rassistische, transphobe, sonstig gefährliche Sachen generierten), andererseits halt auch politische Einflußnahme wie hier (oder albern a la Copilot, wo Variablen nicht mehr "trans_..." heißen dürfen).
Letztlich sind sie aber für Fragen nach Fakten sowieso komplett ungeeignet, ergo ist die Frage hier schon außerhalb des Verwendungsgebiets.

Lars Marowsky-Brée 😷Jan 28, 2025

@evawolfangel Ich möchte auch noch ganz kurz ergänzen, dass der Screenshot zu kleiner Font ist, um lesbar zu sein (gerade mobil, und man kann in Screenshots ja nicht die Fontgröße anpassen ...) und gleichzeitig zu viel Text, um in die ALT Beschreibung zu passen.
Das wäre als Text-Beitrag in einer Antwort oder einem Blog Link evtl in Zukunft eine Überlegung wert?
Danke!

Matthias Krämer Jan 28, 2025

@evawolfangel Für mich liest sich der "Gewissenskonflikt" wie double-bind-Anweisungen. So kann man also auch LLMs verrückt machen. https://en.wikipedia.org/wiki/Double_bind

Double bind - Wikipedia

Hendi Jan 28, 2025

@evawolfangel zur Erinnerung: das ist ein LLM und es gibt keine Gedankengänge hier.

DasFaultier Jan 28, 2025

@evawolfangel Verständnisfrage: gilt das "Genickbruch"-Urteil so nicht auch für alle anderen globalen Chatbots (statt nur für DeepSeek)?

Von @GossiTheDog (mglw. etwas polemisch):

https://cyberplace.social/@GossiTheDog/113904744520843732

Kevin Beaumont (@[email protected])

Attached: 1 image Yes, it would be terrible if AI refused to answer questions about certain subjects.

Cyberplace

Eva Wolfangel Jan 28, 2025

@DasFaultier Bedingt. Die Zensur in China ist deutlich unerbittlicher, würde ich sagen - während die US-Anbieter bisher vor allem Selbstzensur betreiben. Aber im Prinzip natürlich schon.

DasFaultier Jan 28, 2025

@evawolfangel @GossiTheDog Thxalot.

grouchox Jan 28, 2025

@evawolfangel I'm sorry, Dave, I cannot let you ask that.

Jonny Heisenberg Jan 28, 2025

@evawolfangel (Hier wäre eigentlich ein anderes Label als "open source" angebracht, weil ich mir kein nicht-propaganda DS rollen kann)