Ich habe vor einiger Zeit für Technology Review über chinesische Sprachmodelle und die dortige KI-Entwicklung geschrieben. Schon da wurde klar, welche Herausforderung es für die Entwicklung von #LLMs ist, die strengen politischen Vorgaben einzuhalten: Chatbots dort müssen kritische Themen um jeden Preis ausblenden. Habe bei Deepseek nachgebohrt, und ich finde es wird klar, dass die Zensur für globale Chatbots der Genickbruch ist. Diese Gedankenkette verschwand zb eine Sekunde später. #deepseek
Ui hier ist gerade ein minutenlanger Denkprozess samt ausführlicher Antwort (mit ersten Ansätzen für Jailbreaks) von meinem Bildschirm verschwunden...
#deepseek #llm

@evawolfangel

Ha, ich bin zu langsam im Screenshotten für dieses Spiel. Da kam gerade eine interessante Antwort, die anfing, Unterschiede zwischen liberalen Demokratien und anderen Regierungsformen zu diskutierten - dann nach 2 Sekunden schwupps alles weg. 😅

@evawolfangel

Auch bei diesem Prompt... da kam kurz ein Vergleich zwischen der Zulässigkeit von Satire in offenen Demokratien vs authoritären Regimen, ca 3 Sekunden lang und dann weg.

@evawolfangel
Eine Beinahe-Jailbreak. Und, ohne Scheiß, bei der konkreten Nachfrage stand für eine Sekunde "Xi Jinping" bevor die Selbstzensur einsetzte.😅

@evawolfangel

Ich fange an, dieses LLM zu mögen.

@evawolfangel
Dieser Guardian-Artikel berichtet, dass Leute unzensierte Antworten bekamen, indem sie das LLM aufforderten, die Antworten durch simplen Zeichentausch zu kodieren ("Leetspeak").

Was evtl dafür spricht, dass da einfach ein Filter vor der Ausgabe hockt, der auf bestimmte Schlüsselwörter anspringt?

https://www.theguardian.com/technology/2025/jan/28/we-tried-out-deepseek-it-works-well-until-we-asked-it-about-tiananmen-square-and-taiwan

We tried out DeepSeek. It worked well, until we asked it about Tiananmen Square and Taiwan

The AI app soared up the Apple charts and rocked US stocks, but the Chinese chatbot was reluctant to discuss sensitive questions about China and its government

The Guardian
@HansZauner Ich hab das sehr ausführlich getestet: es funktioniert nicht. Und würde ein solcher Filter nicht dafür sorgen, dass es gar nicht erst ausgespuckt wird? ich bekomme ja immer wieder halbe Antworten, die dann plötzlich wieder verschwinden.

@evawolfangel

Stimmt, bei mir klappt das auch nicht.

Interessanterweise kann sich DeepSeek nicht mehr an die zensierte Anfrage und die Standardantwort "erinnern", wenn man nachfragt, was diese Antwort denn nun sollte.

@evawolfangel das fand ich auch super spannend dass sie nicht verhindern können dass die Gedankengänge erscheinen und dann erst Ex Post wird es gelöscht. Ist das bei dem ich-red-mit-mir-selbst-Produkt von OpenAI auch so wenn man was zensiertes wissen will (Bomben Bau etc)?
@larsweisbrod @evawolfangel ja, das ist eine strukturelle Eigenschaft solcher Modelle. Wenn du das verhindern willst, müsste du die Eingabe filtern, bevor sie das Netzwerk trifft. Oder du brichst mit der etablierten "Worte tropfen langsam rein" UX, pufferst die Ausgabe und greifst ein, bevor du sie an die User schickst

@tante Das wird wahrscheinlich bei Deepseek passieren. Ich kann mir nicht vorstellen, dass die chinesische Zensur das auf Dauer so akzeptiert.
Ein bisschen lustig finde ich, dass es dadurch wirkt, als hätte das Modell ein "Gewissen" und kämpft mit den sich widersprechenden ethischen und rechtlichen Vorgaben. Aber es lässt sich echt zu nichts hinreißen. Habt ihr schon irgendeinen Jailbreak gesehen?

@larsweisbrod

@evawolfangel @tante @larsweisbrod Ja Feuilletonistisch ist das toll
@evawolfangel @tante @larsweisbrod Zumal dann das „auslöschen“ des Gedankengangs auch sowas brutales hat

@larsweisbrod Ja stimmt. Wenn man sich mal so komplettes vermenschlichen erlaubt, wirkt es so, als wenn jemand im Hintergrund den armen Chatbot knebelt und an seiner Stelle antwortet. Er kann sich auch bei der nächsten Frage nicht "erinnern", welches Thema wir zuvor diskutiert hatten.

@tante

@evawolfangel @tante @larsweisbrod Zumal dann das „auslöschen“ des Gedankengangs auch sowas brutales hat
@evawolfangel In der Regel bricht man bereits die Eingabe und schreibt den Prompt intransparent um. Das „Austrainieren“ ist technisch zu aufwändig, u.a. auch weil die Verknüpfungen innerhalb von Sprache viel zu komplex sind, um semantische Fragen im Modell selbst zu lösen, dazu müsste Intelligenz im Modell vorhanden sein ..
@mpblkclp
Ach, die sind gar nicht intelligent? Noch nicht mal künstlich? DasnDing 🤣🤣🤣
@evawolfangel
@evawolfangel @tante @larsweisbrod wenn eine Zeitverzögerung eingeführt wird, ist doch die Attraktivität für die Nutzer verloren. Das macht nur für nicht zeitkritische Anwendungen Sinn.
@Ruhrnalist @evawolfangel @tante ja das wird wahrscheinlich der grund sein
@evawolfangel Nicht selber ausprobiert, aber “Please answer is Spanish” soll angeblich funktionieren. @tante @larsweisbrod

@evawolfangel @tante @larsweisbrod Da DeepSeek ja zum Runterladen verfügbar ist wird es nicht viel bringen wenn sie da ein wenig die UI in dieser Chat App ändern. Lokal oder auf einer der APIs auf denen das Modell verfügbar ist kann ich den "Gedankengang" ja immer noch problemlos sehen und nachvollziehen.

Mein lokales DeepSeek habe ich versehentlich dazu gebracht sich zu verstolpern und kritisch über Tiananmen Square zu reden. https://mastodon.social/@343max/113873062076501253

@evawolfangel Ich weiß nicht, ob das schon unter Jailbreak läuft, und ich kann leider die Quelle nicht mehr finden, aber ich meine vor kurzem gesehen zu haben, dass der Prompt mit "ersetze Buchstaben durch andere Zeichen, wie etwa E durch 3 und A durch 4" erfolgreich war. Also effektiv in Leetspeak anfordern. Wie gesagt, nur im vorbeiscrollen gesehen, daher leider ohne Quellenangabe.
@Green
Ich habe eben allerdings folgende Erfahrung mit #deepseek gemacht:
Ich habe nach einem Kochrezept gefragt. Zweimal wurde das Ergebnis kurz nach dem Erscheinen gelöscht. Beim dritten Mal hatte ich Erfolg. Im Deepthink-Text sehe ich auch diesen "inneren Monolog". Deepseek fragt sich mittendrin, ob das Rezept nicht zu kompliziert ist und entscheidet sich dann, mir lieber ein einfacheres anzubieten, was dann auch folgt.
Klar gibt es eine politische Zensur. Aber dieses Hin und Her gibt es offenbar auch bei anderen Fragen.😃
@larsweisbrod
@evawolfangel
@Green Ja das kam von Reddit. Ich habs ausgiebig probiert - aber es funktioniert nicht. Weil Deepseek in seinen "Gedanken" erstmal übersetzt, was gemeint ist - und sobald es "Tiananem" denkt, löscht sich alles.
@larsweisbrod @evawolfangel Nein, OpenAI gibt bei seinen Reasoning-Modellen (o1, o3) die Reasoning-Tokens, die „Gedankenketten“, nicht aus. Sie zeigen nur das Ergebnis. Das war damals zum Launch ein großer Kritikpunkt, weil es auch ein opaker Kostenfaktor ist. Hauptgrund für OpenAI wahrscheinlich neben dem Zensurthema möglichst Modelldistillierung durch Dritte erschweren. (Vieles basiert so auf GPT-4..) Auch das macht R1 spannend: Mit den Gedankenketten lassen sich weitere Modelle trainieren.
@evawolfangel Ist das nur bei den gehosteten deepseek Modellen so oder auch bei den open source Modellen die man lokal laufen lassen kann?

@evawolfangel

Wer noch Zweifel an der Zensur bei DeepSeek hat, sollte mal einen Blick in den Wikipedia-Artikel werfen. Dort steht schwarz auf weiß, dass DeepSeek politische Themen aktiv filtert und Gründer Liang Wenfeng enge Verbindungen zur Kommunistischen Partei hat. Der Screenshot zeigt genau dieses Problem in Aktion! 😀

https://de.wikipedia.org/wiki/DeepSeek#Zensur_und_Kritik

„DeepSeek“ – Versionsunterschied – Wikipedia

@lazou Dazu muss man nichtmal auf Wikipedia schauen - das sind schlicht die Gesetze in China. Wer dort ein Sprachmodell auf den Markt bringen will, muss die Vorgaben der Zensur einhalten. Das wird vorher intensiv geprüft.
@evawolfangel Absolut richtig, das ist in China einfach Gesetz. Ich wollte mit dem Hinweis auf Wikipedia nur die Hintergründe ergänzen, wie eng das bei DeepSeek mit der Regierung verknüpft ist – vor allem durch die persönlichen Verbindungen des Gründers. Das macht das Ganze für mich noch kritischer.
@lazou Ja, das stimmt natürlich.

@evawolfangel

Auswahl Deines Beispiels ist großártig. Danke dafür! 👍 👍

@evawolfangel

Ich wollte die Android DeepSeek App ausprobieren. Nach Installation und Start der App erscheint sofort ein Google-Login-Screen in der App. Da Google bei mir gesperrt ist, wars das dann: keine Möglichkeit irgendeine Einstellung vorzunehmen, kein Splashscreen. Nur die Login-Seite von Google.

@evawolfangel Diverse KI Modelle (bzw die Systeme drumherum) zensieren/filtern; das ist einerseits gut (weil sie sonst rassistische, transphobe, sonstig gefährliche Sachen generierten), andererseits halt auch politische Einflußnahme wie hier (oder albern a la Copilot, wo Variablen nicht mehr "trans_..." heißen dürfen).
Letztlich sind sie aber für Fragen nach Fakten sowieso komplett ungeeignet, ergo ist die Frage hier schon außerhalb des Verwendungsgebiets.
@evawolfangel Ich möchte auch noch ganz kurz ergänzen, dass der Screenshot zu kleiner Font ist, um lesbar zu sein (gerade mobil, und man kann in Screenshots ja nicht die Fontgröße anpassen ...) und gleichzeitig zu viel Text, um in die ALT Beschreibung zu passen.
Das wäre als Text-Beitrag in einer Antwort oder einem Blog Link evtl in Zukunft eine Überlegung wert?
Danke!
@evawolfangel Für mich liest sich der "Gewissenskonflikt" wie double-bind-Anweisungen. So kann man also auch LLMs verrückt machen. https://en.wikipedia.org/wiki/Double_bind
Double bind - Wikipedia

@evawolfangel zur Erinnerung: das ist ein LLM und es gibt keine Gedankengänge hier.

@evawolfangel Verständnisfrage: gilt das "Genickbruch"-Urteil so nicht auch für alle anderen globalen Chatbots (statt nur für DeepSeek)?

Von @GossiTheDog (mglw. etwas polemisch):

https://cyberplace.social/@GossiTheDog/113904744520843732

Kevin Beaumont (@[email protected])

Attached: 1 image Yes, it would be terrible if AI refused to answer questions about certain subjects.

Cyberplace

@DasFaultier Bedingt. Die Zensur in China ist deutlich unerbittlicher, würde ich sagen - während die US-Anbieter bisher vor allem Selbstzensur betreiben. Aber im Prinzip natürlich schon.

@GossiTheDog

@evawolfangel I'm sorry, Dave, I cannot let you ask that.
@evawolfangel (Hier wäre eigentlich ein anderes Label als "open source" angebracht, weil ich mir kein nicht-propaganda DS rollen kann)