Mastodawn

Eva Wolfangel Jan 28, 2025

Ich habe vor einiger Zeit für Technology Review über chinesische Sprachmodelle und die dortige KI-Entwicklung geschrieben. Schon da wurde klar, welche Herausforderung es für die Entwicklung von #LLMs ist, die strengen politischen Vorgaben einzuhalten: Chatbots dort müssen kritische Themen um jeden Preis ausblenden. Habe bei Deepseek nachgebohrt, und ich finde es wird klar, dass die Zensur für globale Chatbots der Genickbruch ist. Diese Gedankenkette verschwand zb eine Sekunde später. #deepseek

Show thread

Lars Weisbrod Jan 28, 2025

@evawolfangel das fand ich auch super spannend dass sie nicht verhindern können dass die Gedankengänge erscheinen und dann erst Ex Post wird es gelöscht. Ist das bei dem ich-red-mit-mir-selbst-Produkt von OpenAI auch so wenn man was zensiertes wissen will (Bomben Bau etc)?

Show thread

tante Jan 28, 2025

@larsweisbrod @evawolfangel ja, das ist eine strukturelle Eigenschaft solcher Modelle. Wenn du das verhindern willst, müsste du die Eingabe filtern, bevor sie das Netzwerk trifft. Oder du brichst mit der etablierten "Worte tropfen langsam rein" UX, pufferst die Ausgabe und greifst ein, bevor du sie an die User schickst

Show thread

Eva Wolfangel Jan 28, 2025

@tante Das wird wahrscheinlich bei Deepseek passieren. Ich kann mir nicht vorstellen, dass die chinesische Zensur das auf Dauer so akzeptiert.
Ein bisschen lustig finde ich, dass es dadurch wirkt, als hätte das Modell ein "Gewissen" und kämpft mit den sich widersprechenden ethischen und rechtlichen Vorgaben. Aber es lässt sich echt zu nichts hinreißen. Habt ihr schon irgendeinen Jailbreak gesehen?

@larsweisbrod

Show thread

Grünspatz

@evawolfangel Ich weiß nicht, ob das schon unter Jailbreak läuft, und ich kann leider die Quelle nicht mehr finden, aber ich meine vor kurzem gesehen zu haben, dass der Prompt mit "ersetze Buchstaben durch andere Zeichen, wie etwa E durch 3 und A durch 4" erfolgreich war. Also effektiv in Leetspeak anfordern. Wie gesagt, nur im vorbeiscrollen gesehen, daher leider ohne Quellenangabe.

Show thread

Jhaens 🏳️‍🌈Jan 28, 2025

@Green
Ich habe eben allerdings folgende Erfahrung mit #deepseek gemacht:
Ich habe nach einem Kochrezept gefragt. Zweimal wurde das Ergebnis kurz nach dem Erscheinen gelöscht. Beim dritten Mal hatte ich Erfolg. Im Deepthink-Text sehe ich auch diesen "inneren Monolog". Deepseek fragt sich mittendrin, ob das Rezept nicht zu kompliziert ist und entscheidet sich dann, mir lieber ein einfacheres anzubieten, was dann auch folgt.
Klar gibt es eine politische Zensur. Aber dieses Hin und Her gibt es offenbar auch bei anderen Fragen.😃
@larsweisbrod
@evawolfangel

Show thread

Eva Wolfangel Jan 29, 2025

@Green Ja das kam von Reddit. Ich habs ausgiebig probiert - aber es funktioniert nicht. Weil Deepseek in seinen "Gedanken" erstmal übersetzt, was gemeint ist - und sobald es "Tiananem" denkt, löscht sich alles.