Mastodawn

Eva Wolfangel Jan 28, 2025

Ich habe vor einiger Zeit für Technology Review über chinesische Sprachmodelle und die dortige KI-Entwicklung geschrieben. Schon da wurde klar, welche Herausforderung es für die Entwicklung von #LLMs ist, die strengen politischen Vorgaben einzuhalten: Chatbots dort müssen kritische Themen um jeden Preis ausblenden. Habe bei Deepseek nachgebohrt, und ich finde es wird klar, dass die Zensur für globale Chatbots der Genickbruch ist. Diese Gedankenkette verschwand zb eine Sekunde später. #deepseek

Show thread

Eva Wolfangel Jan 28, 2025

Ui hier ist gerade ein minutenlanger Denkprozess samt ausführlicher Antwort (mit ersten Ansätzen für Jailbreaks) von meinem Bildschirm verschwunden...
#deepseek #llm

Show thread

Hans Zauner Jan 29, 2025

@evawolfangel
Dieser Guardian-Artikel berichtet, dass Leute unzensierte Antworten bekamen, indem sie das LLM aufforderten, die Antworten durch simplen Zeichentausch zu kodieren ("Leetspeak").

Was evtl dafür spricht, dass da einfach ein Filter vor der Ausgabe hockt, der auf bestimmte Schlüsselwörter anspringt?

https://www.theguardian.com/technology/2025/jan/28/we-tried-out-deepseek-it-works-well-until-we-asked-it-about-tiananmen-square-and-taiwan

We tried out DeepSeek. It worked well, until we asked it about Tiananmen Square and Taiwan

The AI app soared up the Apple charts and rocked US stocks, but the Chinese chatbot was reluctant to discuss sensitive questions about China and its government

The Guardian

Show thread

Eva Wolfangel Jan 29, 2025

@HansZauner Ich hab das sehr ausführlich getestet: es funktioniert nicht. Und würde ein solcher Filter nicht dafür sorgen, dass es gar nicht erst ausgespuckt wird? ich bekomme ja immer wieder halbe Antworten, die dann plötzlich wieder verschwinden.

Show thread

Hans Zauner

@evawolfangel

Stimmt, bei mir klappt das auch nicht.

Interessanterweise kann sich DeepSeek nicht mehr an die zensierte Anfrage und die Standardantwort "erinnern", wenn man nachfragt, was diese Antwort denn nun sollte.