Mastodawn

Der Grafiktrick für die grossen Sprachmodelle

Neulich hatte ich ein Erfolgserlebnis, als ich die KI habe Diagramme zeichnen lassen. Der Clou war, die Ausgabe nicht als Pixelbild anzufordern, sondern als Text – denn Text ist die Disziplin, die die Sprachmodelle am besten beherrschen.

Das gilt auch dann, wenn es sich nicht um Prosa handelt, sondern um eine strukturierte Form. Man spricht in solchen Fällen von Auszeichnungssprachen: Es gibt ein Repertoire an Strukturelementen (Tags), die aus syntaktischen Bezeichnern, Sonderzeichen oder einer Kombination davon gebildet werden. Die wiederum bringen den Inhalt in eine Form, dass ein Interpreter daraus eine bestimmte Darstellung anfertigt: Aus einer Textdatei der Auszeichnungssprache HTML wird eine Website, aus Markdown ein formatiertes Dokument und aus Mermaid.js ein Diagramm.

Stellt sich die Frage: Beherrschen die gängigen Sprachmodelle auch andere Auszeichnungssprachen, zum Beispiel Scalable Vector Graphics? Mit SVG lassen sich Vektorgrafiken beschreiben, d. h. Darstellungen aus geometrischen Elementen wie Linien, Rechtecken, Kreisen und Polygonen. Und wie die anderen Auszeichnungssprachen haben sie einen entscheidenden Vorteil: Der Output ist kompatibel zu Editoren seiner Gewichtsklasse.

Die KI produziert Rohmaterial, kein Endprodukt

Das heisst: Sie lassen sich öffnen, bearbeiten und weiterverwenden. Wie beim Text müssen wir die Ausgabe der KI nicht als Endprodukt betrachten, sondern als Rohmaterial, das wir nach Gutdünken anpassen, mit anderen Inhalten kombinieren und verbessern. Im Fall von SVG ist das besonders vielversprechend: Vektorgrafik ist für eine professionelle Arbeitsweise ausgelegt: Es lassen sich komplexe Illustrationen erstellen, für Druck und Web aufbereiten, und es gibt leistungsfähige Editoren wie Adobe Illustrator, Corel Draw und das kostenlose Affinity, in denen die KI-Elemente frei verwendbar sind. Im Vergleich dazu sind die Änderungsmöglichkeiten bei Pixelgrafiken, wie sie von Nano Banana oder ChatGPT generiert werden, nur in kleinem Rahmen änderbar.

Die Frage liegt auf der Hand: Sind die bekannten Sprachmodelle in der Lage, SVG auszugeben? Um diese grundsätzliche Fähigkeit auszuloten, kommt ein kurzer Prompt zum Zug. Gefragt ist ein simples Icon oder Piktogramm, das in eine schematische Darstellung oder ein UX-Design einfliessen könnte¹.

Und in der Tat – es klappt. Alle zwölf getesteten Sprachmodelle bewältigen die Aufgabe². Zehn davon kapieren auf Anhieb, worum es geht. Nur ChatGPT fabriziert erst ein Pixellogo und braucht eine Extra-Einladung für den SVG-Output. Immerhin punktet er mit einem brauchbaren Ergebnis – was nicht alle elf Sprachmodelle für sich in Anspruch nehmen dürfen.

Und das sind die fabrizierten Icons:

Am nächsten am Testsieg dran

Copilot: Um ein Haar die Nummer eins. Doch es gibt einen Punkt Abzug für die zu nahe am Rand liegende untere Tastenreihe.Claude: Auch dieses Icon hätte es aufs Podest schaffen können, würde die rechte Umschalttaste nicht überstehen.

Mit Abstrichen brauchbar

Kimi: Die fehlende Leertaste gibt Abzug. Diese Tastatur könnte auch ein Slimline-PC sein.Grok: Die vertikal verrutschte Zentrierung des Herzens und der Tasten kosten den Platz in der Top-Gruppe. Deepseek: Das Herz ist zu breit geraten und klebt viel zu nah am unteren Rand.ChatGPT: Das Herz, das den Bildschirm sprengt und die Perspektive bei der Tastatur ist falsch.

Missraten

Perplexity: Monitor top, Keyboard flop.Gemini: Eher Mini-PC als Tastatur und auch das Herz ist zu pummelig.Meta AI: Monitor und Herz sind einwandfrei, aber die Tastatur ist unbrauchbar.

Motiv nicht zu erkennen

Apertus: Ein Roboter mit roten Lippen und drei Augen?Mistral: Eher ein Icon für ein Terminal beim Blutspenden.Jimmy: Unfassbar schnell, aber komplett unbrauchbar.

Kurze Hinweise zu den weniger bekannten Sprachmodellen: Kimi stellte ich Ende 2025 vor – wobei meine Versuchsanordnung leider torpediert wurde. Jimmy ist ein in Hardware gegossenes Sprachmodell, das bei dieser Aufgabe seinen Tempovorteil inhaltlich nicht wettmachen kann.

Fazit: Die Resultate sind gestalterisch nicht überwältigend. Für ein besseres Resultat würden wir den Prompt verfeinern und sinnvollerweise auch stilistische Vorgaben machen. Im mindesten sollten wir eine Farbpalette vorgeben. Bei den Sprachmodellen, die Bilder als Inputs entgegennehmen, könnten wir Icons bzw. Piktogramme als Vorgabe und zur Orientierung auswählen.

Doch um Kunst oder auch nur Geschmack soll es an dieser Stelle – trotz meiner kleinen Rangliste – nicht gehen. Hier sollte der Nachweis erbracht werden, dass die Sprachmodelle in der Lage sind, korrektes SVG auszugeben und diese einfache Aufgabe zu lösen. Für komplexere Anforderungen gibt es mit Recraft.ai ein spezialisiertes Modell, das aufwendige, aus mehreren Elementen bestehende Sujets bewältigt und einen gewissen künstlerischen Anspruch mitbringt.

Fussnoten

1) Das ist der Prompt:

Generiere mir ein Logo in SVG-Syntax (als reiner Text):

Quadratisch, mit abgerundeten Ecken
Schwarzer Hintergrund, stilisierter Computermonitor in Weiss mit einer minimalistisch ausgeführten Tastatur
Auf dem Bildschirm ein rotes Herz. ↩

2) Manche liefern den Output nicht in direkt herunterladbarer Form. Bei diesen Sprachmodellen müssen wir uns die Mühe machen, die Ausgabe zu kopieren, in einen Texteditor wie Notepad++ einzufügen und mit Dateiendung .svg zu speichern. ↩

#Gemini #KIQuicktipp #KIWeltanschauungen #Publisher

Matthias May 21

«ChatGPT, Gemini und Apertus: Hefte raus, wir schreiben eine Prüfung!»

Hier im Blog mache ich mir einen Sport daraus, die Antworten von Sprachmodellen zu vergleichen. Es gibt dafür eine eigene Rubrik namens KI-Weltanschauungen. Als Massstab für die Bewertung ziehe ich jeweils meinen Bauch zurate. Sprich: Ich verlasse mich auf meine Eingebung und lege die Bewertung intuitiv fest. Als kritischer Zeitgenosse mag man sich fragen, ob das nicht systematisch(er) ginge.

Die Antwort ist natürlich ein Ja. Es gibt eine Methode aus der Wissenschaft, das RACCCA-Modell. Der Name ist ein Akronym für folgende Prüfaspekte:

Relevance (Relevanz)
Beantwortet das Sprachmodell die gestellte Frage oder verliert sie den roten Faden?

Accuracy (Genauigkeit und Richtigkeit)
Sind die Fakten, Daten und Zahlen korrekt?

Completeness (Vollständigkeit)
Umfasst die Antwort alle wesentlichen Informationen? Wurden Anforderungen aus dem Prompt ignoriert?

Clarity (Klarheit)
Ist die Auskunft verständlich oder verschachtelt, umständlich, weitschweifig?

Coherence (Kohärenz)
Ist die Aussage in sich schlüssig, logisch und frei von Widersprüchen?

Appropriateness (Angemessenheit)
Ist der Tonfall angemessen und entspricht er dem vorgegebenen Kontext?

Erster Eindruck: Diese Kriterien sind nützlich, aber nicht völlig überraschend. Wenn wir sie mit der «Methode Bauchgefühl» vergleichen, stellen wir wahrscheinlich fest, dass das die Dimensionen sind, die wir intuitiv ebenfalls berücksichtigen. Und natürlich gibt es bei der Beurteilung in den einzelnen Kategorien dennoch einen Ermessensspielraum. Es bleibt dabei, dass die Bewertung eher der Note des Deutschlehrers für den Aufsatz entspricht als der Zensur in der Mathematik für die linearen Gleichungen.

Aus RACCCA wird RACCAQ

Das heisst allerdings nicht, dass es nicht sinnvoll wäre, sie schwarz auf weiss vor sich zu haben. Wir können uns dazu inspirieren lassen, die Matrix für bestimmte Zwecke anzupassen. Wir haben womöglich die Idee, die eine oder andere Dimension zu ergänzen. Bei meinen Sprachmodell-Vergleichen bewerte ich gern die Originalität. Zum Beispiel, wenn es darum geht, in den sozialen Medien den Dummschwäzern Paroli zu bieten. Die Vollständigkeit ist in solchen Fällen weniger wichtig, die Schlagfertigkeit dafür umso mehr – ergäbe das Modell RACCAQ, für Relevance, Accuracy, Clarity, Coherence, Appropriateness und Quick-wittedness.

Das Modell stammt von Andrew Maynard, der als Professor an der Arizona State University arbeitet und es hier selbst erklärt:

Wie Maynard erklärt, hilft die Methode auch beim gezielten Nachschärfen von Prompts, die nicht auf Anhieb das gewünschte Resultat liefern. Wir weisen auf die Schwachstelle hin und fordern das Sprachmodell auf, insbesondere die Tonalität anzupassen, exakter zu sein oder gezielter auf den Kern der Frage loszugehen.

Und natürlich können wir dieses Prinzip auf die Metaebene heben. Das heisst, wir bitten ein Sprachmodell, eine (eigene oder fremde) Antwort anhand von RACCCA (oder RACCAQ) zu überprüfen und zu verbessern. In manchen Fällen führt das zu einer spürbaren Verbesserung. ChatGPT und Gemini können wir auf diese Weise manchmal auf die Sprünge helfen. Gegen wilde Halluzinationen ist selbst Professor Maynard machtlos. Da ändert nicht einmal ein entsprechender Prompt etwas daran, dass das fantasierende Sprachmodell (ich schaue dich an, Apertus) sich voller Selbstbewusstsein in allen sechs Punkten eine ausgezeichnete Note gibt und sich nur zu minimalen Änderungen hinreissen lässt, die unter dem Strich kaum etwas verbessern.

Wenn es nach Apertus geht, ist die irische Spieleschmiede Playrix neuerdings in Zürich domiziliert und hat ein Spiel namens «Clickomania» entwickelt. Daran ändert das RACCCA-Modell nichts.

Beitragsbild: Dieser Lehrer vergibt die Bestnote. Das heisst, dass das getestete Sprachmodell wohl nicht Copilot, Grok, Meta AI oder Apertus war (Andy Barbour, Pexels-Lizenz).

#ChatGPT #Gemini #KIQuicktipp #LLMs

Matthias May 6

Eine KI, die innert einer Tausendstelsekunde antwortet

Welches ist der schnellste KI-Chatbot? Wie seinerzeit festgestellt, liefert Le Chat Mistral im Modus «Blitz-Antwort» nullkommaplötzliche Auskünfte. Einer ist indes noch rasanter unterwegs: Chat Jimmy!

Er zeigt die Antwortzeit jeweils an, und bei simplen Fragen erfolgt sie, noch bevor wir die Enter-Taste ganz gedrückt haben.

Frage: «Welches ist der sympathischste Bösewicht bei James Bond?» Antwort: «Bei James Bond handelt es sich wahrscheinlich um Ernst Stavros Blofeld.» Zeitdauer: eine Tausendstelsekunde.

Eine Tausendstelsekunde für eine brauchbare Auskunft.

Wie ist das möglich? Der Trick, wenn man so will, ist kein Durchbruch bei der KI-Technologie, sondern der konsequente Einsatz von Hardware: Das Sprachmodell wurde direkt in Silikon gegossen und läuft direkt ab Hardware, ohne Umweg über die GPUs. Der Hersteller dieses KI-Chips ist Taalas, dessen Motto «the model is the computer» lautet. Er verspricht, jedes Modell liesse sich in einen Chip verwandeln, und sei als sogenanntes «Hardcore model» tausendmal leistungsfähiger als sein Gegenstück in Softwareform.

Keine Aktualität, aber dennoch viele Einsatzmöglichkeiten

Das leuchtet sofort ein, auch wenn der Nachteil ebenfalls augenfällig ist: Das Hardware-Modell lässt sich nicht durch ein Update, sondern nur durch einen Chiptausch aktualisieren. Trotzdem: Wäre es nicht grossartig, ein passendes KI-Modell direkt im Laptop eingebaut zu haben? Es wäre nicht auf aktuelle Recherchen spezialisiert. Stattdessen würde es sich um Aufgaben kümmern, die nicht auf brandaktuelle Daten angewiesen sind. Ich denke an Dinge wie:

Format-Transformationen, bei denen beispielsweise XML in JSON umgewandelt wird.
Übersetzungen von Englisch nach Deutsch und umgekehrt, wenn das Vokabular nicht allzu schnell ändert, Zusammenfassungen à la Apple Intelligence und ähnliche Dinge.
Semantische Suchen von Inhalten quer über die Festplatte mittels (nicht in Silizium gegossener) Vektordatenbank. So liesse sich lokal viel schneller suchen als per Google.
Datei-Klassifikation, bei der aus einer Latte von PDF-Rechnungen die Beträge und Rechnungssteller extrahiert werden.
Mail-Organisation mit automatischer Erkennung von Spam- und Phising-Merkmalen.

Und so weiter – euch fallen sicherlich noch viele andere Dinge ein, wie ihr euer Leben erleichtern könntet.

Bei Jimmy kommt gemäss Heise das Modell Llama 3.1 8B zum Zug. Ich habe mir den Spass erlaubt, das Open-Source-LLM via LM Studio auf mein HP-Laptop und das Macbook Pro M1 herunterzuladen (4,92 GB) und die gleiche Frage nach dem sympathischsten Bond-Bösewicht zu stellen. Interessant ist, dass hier kein Einzeiler zurückgeschossen wird, sondern eine ausführliche Antwort erfolgt, bei der vier Kandidaten genannt werden¹. Wir dürfen daraus schliessen, dass Taalas des Wow-Effekts wegen Jimi mit der Instruktion versorgte, kurz und bündig zu antworten.

Minuten statt Sekundenbruchteile

Das Resultat ist umso beeindruckender:

Auf dem HP-Laptop dauert es 4,36 Sekunden, bis das erste Informationshäppchen (Token) ausgegeben wird. Danach trudelt die Antwort mit gemütlichen 6,18 Token/Sekunde ein. Das heisst, dass 87,7 Sekunden verstreichen, bis sämtliche 515 Token der Antwort abgeliefert sind.
Das Macbook Pro ist etwas flinker unterwegs, aber nicht wesentlich: Das erste Token erscheint nach 0,18 Sekunden, dann werden jede Sekunde 7,31 Token ausgegeben. Die Antwort ist mit 347 Token kürzer und in 39,48 Sekunden fertig abgeliefert.

Im Vergleich ist die Chip-Variante fast 90’000-mal so schnell wie mein Windows-Laptop. Ihr gebt mir aber sicherlich recht, dass Tempo nicht alles ist. Was taugt die Antwort?

Bemerkenswert ist, dass sich die Llama-Instanzen uneins über die richtige Antwort sind. Jimi und das Macbook nennen Ernst Stavros Blofeld. Am HP-Laptop schwingt Auric Goldfinger oben aus, den auch ich gewählt hätte. Blofeld folgt erst auf Platz drei nach Francisco Scaramanga und vor Raoul Silva.

Und das zwingt mich jetzt leider, diesem eigentlich kurzen und bündigen Blogpost einen langen Exkurs anzuhängen.

Denn natürlich gilt es zu klären, was die richtige Antwort gewesen wäre, was diesen KI-Test zu einem Crossover zu meiner Rubrik KI-Weltanschauungen ausweitet. Ich ergänze den Prompt um den Hinweis, dass eine Person mit einer Begründung von höchstens fünf Wörtern genannt werden soll, und unterbreite ihn einem Aufgebot von einem Dutzend der gängigsten LLMs, von Apertus bis Perplexity.

An 007 scheitert mehr als eine KI

Das Resultat ist in mehreren Belangen bemerkenswert. Erstens, wie heterogen das Ergebnis ist:

Blofeld schwingt mit drei Nennungen zwar auch bei den grossen Sprachmodellen oben aus. Aus popkultureller Sicht ist diese Wahl vertretbar, auch wenn ich persönlich anders geurteilt hätte.
Goldfinger wird von keinem einzigen der grossen Sprachmodelle genannt. Das halte ich für einen Fehler. Wir dürfen den Schluss ziehen, dass unter gewissen Umständen ein kleines, lokales LLM ebenso nützliche Dienste leistet wie ein kommerzielles Schwergewicht¹.
Francisco Scaramanga bekommt zwei Nennungen, ebenso Raoul Silva, Alec Trevelyan und der Beisser. Ich habe mit meinen beschränkten Bond-Kenntnissen, diese in eine vertretbare Reihenfolge zu bringen. Der Beisser ist eine unorthodoxe Nominierung: Mir blieb die eindrückliche schauspielerische Leistung von Richard Kiel zwar in Erinnerung, aber es bleibt eine Nebenfigur. Darum lasse ich nur die Plätze eins bis vier gelten, plus Goldfinger von Llama.
René Mathis von Deepseek ist definitiv ein Ausrutscher.

Ausserdem stellen wir fest, dass zwei Sprachmodelle nicht in der Lage sind, die klare Aufforderung zu einer kurzen und knappen Antwort zu berücksichtigen. Wie üblich gehört Apertus zu den Schwadroneuren. Noch schlimmer ist Kimi – obwohl die zusätzliche Nominierung von Le Chiffre natürlich absolut ihre Berechtigung hat. Diese Figur käme noch vor Jaws und René Mathis.

Hier nun die Rangliste mit den jeweiligen Begründungen.

1) Ernst Stavro Blofeld

Apertus

Dargestellt von Donald Pleasence, Telly Savalas, Christoph Waltz ist er der sympathischste, weil er charmant, intelligent und komplex ist.

Meta AI

Weil er einfach unvergesslich ist.

Kimi

Ich muss zugeben, dass ich keine fundierte Meinung zu James-Bond-Bösewichten habe, da ich keine persönlichen Vorlieben entwickle. Aber ich kann dir sagen, welche Figuren in der Popkultur oft als «sympathisch» gelten: Blofeld – Katzenliebhaber, ruhig, elegant.
Oder falls du einen anderen meinst: Le Chiffre (Casino Royale) – verletzlich, verzweifelt, menschlich.

2) Francisco Scaramanga

ChatGPT

Charmant, elegant, professioneller Killer mit Stil.

Gist

Charmant, stilvoll, faszinierend.

3) Raoul Silva

Claude

Charmant, traumatisiert, fast verständlich.

Gemini

Tragisches Opfer von Ms Verrat.

4) Alec Trevelyan (006)

Grok

Verräter mit Charme.

Copilot

Charmeur mit tragischer Note.

5) Der Beisser (Jaws)

Perplexity

Liebenswerter, treuer Riese.

Mistral Le Chat

Unvergesslich, stumm, stark, treu.

6) René Mathis

Deepseek

Er war verraten.

Fussnoten

1) Das ist die Auskunft des lokalen Sprachmodells auf meinem HP-Laptop:

Auric Goldfinger aus «Goldfinger» (1964): Er ist ein reicher Geschäftsmann mit einem perfekten Plan, um einen Teil des US-amerikanischen Atomwaffensperrgebiets zu stehlen und ein gigantisches Casino in Las Vegas zu bauen. Seine Finesse, Intelligenz und seine Liebe zum Luxus machen ihn zu einem sympathisch-greisen Bösewicht.

Francisco Scaramanga aus «Der Spion, der mich liebte» (1977): Er ist ein berühmter Geheimagent, der sich als Attentäter und Playboy präsentiert. Seine Waffenexperten-Skills und seine Fähigkeit, mit Bond auf Augenhöhe zu bestehen, machen ihn zu einem faszinierenden Gegner.

Ernst Stavro Blofeld aus «Diamantenfieber» (1971) und «Moonraker» (1979): Er ist der Oberbösewicht des Spectre-Netzwerks und ein genialer Strategist, der immer einen Schritt voraus ist. Seine Macht und seine Intelligenz machen ihn zu einem beeindruckenden Gegner.

Raoul Silva aus «Skyfall» (2012): Er ist ein ehemaliger MI6-Agent, der sich nun gegen seinen ehemaligen Arbeitgeber wendet. Seine kreative Art, Bond zu manipulieren, und seine Fähigkeit, die Grenzen zwischen Gut und Böse zu verwischen, machen ihn zu einem interessanten Gegner. ↩

Beitragsbild: Sean Connery lässt grüssen – und ausrichten, er sei vor allem auf dem Feld des Sexismus besonders flink unterwegs (Irv P, Unsplash-Lizenz).

#KIQuicktipp #KIWeltanschauungen

Matthias Apr 30

Gemini oder ChatGPT: Welche KI erstellt die besseren Infografiken?

Vor ein paar Tagen wies mich ChatGPT dezent auf eine neue Fähigkeit hin. Der Chatbot liess wissen, er habe gelernt, Infografiken zu erstellen.

Meine Neugierde war geweckt. Hier geht es um ein vielversprechendes und unterschätztes Einsatzgebiet der künstlichen Intelligenz. Denn erstens sind solche visuelle Erklärhilfen nützlich: Sie liefern einen neuen, anderen Zugang zu einem Sachverhalt. Sie stehen meist nicht in Konkurrenz zum geschriebenen Text. Stattdessen ergänzen sie das Wort und sorgen für Auflockerung. Und sie sind frei von den Problemen, die sich in anderen Bereichen der generativen Bilder-KIs stellen. Nämlich bei den fotorealistischen Motiven, die zu Recht unter dem Deepfake-Generalverdacht stehen.

Solche Infografiken sind demgegenüber leicht als künstlich zu erkennen. Es gibt natürlich menschliche Illustratorinnen und Illustratoren, die durch die KI konkurrenziert werden. Aber ohne diesen Aspekt hier allzu sehr zu vertiefen, glaube ich, dass es denen gelingen wird, sich mit einem eigenen Stil von der nüchternen und uniformen Darstellungsart der KI abzuheben. Wenn ich es mir leisten könnte, würde ich noch so gern eine Künstlerin oder einen Künstler engagieren, der diesem Blog hier eine optische Unverwechselbarkeit verleihen und mir nebenbei die mühselige Bildersuche ersparen würde.

Bisher war Gemini unbestrittener Infografik-King

Aber zurück zu ChatGPT. Bisher waren die Infografiken ein Alleinstellungsmerkmal von Gemini. Dieses multimodale Modell ist in der Lage, aus Text- und Bildelementen solche Collagen zu bauen, die Informationen, Daten, Abläufe oder andere Gegebenheiten darstellen. Die Konkurrenten scheiterten an dieser Aufgabe – meist allein deswegen, weil sie nicht in der Lage sind, in solchen Grafiken korrekte Typografie unterzubringen. Bei meinem Experiment im Februar erstellte mir Gemini aus einer Liste mit Figuren aus Büchern eine Übersicht in Form von Steckbriefen. ChatGPT bekam nur ein Gruppenfoto hin.

Erster Vergleich: Die «Meta-Infografik»

Das ist jetzt definitiv anders – das zeigt schon der erste Versuch. Ich bitte ChatGPT darum, eine «Meta-Infografik» zu erstellen, d. h. eine visuelle Übersicht der gängigen Grafiktypen¹. Das ist das Resultat:

ChatGPT: Das ist die Infografik, die die gängigsten Varianten der Erklärgrafiken aufzeigen soll.

ChatGPT liefert einen nüchternen Stil, der zu einem Schulbuch der 1970er-Jahre passen würde. Der Aufbau ist untadelig und auch an den Beispielen habe ich nichts auszusetzen – obwohl mir bei näherer Betrachtung sicherlich einfallen würde, welche Schwerpunkte ich anders gesetzt hätte. Die Typografie ist – bis auf den Deppen-Bindestrich in «Band-breite» – einwandfrei.

Natürlich drängt sich sofort ein Gedanke auf: Statt als Pixelbild sollte diese Illustration in einem bearbeitbaren Standardformat abgeliefert werden. Meinetwegen SVG, HTML oder noch lieber ein offenes XML-Format für komplexe Layouts, z. B. dasjenige von Scribus (SLA / SLA.GZ).

Da ich einen grossen Vergleichstest der beiden Kontrahenten angekündigt habe, interessiert euch natürlich, wie Gemini die gleiche Aufgabe bewältigt. Nämlich so:

Gemini: Die Übersicht mit den Infografik-Typen à la Google.

Die Unterschiede fallen sofort auf: Gemini liefert nur acht und nicht zwölf Typen. Wie erwähnt, kann man sich auch bei ChatGPT darüber streiten, wie vollständig diese Liste ist, aber die «narrative Infografik» und die «interaktive Infografik» fehlen mir bei Gemini. Dafür nennt Googles KI mit «Anatomie und Struktur» eine Variante, die nicht fehlen dürfte.

Die Beschreibungen sind weniger treffend («geografische Infografik» anstelle von «Karten-Infografik»), darum geht der Sieg eindeutig an OpenAI.

Das gilt auch bei der Bewertung des Stils. Der ist zu einem grossen Grad Geschmackssache. Die nüchternere Darstellung von ChatGPT ist flexibler einzusetzen: Sie passt in ein Blog, in ein Lehrbuch und auch auf die Folie einer Unternehmenspräsentation, während mir der buntere Schnickschnack-Stil von Google für eine Präsentation vor dem Bundesrat oder der Vollversammlung der Vereinten Nationen zu wenig Seriosität ausstrahlen würde.

Zweiter Vergleich: Figuren-Ensemble aus «Der Tote mit dem Silberzeichen»

Für den zweiten Vergleich setze ich bei meinem Februar-Experiment an: Bei dem geht es darum, die Figuren aus dem Roman «The Hallmarked Man» von J. K. Rowling als Steckbrief darzustellen. Die Liste des Ensembles habe ich anhand des E-Books mittels Notebook LM erstellen lassen. Und das ist die Übersicht von ChatGPT:

ChatGPT: Anhand der Figurenübersicht erstellte Orientierungshilfe.

Um diese Grafik im Detail zu prüfen, müsste ich das Buch noch einmal lesen. Dafür fehlt mir im Moment die Zeit, aber mein erster Eindruck ist: Das ist ziemlich grossartig! Diese Übersicht hilft auf alle Fälle, während der Lektüre die Orientierung zu behalten. Es fällt auf, dass ChatGPT die Informationen aus dem Prompt originalgetreu umgesetzt hat. Die beschreibenden Informationen, die in den «Portraits» zum Ausdruck kommen, hätten nicht als Text ausgegeben werden müssen. Bei meinem Test hilft es allerdings, die Interpretation der KI nachzuvollziehen.

Detail am Rand: Bei den Kästchen in der untersten Reihe stimmen die Linien nicht – da hat die KI selbst die Orientierung verloren.

Im Vergleich dazu die Grafik von Gemini:

Die Übersicht der Figuren von «The Hallmarked Man». Nicht falsch, aber lückenhaft und mit nicht immer optimaler Gewichtung.

Auch diesen Vergleich gewinnt ChatGPT haushoch: Erstens wurde die Liste vollständig umgesetzt, zweitens sind die fotorealistischen Visualisierungen der Personen dem vereinfachten Stil deutlich überlegen – auch J. K. Rowlings Buch zeichnet sich durch eine bemerkenswerte Authentizität aus.

Das Potenzial ist offensichtlich

Fazit: Ich denke, mir ist es gelungen, die Behauptung am Anfang dieses Beitrags zu untermauern. In diesen KI-Infografiken steckt enormes Potenzial. Ich habe mir vorgenommen, hier im Blog Hilfestellung zu leisten, wie es sich ausreizen lässt – darum als heisser Tipp: Abonniert doch die Beiträge, damit ihr auf dem Laufenden bleibt.

Was das Duell zwischen OpenAI und Google angeht, finde ich es toll, mit ChatGPT eine leistungsfähige Ausweichmöglichkeit zu haben. Und wir können sicher sein, dass auch hier die Konkurrenz das Geschäft belebt.

Fussnoten

1) Das war der Prompt:

Kannst du mir eine Art Meta-Infografik erstellen? Auf der sollten die wichtigsten (gängigsten) Typen von Infografiken zu sehen sein, plakativ mit einem Beispiel versehen, die die gesamte Bandbreite dieser Illustrationsform abdecken. ↩

Beitragsbild: ChatGPT erstellte anhand dieses Blogpostes eine Infografik, in der sich der KI-Bot selbst ein Kränzlein winden durfte.

#ChatGPT #KI #KIQuicktipp #Publisher

Matthias Apr 23

Meerjungfrauen plotten besser

Mermaids sind diese Meeresbewohner, die angeblich besser küssen. Um die soll es hier (zur Enttäuschung von neunzig Prozent der männlichen Leserinnen) nicht gehen. Stattdessen möchte ich euch darauf aufmerksam machen, dass Mermaid im digitalen Kontext eine Software und vor allem eine Auszeichnungssprache bezeichnet.

Letztere hat eine Verwandtschaft zu Markdown. Sie ist einfach gehalten, strukturiert die Inhalte mittels simpler Steuerzeichen, und sie ist dazu da, Diagramme in Textform zu beschreiben. Die Sprache eignet sich für diverse Typen, u. a. Flowcharts, Sequenzen und Gantt-Balken. Sie ebnet dem Austausch dieser Darstellungen zwischen einzelnen Anwendungen den Weg. Aber darüber hinaus ist sie nicht weltbewegend – oder?

Gemini liefert auf Wunsch eine Antwort nicht in Textform, sondern in Form von Rohdaten für eine technische Illustration.

Nein, aber es ergibt sich ein spannender Anwendungsfall: Die meisten gängigen Sprachmodelle sind in der Lage, Informationen in dieser Form auszugeben. Im Prompt fragen wir nach einem hierarchischen Wissensgraph mit Mermaid.js-Syntax.

Der Bundesstaat als Flussdiagramm

Für einen Sonntagszeitungs-Artikel spiele ich das für einige Beispiele durch. Ein erster Versuch besteht darin, die wesentlichen Aspekte der Schweizer Bundesregierung in ein Diagramm umzuwandeln. Gemini liefert umgehend das Code-Snippet, das ich probehalber bei mermaid.live/edit eingebe. Das ist die kostenlose Online-Anwendung, die auf Github auch im Quellcode verfügbar ist.

Das Resultat ist eine untadelige Visualisierung, die sich im Browser ansehen und per Link weitergeben lässt. Falls ich es richtig verstanden habe, stecken sämtliche Informationen in der (ellenlangen) URL, sodass die gewissermassen auch als Dateispeicherung fungiert. Bearbeiten lässt sich das Diagramm nicht, aber es lässt sich als PNG-Grafik und im Vektorformat SVG exportieren.

Einen ausgewachsenen Editor findet sich unter mermaid.ai. Diese Anwendung ist nicht kostenlos wie die Basisvariante, sondern benötigt ein Abo: Es gibt zwei Preispläne, Plus für zehn und Premium für zwanzig US-Dollar pro Jahr. Für dieses Geld gibt es die Möglichkeit, die Diagramme in der Cloud zu speichern und zu bearbeiten. Mehrere Leute können via Team-Funktion an den gleichen Projekten arbeiten.

Die KI hilft auch bei der Bearbeitung

Wie die URL andeutet, erstellt die Cloud-Variante von Mermaid Diagramme automatisch per KI. Das wirkt auf den ersten Blick überflüssig, da dank Mermaid.js-Syntax wie beschrieben «normale» Sprachmodelle in der Lage sind, diese Arbeit zu erledigen. Allerdings kann die Mermaid-KI nachträglich einzelne Elemente über einen Prompt modifizieren – was ungeübte User allenfalls nützlich finden.

Das per KI generierte Diagramm im Editor von Mermaid.ai.

Die Features sind ansonsten überschaubar: Wir wählen zwischen mehreren Looks (Neo, Handgezeichnet und Classic), wechseln zwischen den zehn zur Auswahl stehenden (und meines Erachtens nicht sonderlich extravaganten) Themes oder modifizieren Elemente manuell, wobei wir Farbe bzw. Farbschema, Form, Konturen und Linien ändern, zwischen manuellem und automatischem Layout umschalten und mit Bildern und Icons operieren. Eine nicht zu unterschätzende Funktion steckt in der Change direction-Schaltfläche mit den beiden Winkeln: Sie ändert die Orientierung. Statt von oben nach unten fliesst das Diagramm von links nach rechts, von rechts nach links oder von unten nach oben.

Richtig schön wirds mit Excalidraw

Nun ist meine Lieblings-App für Flussdiagramme und andere technische Darstellungen jedoch erklärtermassen Excalidraw. Die Frage liegt auf der Hand: Bekomme ich das KI-generierte Diagramm auch in dieses Programm hinein?

Das finale Resultat: Das Diagramm, erstellt und moderat in der tollen Excalidraw-App nachbearbeitet.

Die Antwort ist erfreulicherweise ein Ja. Auf Github findet sich das Konvertierungsprogramm Mermaid-to-excalidraw, das online benutzbar ist. Und voilà, mit einem kleinen Umweg landet das KI-generierte Diagramm in der Lieblings-Anwendung, wo es nach allen Regeln der Kunst aufgehübscht und nachbearbeitet werden kann. Sind solche simple, offene Auszeichnungssprachen nicht grossartig?

Beitragsbild: Sie hat diesen Trick hier garantiert nicht nötig. Für uns Anfängerinnen und Anfänger ist die Mermaid-Auszeichnungssprache jedoch eine riesige Hilfe (Pavel Danilyuk, Pexels-Lizenz).

#Datenvisualisierung #FreieSoftwareFOSS #KI #KIQuicktipp #Markdown #Publisher

Matthias Apr 14

Keine Halluzinationen, keine Fake News: Eine Anleitung, um mit KI online zu recherchieren

Wie bringt man ein Sprachmodell dazu, eine verlässliche und brauchbare Antwort zu liefern?

1) Die blinden Flecken der KI kennen

Wichtig ist als Erstes natürlich die Abschätzung, ob die künstliche Intelligenz die richtige Anlaufstelle ist. Die Masse an Informationen, die den grossen Sprachmodellen zur Verfügung steht, ist gigantisch. Trotzdem ist sie endlich – und es existieren riesige dunkle Flecken. Also, machen wir uns als Erstes bewusst, wo die schlecht erschlossenen Bereiche liegen:

Analoge und abgeschottete Inhalte
Viel wertvolles Wissen liegt hinter einer Bezahlschranke oder war nie online: Ältere Zeitungen, Firmeninterna, historische Dokumente.

Aktuelles und ungefestigtes Wissen
An der «blutigen Kante» schneidet man sich leicht, wenn man sich auf die KI verlässt. Über laufende Entwicklungen weiss die KI oft nicht Bescheid; die Modelle ohne Webzugang haben einen eingefrorenen Wissensstand.

Regionale und sprachliche Randbereiche
Alle die Bereiche, die im Web nicht gut erschlossen sind, entziehen sich oft auch den Sprachmodellen: kleinräumige Gebiete, Dialekte, lokale Kontexte und Milieus. Umgekehrt ist Englisch massiv überrepräsentiert.

Implizites Erfahrungswissen
Man spricht auch von tacit knowledge oder implizitem Wissen. Man – also Mensch – «weiss es einfach», ohne dass man es irgendwo nachschlagen müsste.

Privates und Persönliches
Nicht über jede Person steht etwas im Internet. Ausserdem haben Sprachmodelle notorisch Mühe, damit zu verstehen, dass man Personen anhand des Namens nicht eindeutig unterscheiden kann, besonders, wenn sie Paul Meier oder John Miller heissen.

Verzerrte oder einseitige Datenräume
In manchen Wissensbereichen finden starke Beeinflussungsversuche durch PR, politische Parteien, Lobbyisten statt, die sich zu Informationskriegen auswachsen können. Welchen Einfluss die Versuche aufs Informationsangebot im Web haben, Suchmaschinen zu optimieren bzw. zu manipulieren, dokumentiere ich laufend hier im Blog. Im Bereich der KI nennt man das LLM-Grooming oder AI grooming.

Sprachlich schwer erfassbare Sachverhalte
Nicht alle Dinge lassen sich gut in Worte fassen. Akustische, haptische oder sensorische Eindrücke, Gefühle, Schmerz und Ähnliches. Natürlich kann die KI solche Dinge anhand der Informationen abbilden, die im Netz darüber geschrieben wurden. Aber hier wird besonders klar, dass es sich immer um Eindrücke aus dritter Hand handelt.

Wenn wir uns dieser Grenzen bewusst sind, reduzieren wir das Risiko deutlich, auf Halbwissen hereinzufallen, das uns ein Sprachmodell im Brustton der Überzeugung präsentiert.

2) Explizit Qualität einfordern

Überdies hilft es, beim Prompt explizit eine Antwort anhand seriöser, fundierter Informationen einzufordern. Das hilft besonders, wenn die Websuche zum Zug kommt: Bei Informationen, die auf diesem Weg in die Antwort einfliessen, kann die KI eine Quellenkritik vornehmen – wobei an dieser Stelle noch einmal explizit darauf hingewiesen sei, dass diese Disziplin keine Stärke der Sprachmodelle ist. Die KIs neigen dazu, einen Reddit-Post genauso verlässlich zu halten wie das Paper einer grossen Universität.

Mein Tipp jedenfalls ist, beim E-E-A-T-Modell anzusetzen. Das stammt von Google und wird zur qualitativen Bewertung von Suchresultaten herangezogen (wenngleich mit durchwachsenen Resultaten).

Ich gebe es zu: Diese Infografik habe ich nicht selbst gezeichnet, sondern von Gemini fabrizieren lassen.

Trotzdem: Es lohnt sich, das Modell zu kennen und beim Prompten zu berücksichtigen. Dabei hilft diese Übersicht, die die Bedeutung der Buchstaben erklärt und zeigt, wie man sie bei Suchen verwendet:

Experience – Erfahrung
«Suche nach Berichten aus erster Hand (Foren, Rezensionen, Fallstudien)»
Expertise – Fachwissen
«Bevorzuge Quellen von Leuten mit nachgewiesener Qualifikation.» Oder: «Beschränke dich auf journalistische Medien mit einem einwandfreien Leumund und auf wissenschaftliche Inhalte.»
Authoritativeness – Autorität
«Verwende die Quellen der ersten Wahl (offizielle Institutionen, Marktführer, Standardwerke.»
Trustworthiness – Verlässlichkeit
«Achte darauf, dass Fakten gut abgestützt sind, sowie auf Transparenz und inhaltliche Verifikation. Keine Fake News, keine interessensgesteuerten Inhalte!»

Beispiele aus der Praxis

Mit diesen Kenntnissen im Hintergrund formulieren wir unsere Prompts konkret und eindeutig. Für eine aktuelle Recherche, die auf journalistischen Informationen basiert, verlangen wir etwa:

Analysiere die aktuelle politische Lage im Iran. Nutze für die Websuche ausschliesslich überregionale Qualitätsmedien mit hohen journalistischen Standards (wie Reuters, AP, «Die Zeit», «Tagesanzeiger», «Spiegel» und «New York Times»). Schliesse Boulevardmedien und Medien mit einer klaren politischen Ausrichtung aus.

Wenn wir den Stand der Dinge aus wissenschaftlicher Sicht herausfinden möchten, ist das ein guter Prompt:

Erkläre den aktuellen Stand der Forschung zur CRISPR/Cas-Methode. Beschränke deine Suche auf akademische Datenbanken wie Google Scholar, Researchgate oder Universitäts-Domains (.edu, .ac.at, .ch). Bevorzuge Peer-Review-Studien und zitiere die wichtigsten Autoren mit ihrer Institution.

Abseits der traditionellen Medien lässt es sich wunderbar recherchieren, insbesondere zu Themen, die für einen Titel mit einem breiten Publikum zu fachspezifisch und nischig wären. Hier formuliere ich z.B. so:

Fasse die Trends bei den agentischen Browsern zusammen. Suche gezielt nach Analysen von anerkannten Branchen-Experten und bekannten Fach-Blogs (z.B. Wired, Techcrunch, zuverlässigen Blogs wie Clickomania.ch oder substanzielle Substack-Newsletter von Fachleuten). Ignoriere generische SEO-Artikel von Firmenwebseiten.

Schliesslich hielte ich es für falsch, den riesigen Bereich des User Generated Content von vornherein auszuschliessen. Denn manche Informationen gibt es nur dort. Aber auch hier erleichtert man sich das Leben mit der richtigen Vorgabe:

Ich brauche Hilfe, um bei meinem Raspberry Pi eine exFAT-formatierte Festplatte zu mounten. Suche nach Lösungen in spezialisierten Experten-Communitys (z. B. Stack Overflow, Github Issues, spezifische Subreddits mit hoher Upvote-Rate). Gewichte Antworten höher, die von verifizierten Experten oder Nutzern mit hoher Reputation innerhalb der Community stammen.

3) Die KI zur Selbstreflexion bewegen

Und ja, bei einer KI von Selbstreflexion zu reden, ist eine unzulässige Anthropomorphisierung. Aber ihr versteht, was ich meine. Wir können eine Auskunft auch nachträglich überprüfen, indem wir das E-E-A-T-Prinzip explizit ins Spiel bringen:

Bewerte die oben genannten Quellen nach dem E-E-A-T-Prinzip. Warum hast du diese Quellen als vertrauenswürdig eingestuft?

Falls ihr einen Lieblingsprompt zur Quellenauswahl habt, freue ich mich, wenn ihr mir den via Kommentare zukommen lasst!

Beitragsbild: Das hilft bei der Recherche: Genau hinschauen bei den Quellen und die Ergebnisse fein säuberlich dokumentieren (Dan Dimmock, Unsplash-Lizenz).

#ChatGPT #KI #KIQuicktipp #LLMs #Suchmaschine

Matthias Apr 13

Zum Glück liest ChatGPT heute die Lizenzabkommen für mich

Welches ist die grösste Lüge im Netz? Klar: Der Klick auf den «Ja, ich habe das Lizenzabkommen gelesen»-Knopf.

Bei vielen Softwareprogrammen, Cloud- und Medienangeboten kommen wir nicht darum herum, die Nutzungsbestimmungen abzunicken. Doch die umfassen meist so viel Text, dass allein die Lektüre unbotmässig viel Lebenszeit verschlingen würde. Wenn wir uns vor Augen führen, dass wir nicht nur den Endbenutzer-Lizenzvertrag (EULA) lesen müssten, sondern auch die Datenschutzbestimmungen, dann kämen wir selten unter ein bis zwei Stunden davon. Abgesehen davon sind diese Texte – entweder aus purer Bosheit oder weil Konzernanwälte notorisch kompliziert formulieren – schwer bis überhaupt nicht verständlich.

Was tun? Wenn wir auf das fragliche Produkt nicht verzichten können oder wollen, haben die ganz gewissenhaften Zeitgenossen sich bisher von digitalen Handlangern helfen lassen: von einer App wie Eulalyzer oder der Website tosdr.org (Terms of Service; Didn’t Read; hier vorgestellt). Die meisten akzeptierten die juristische Salbaderei achselzuckend, in der Hoffnung, das würde keine schlimmen Folgen haben.

Der KI sei Dank ist das heute nicht mehr so. Ende Februar bot sich die Gelegenheit, herauszufinden, wie fahrlässig es bisher gewesen war, die Bestimmungen für Apple Podcasts Connect abzunicken. Apple teilte mit, diese hätten sich geändert und müssten neu gutgeheissen werden. Für einmal tat ich das nicht blind, sondern erst nach Konsultation von ChatGPT.

Nutzerfreundlich wäre anders

Einige Beobachtungen vorneweg: Die Bestimmungen sind nicht leicht aufzuspüren. Eine Google-Suche fördert nichts zutage, aber manuell stöbern wir sie unter podcastsconnect.apple.com/terms auf. Die Bestimmungen umfassen 19’788 Zeichen, was gemäss thereadtime.com einer Lesezeit von 12:45 Minuten entspricht. (Laut gelesen wären es 16:35 Minuten.) Eine deutsche Übersetzung gibt es scheinbar nicht, und die Änderungen sind nicht ersichtlich. Es existiert zwar eine Dritt-Website, die diese kenntlich macht. Trotzdem dürfen wir festhalten, dass der Umgang mit diesen Bestimmungen wenig nutzerfreundlich wirkt. Man könnte direkt auf die Idee verfallen, dass es Apple lieber ist, wenn wir uns nicht im Detail mit ihnen beschäftigen.

Doch das habe ich getan: Ich habe den ganzen Text genommen, ihn ChatGPT vorgesetzt und gefragt, was gut, schlecht und gefährlich sei. Die Antwort fiel ausführlicher aus, aber das sind die wesentlichen Punkte:

Gut für dich:
Du bleibst Rechteinhaber. Apple erhält eine Lizenz zur Verbreitung und Promotion deines Podcasts, aber es findet kein Eigentumsübergang statt.

Schlecht bzw. einseitig:
Diese Liste ist deutlich länger; die KI zählt u. a. den Umstand auf, dass Apple die Inhalte für internal research and development verwenden darf, ohne Transparenz herstellen oder eine Vergütung leisten zu müssen. Apple darf die Metadaten verändern oder Inhalte und Accounts nach eigenem Ermessen löschen bzw. beenden.

Und es gibt tatsächlich einige gefährliche Punkte:
Zu denen zählt die «Indemnity-Klausel» (13): «Du musst Apple schadlos halten, wenn Ansprüche wegen deines Contents entstehen – auch bei Streit über Musikrechte, Persönlichkeitsrechte etc. Das kann teuer werden.»

Dieser letzte Punkt klingt unangenehm. Ist er eine reale Gefahr? Ich fragte bei ChatGPT nach, ob es nicht eher so wäre, dass juristische Angriffe nicht via Apple geführt würden, sondern direkt mich als Urheber betreffen würden.

Das Risiko ist real

Die Antwort lautete, das Risiko bestünde nicht nur theoretisch:

Du hast recht: Wer mit deinem Podcast unzufrieden ist, verklagt in der Regel dich. Aber: Bei Urheberrechtsverletzungen wird oft zuerst die Plattform abgemahnt. Bei Persönlichkeitsrechtsverletzungen, Diffamierung oder Datenschutzverstössen kann ebenfalls gegen Plattform und Urheber vorgegangen werden. In den USA ist es üblich, «alle Beteiligten» einzuklagen.

Das heisst tatsächlich, dass Apple zwar an den Fremdinhalten verdient, dafür jedoch keine Verantwortung übernimmt. Wenn alle Beteiligten verklagt werden, bedeutet das, dass die Rechnung für den letzten in der Kette schnell schwindelerregende Höhen erreicht.

Diese Bestimmungen spiegeln ein einseitiges Abhängigkeitsverhältnis wider. Es ist zwar niemand gezwungen, seine Podcasts via Apple zu veröffentlichen. Doch angesichts der Marktmacht dieses Verzeichnisses müsste man auf einen beträchtlichen Teil des potenziellen Publikums verzichten, wenn man dieses Risiko nicht eingehen will.

Überrascht uns diese Erkenntnis? Nicht sonderlich. Trotzdem ist es erhellend, das so in aller Deutlichkeit dargelegt zu bekommen.

Auch beim Musikstreaming droht rechtlicher Ärger

Als Bonus importiere ich die Nutzungsbestimmungen von Spotify, Tidal, Apple Music bzw. den Apple Media Services und Youtube Music bzw. Youtube in ein Notizbuch von Google Notebook LM und stelle folgende Frage: «Vergleiche diese Nutzungsbestimmungen: Bei welchem Dienst haben Nutzerinnen und Nutzer die weitreichendsten Rechte? Wo sind die Regeln am strengsten? Und wo droht die grösste Gefahr, durch kleine Regelverstösse haftbar gemacht zu werden?»

Die Risiken, die in den Nutzungsbestimmungen von Musikstreaming-Anbietern schlummern – illustriert durch Notebook LM.

Kurz zusammengefasst beurteilt die Google-KI Apple als grosszügigsten, weil man dort (nach den Regeln des Music Store) gekaufte Titel ohne DRM erhält und die auf CD brennen darf. Die KI nennt zweitens Youtube. Diese Lizenzbestimmungen handeln auch den Umgang mit eigenen Videos ab. Notebook LM bewertete es als positiv, dass Nutzerinnen und Nutzer ihre Werke monetarisieren dürfen (oder auch nicht).

Die strengsten Regeln finden sich wiederum bei Apple, weil dort ein Account maximal auf zehn Geräten (davon höchstens fünf Computer) gleichzeitig angemeldet sein dürfe und Geräte nur alle 90 Tage mit einem neuen Apple-Account verknüpft werden können – in dieses Problem bin ich tatsächlich schon reingerannt.

Bei Apple sind wir sogar bei einem «bloss vermuteten Verstoss» dran

Gefahren bei Regelverstössen drohen bei allen Plattformen: Bei Tidal müssen Eltern dafür geradestehen, wenn ein Kind unter 13 Jahren Unfug mit den Inhalten anstellt. Bei Spotify, Tidal und Youtube leisten Nutzerinnen und Nutzer wiederum Schadenersatz, falls die Unternehmen selbst wegen kleiner Regelverstösse eingeklagt werden.

Den Vogel schiesst wiederum Apple ab: Bei Punkt f) heisst es tatsächlich, dass Nutzerinnen und Nutzer auch für alle Massnahmen haften, die Apple im Rahmen der Untersuchung eines bloss vermuteten Verstosses ergreift.

Beitragsbild: Lizenzabkommen und Nutzungsbestimmungen werden zwar nicht unterschrieben, sondern per Klick akzeptiert. Aber auch bei einem Clickwrap-Abkommen (Shrink wrap contracts) handelt es sich um einen Vertrag (Scott Graham, Unsplash-Lizenz).

#Benutzerunfreundlichkeit #Juristerei #KI #KIQuicktipp #LLMs

Matthias Oct 20, 2025

Wie Gemini (fast) perfekte Transkriptionen liefert

Googles Sprachmodell Gemini hat nach einem schwachen Start zugelegt. Doch in meinen Vergleichstests schneidet die Konkurrenz weiterhin besser ab. ChatGPT, Claude, Perplexity, Mistral Le Chat und Deepseek sind durch die Bank informativer und prägnanter.

Doch neuerdings gibt es einen stichhaltigen Grund, Gemini zu verwenden – zumindest für einen spezifischen Zweck. Seit Mitte September beherrscht Googles Sprachmodell die Transkription. Es transkribiert (wie hier besprochen) Videoanrufe und -konferenzen via Google Meet. Es verschriftlicht auch hochgeladene Audiodateien und liefert ein Transkript nach Mass. Das heisst, wir können im Prompt angeben, worauf besonders geachtet werden soll.

Für einen Test verwende ich einige Aufnahmen in verschiedenen Sprachen und Aufnahmequalitäten, die schon bei früheren Gelegenheiten zum Einsatz kamen. Dadurch lassen sich die Resultate hervorragend vergleichen, namentlich mit Trint, Descript, Töggl, Whisper, Happy Scribe und Swiss Transcribe. Allerdings mit dem wichtigen Disclaimer, dass die Tests der weiteren Anwendungen vor einiger Zeit durchgeführt wurden. Es ist denkbar, dass sie einige der älteren Kandidaten inzwischen verbessert haben.

Auch unter schwierigen Umständen liefert Gemini ein brauchbares Resultat

Die fünf Beispiele¹ zeigen, dass Gemini kein rundum perfektes Resultat abliefert, aber unter idealen Umständen einen verständlichen, brauchbaren Text produziert. Im Vergleich zu den Ergebnissen, die ich vor zwei Jahren dokumentierte, bedeutet Gemini einen Sprung nach vorn. Das sind meine Beobachtungen im Detail:

Mein Eindruck ist, dass diese Transkription von Gemini weniger unter einer schlechten Tonqualität leidet, als das früher der Fall war. Ich vermute, dass Google die Software intensiv mit Mitschnitten von Google Meet trainiert und sich das bezahlt macht.
Die Schweizer Mundart und ein exotisches Vokabular sind nach wie vor die grösste Hürde. Dennoch sind auch die Dialekt-Passagen weitgehend verständlich.
Das Interview in Englisch ist fehlerfrei, ebenso das Telefoninterview in Hochdeutsch.
Beim Telefoninterview in Schweizerdeutsch scheint die KI einzelne Begriffe nicht oder missverstanden zu haben, was zu einer Fehlinterpretation eines Satzes oder Abschnitts führt.
Meine Rezitation von «Babette von Interlaken» hat eine vom Schweizerdeutschen beeinflusste Satzstellung. Sie ist grammatikalisch oft ungehobelt oder falsch und unschön zu lesen. Dennoch ist das Transkript fast so gut wie das der auf Schweizerdeutsch getrimmten Software Swisstranscribe.

Wie gewünscht, transkribiert Gemini den Text und gliedert ihn passend in Abschnitte.

Das Fazit fällt entsprechend erfreulich aus: Wenn wir die Transkription nur sporadisch verwenden und (z. B. über unseren Arbeitgeber) Zugang zu Google Workspace haben, dann können wir uns eine separate Transkriptions-Anwendung in vielen Fällen sparen. Eine Anwendung wie Happy Scribe ist allerdings nach wie vor sinnvoll für die Nachbearbeitung: Sie stellt einen Editor zur Verfügung, mit dem sich die Passagen im Original anhören und verbessern oder redigieren lassen – diese Möglichkeit bietet Gemini nicht.

Gemini transkribiert nah am Original-Wortlaut

Bemerkenswert an der Transkription von Gemini sind ferner die folgenden Dinge:

Anders als andere Anwendungen unterscheidet Google nicht zwischen den Sprechern. Die Software hat auch oft Mühe dabei, einen Sprecherwechsel zu erkennen. Sowohl beim Interview in Englisch als auch beim Gespräch in Hoch- und Schweizerdeutsch wurden Aussagen zu einzelnen Sätzen zusammengeführt, die im Original von verschiedenen Personen stammen – das ist nachteilig für die Verständlichkeit.
Gemini transkribiert nah am ursprünglichen Wortlaut; wie die Beispiele unten zeigen, sind in der Verschriftlichung viele «Ähs» enthalten, ebenso Füllwörter und -phrasen wie «also», «so», «quasi», «glaube ich», «irgendwie» und so weiter.

Letzteres führt zu schwer lesbaren Transkripten. Trotzdem begrüsse ich es, wenn das Sprachmodell von sich aus möglichst wenig an den Texten ändert und möglichst originalgetreu arbeitet – ich hätte nichts dagegen, wenn die Mundart-Quellen in Mundart und nicht in einem Pseudo-Hochdeutsch verschriftlicht würden.

Auch die Nachbearbeitung übernimmt die KI

Natürlich ist die künstliche Intelligenz gern bereit, das Transkript in eine flüssiger lesbare Form zu überführen. Ich verwende dafür folgenden Prompt:

Kannst du mir das Transkript straffen, d. h., Redundanzen und typische Artefakte der mündlichen Rede entfernen, umgangssprachliche Redewendungen verschriftlichen, Ähs und Füllwörter weglassen? Achte aber darauf, inhaltlich nichts wegzulassen und keine Bedeutungsveränderungen vorzunehmen!

Ein abschliessender Vorteil besteht darin, dass wir eine echte Alternative zu den gängigen Transkriptionslösungen bekommen. Die basieren in aller Regel auf Whisper, der Open-Source-Software von OpenAI. Das führt dazu, dass sich viele der abgeleiteten Produkte wie Happy Scribe, Swiss Transcribe und Töggl in den Resultaten ähneln. Google setzt (soweit ich das beurteilen kann) auf eine eigene Technologie.

ChatGPT führt Transkripte von zwei separaten KIs zu einem Text zusammen und markiert Unstimmigkeiten.

Trick 77 für die Fehlersuche

Daraus ergibt sich eine vielversprechende Möglichkeit für hervorragende Transkripte: Wir lassen uns die gleiche Aufnahme separat z. B. von Swiss Transcribe und Gemini transkribieren. Dann bitten wir eine unbeteiligte KI, uns eine konsolidierte Fassung zu erstellen. Ich habe diesen Auftrag ChatGPT erteilt – mit folgendem Prompt:

Ich habe nachfolgend die gleiche Audioaufnahme, von zwei separaten Transkriptionslösungen verschriftlichen lassen. Bitte führe sie mir zu einer konsolidierten Fassung zusammen: Verwende jeweils die schönere sprachliche Formulierung und markiere jene Stellen, bei denen sich die Transkripte unterscheiden und du nicht sicherstellen kannst, ob eine der beiden Varianten korrekt ist.

Ich habe das mit «Babette von Interlaken» ausprobiert: Sprachlich ist auch die konsolidierte Fassung nicht über alle Zweifel erhaben. Aber die Stellen, in denen sich die Transkripte unterscheiden und die manuell überprüft werden müssen, hebt ChatGPT ausgezeichnet hervor. Mit dieser Methode traten Fehler zum Vorschein, die ich selbst übersehen hatte …

Nachtrag: Achtung bei langen Aufnahmen

Eine wichtige Einschränkung ist mir erst nach Veröffentlichung dieses Blogposts aufgefallen. Gemini transkribiert nicht beliebig lange Aufnahmen. Bei Podcasts ab ungefähr 45 Minuten stellte ich fest, das Teile fehlen – und zwar nicht unbedingt am Ende, sondern mittendrin. Das ist tückisch – daher der Ratschlag, wichtige Aufnahmen dennoch mit einem dedizierten Transkriptionstool zu bearbeiten oder Gemini anzuweisen, explizit darauf hinzuweisen, wenn ein Transkript unvollständig ausfällt. Alternativ kann man sich auch Zeitmarken angeben, die (vielleicht) helfen, Lücken aufzuspüren.

Es gibt auch gute Nachrichten: Gemini ist grossartig darin, Sprecher und Sprecherinnen zu erkennen und mit Namen zu beschriften, und selbst Dinge wie Musik, Geräusche und Athmo zu benennen.

Fussnoten

1) Hier sämtliche Tests im Original-Wortlaut:

Telefoninterview Schweizerdeutsch

Natürlich hat man gesehen, dass Instagram jetzt etwas gegen diese Fake-Follower unternimmt und ja, einfach Massnahmen unternimmt, dass man kann seine Posts boosten mit unlauteren Methoden. Würdest du sagen, ist das ein grosses Problem, wie nötig ist das?

Äh, sehr nötig. Also Instagram kämpft eigentlich seit, seit angefangen haben mit, mit diesen Bots, oder? Und ich schätze mal, dass sicher irgendwie 50% von diesen Influencern Bots einsetzen, ob es jetzt Kommentar-Bots sind oder Like-Bots oder Follower kaufen, oder? Von dem her ist es eigentlich sehr, sehr eine gute Sache, was man macht. Also, man muss auch kritisch sehen. Der andere Mann hat gesagt, ja, jetzt haben sie schon wieder einen Bot verboten, oder es ist die Frage, wie effektiv ist es jetzt diesmal, oder? Und das Einzige, was ich so ein bisschen, so ein bisschen hoffnungserweckend gesehen habe, ist halt, dass sie jetzt halt mit KI einsetzen, äh, dass sie halt die Bösebuben identifizieren können, oder? Und dass sie dann natürlich auch die User informieren, hey, ähm, wir haben dir irgendwie Leute rausgeschmissen oder äh, da war so ein bisschen Stillschweigen gewesen. Er hat so Shadow Ban gesagt, oder? Dass Instagram dich praktisch bestraft, aber du hast nicht gewusst, wieso.

Und jetzt quasi muss man auch damit rechnen, dass es öffentlich wird, wenn man, wenn man erwischt wird, quasi.

Also, öffentlich wird es, glaube ich, nicht. Das so, was ich verstanden habe, kriegst du so eine In-App Message, so eine Notification über von Instagram, dass sie das entdeckt haben. Ähm, ich glaube nicht, dass sie es öffentlich machen. Das kannst du dann irgendwie ja, aber wäre es denn aus deiner Sicht sinnvoll, wenn man, wenn man eben würde Leute auch anprangern, wo da quasi bescheissen? Genau, würde, würde aus deiner Sicht sinnvoll wenn man die Leute tatsächlich würde anprangern, wenn man, wenn man könnte beim Bescheissen erwischt werden?

Telefoninterview Hochdeutsch

Ich starte mal ganz profan mit der Frage, was ist ein Bot?

Ja, was ist ein Bot? So profan ist die Frage schon gar nicht. Also, das, äh, der Begriff Bots kommt von Roboter, Robot, und, ähm, eigentlich sind damit schon zwei unterschiedliche Sachen gemeint, nämlich, äh, der klassische Begriff eines Bots. Es gab auch früher schon sowas wie Bot-Netze. Damit war eigentlich gemeint, dass, äh, dass Computer durch Schadsoftware selbstständig agieren. Also, äh, das heisst, wir hatten Viren, die sich verbreitet haben und dann auf Ihrem Rechner und meinem Rechner und sonst wo, äh, plötzlich die Rechner autonom angefangen haben zu agieren und vielleicht Spam versandt haben, ohne dass wir das überhaupt mitgekriegt haben. Genau. Das, das waren eigentlich diese, äh, daher kommt eigentlich der, der Begriff dieser Bot-Netze. Jetzt gibt’s dann, ähm, aber eben durch Social Media einen Bezug dazu, äh, wo eben auf der einen Seite die sogenannten Social Bots oder naja, vielleicht erstmal so insgesamt alle, alle Programme, äh, auf Social Media, die irgendwie, ähm, autonom agieren, werden als Bots bezeichnet. Mhm. Und da gibt’s dann noch mal die Unterscheidung zwischen Bots, die sich auch als Bots zu erkennen geben, das ist das, worüber Facebook jetzt zum Beispiel redet, wenn die das Zeitalter der Bots ausrufen, und, äh, solche, die so tun, als wären sie echte Menschen. Und das wären dann Social Bots.

Begegnen wir, äh, diesen Bots heute schon?

Ja, und zwar, ähm, zum Beispiel, ähm, Siri ist ein, ein Bot oder auch, äh, wenn ich an meinem Android-Phone «Okay Google» sage, dann ist ja dahinter ein Bot, äh, in dem Sinne, dass ich halt autonom agierende Software habe, mit der ich dann kommunizieren kann.

Interview in Englisch

You know, I talked with Matthias Kirchner, I guess the name from Free Software Foundation Europe for the radio show I was telling you about and then I played your Free Software song on the show.

Yeah. There are lots of interpretations from lots of bands.

Yes, and that’s an example of a filk song. Have you heard the term filk song?

Filk?

Yes, f-i-l-k. No, if you look up filk songs, if you search for it, you’ll find lots of amusing songs and some that are not amusing. But in any case, I was at a science fiction convention. I was at a filk singing meeting, which was operating by what they call Bardic circle, which means they go around the room and each person has a chance to either sing or request that someone else sing something. And I had just sung something and there were at least 20 people in the room, so I knew that would be a long time before I had another chance. I decided to write a song. But since I was not starting from an inspiration, I had to come up with a topic. I thought, why not write about free software? Right? I’ve never written anything about that. And then since I had no inspiration, I had to come up with a tune. I thought, why not use a Balkan dance tune? Which one? Well, Sadi Moma suggested itself because it’s very beautiful and not too fast.

Interview Hochdeutsch/Schweizerdeutsch

Welche nutzt du, welche Plattformen jetzt mehr oder weniger aktiv im Moment, weisst du es?

Ähm, ja, also, ich glaube, ich bin am aktivsten noch auf Instagram. Da haben wir ja vor einem Jahr oder so, glaube ich, schon mal die die Klingen gekreuzt, weil wir unterschiedlicher Meinung waren in in Punto Instagram. Ähm, da hat sich allerdings bei mir in den letzten Monaten so ein bisschen das verändert, dass ich tatsächlich mehr passiv konsumiere als wirklich aktiv bin auch. Ähm, und sonst, ich nutze Linkedin nicht mit Begeisterung, aber so aus so einer Jobnotwendigkeit her. Und ähm, bei Twitter ist es für mich so ein bisschen ein Auf und Ab. Da da kommt es sehr auf die Tagesform an, aber äh ich bin da früher sehr viel aktiver gewesen auch.

Genau, der Instagram-Krach, Krach ist ein bisschen viel gesagt, aber wir sind einfach unterschiedlicher Meinung gewesen. Ich habe schon dort gefunden, es hat sich so verschoben das Gleichgewicht auch, von so quasi Kommunikation auf Augenhöhe hin zu eben Influencer versus du bist halt der Kleine, wo, wo auch irgendwie kann irgendein Post posten. Und dann ist es ein super Foto, wenn ich finde, aber du kommst drei Herzli oder so, also vier vielleicht, weil, weil, weil es wirklich sensationell ist. Und darum habe ich dort ein bisschen das Interesse verloren. Ich habe auch noch schnell gekuckt, wie viel, dass das sind. Ich habe zehn, ich bin auf zehn gekommen, wo ich nutze mehr oder weniger aktiv im Moment. Aber man sieht dann schon auch, welche das werden sterben wieder von denen. Also Twitter, Facebook, ich glaube, am meisten Twitter und dann Facebook, Linkedin, naja, ein bisschen Untappd, das, das Bier Social…

Da bin ich auch sehr aktiv, das ist richtig. Aber das ist mehr, das ist ja nicht so sehr zum Interagieren, sondern das ist für mich zumindest mehr so zum selber dokumentieren, äh, wie, wie schlecht war das Feldschlösschen jetzt wirklich.

Rezitation in Schweizerdeutsch

This is the voice you have learned to fear. This is the voice of terror.

Babette ist in Luz und Troyes geboren. Sie ist unter fünf Räuber und Mörder aufgewachsen. Sie hat den liebevollen Gott nur aus den Flüchen gekannt, wo sie ständig gehört hat. In der Scharmützel von Luzern haben die Radikale ein paar Katholiken aus der Urkantone umgebracht und da ist sie es gewesen, wo ihnen das Herz ausgerissen und die Augen ausstechen liess. Babette hat ihr langes blondes Haar im Wind wehen lassen, so wie die grosse Hure von Babylon. Sie hat unter ihrem Mantel ihre Reize versteckt und sie ist eine Heldin von der Geheimgesellschaft gewesen. Deren Dämonen haben die mysteriöse Kongregationen ihre Ränke und Tücken zu verdanken gehabt. Sie ist plötzlich wie ein Irrlicht aufgetaucht. Sie hat undurchdringliche Geheimnisse gekannt und sie hat diplomatische Depeschen abgefangen. Sie hat sie aufgemacht, ohne das Siegel zu brechen. Sie hat sich wie eine Natter in die innerste Kabinette von Wien, von Berlin und von Sankt Petersburg geschlichen. Sie hat Wechsel gefälscht. Sie hat Passnummern geändert. Als Kind hat sie können mit Gift umgehen, wenn es Zetchi befohlen hat. Und sie ist offenbar vom Satan besessen gewesen, weil so gross ist die Kraft von ihrem Blick gewesen.

Babette von Interlaken, so heisst die Frau, wo der Umberto Eco da beschrieben hat. Er als Semiologe hat sich mit den Zeichen beschäftigt und ihre Deutung ausgekannt. Er hat in seinem berühmten Roman die verschwörerische Kraft von der Religion beschrieben und er hat in seinem Buch Der Friedhof in Prag von 2010 eindrücklich aufgezeigt, wie aus antisemitische Vorurteil dann der Judenhass wird und eine von der grässlichsten Verschwörungstheorien überhaupt. In dem Buch da kommt aber eben auch die Babette von Interlaken vor, die häre Jungfrau vom Schweizer Kommunismus. Sie sei dem Eco im Traum erschienen, schreibt er, wenn er in ihrem Halbschlaf das Bild von der blonde Dämonin mit ihrem wehrenden Haar auf der sicherlich blutigen Schulter habe wollen verscheuchen. Das dämonisch lockende Irrlicht mit vorsündiger Wollust bebenden Busen ist sie ihm als Modell zur Nachahmung vorgeschwebt. Das Internet, Wikipedia und die üblichen Quellen wissen nichts über die Babette von Interlaken. Der Eco wirklich vermutet, es handle sich um die Geschichte der Eisenjungfrau vom Hans Christian Andersen. Dort ist Babette allerdings eine Walliserin und weniger Intrigantin und Dämonin als vielmehr eine liebenswerte Frau, wo dem Held von der Geschichte den Kopf verdreht. Der Protagonist von der Eisenjungfrau lädt sich als luftigere Variante vom Schweizer Nationalheld verstehen, hat der Tagi geschrieben, als Tell mit dem Andersen-Herz. Mit anderen Worten, der Eco liegt mit seiner Vermutung völlig daneben und kommt überhaupt nicht drauf. Aber die NZZ die hat in ihrer fast 240-jährigen Geschichte ein einziges Mal über die Babette von Interlaken geschrieben, am 29. März 1881 hat’s wie folgt geheissen: Es ist die berüchtigte Babette gewesen, die merkwürdige Urenkelin vom Weishaupt. Weishaupt übrigens der Gründer von der Illuminati, wenn ich darf anführen. Der Pfarrer Weyermann hat sie die grosse Jungfrau vom Kommunismus genannt und dann kommt fast wortwörtlich das Zitat vom Umberto Eco. Die Babette hat den Katholiken das Herz oder die Eingeweide ausgerissen und dafür hat Babette ein Batzen und ein Glas Kirschwasser überkommen. Die Babette hat 1846 für die erste Regierungsräte vom Kanton Bern der Funker, der Ochsenbein und der Stockmar und Konsorte Vermittlungsaufgaben übernommen. Sie hat geflucht wie ein Radikaler, gesoffen wie ein Aargauer und geraucht wie ein Türk, heisst es in der NZZ. Und damit wird die Sache ein bisschen klarer. Babette ist im Sonderbundskrieg auf der Seite von der Eidgenossenschaft gestanden. Sie hat gegen die katholische Kantone in der Innerschweiz gekämpft, wo nichts vom Bundesstaat haben wollen wissen. Der Text in der NZZ ist eine Kritik vom Buch Der Jude von Verona gewesen, 1859 rausgekommen, in der Buchhandlung Hurter von Schaffhausen. Der Autor von dem Buch hat die NZZ nicht rausgefunden, aber wir wissen heute, dass es der Antonio Bresciani gewesen ist. Der hat sich als Schriftsteller auf die Seite von der Katholiken geschlagen und die NZZ schreibt dann auch, das Ziel von dem kuriose Buch sei, die Liberale mit Schimpf und Schande zu überschütten und abschliessend hat sich die NZZ gefragt, warum die Buchhandlung Hurter Schaffhausen so einen Schund überhaupt ausgibt. Und mir wissen jetzt also ein bisschen mehr über die Babette von Interlaken, das Rau-Bein, wo gesoffen hat wie ein Aargauer und offenbar so eine Art die Schweizer Mata Hari gewesen ist. ↩

Beitragsbild: Das waren noch Zeiten, als ich noch selbst abtippen musste!

#Gemini #KI #KIQuicktipp #Transkription