Der Grafiktrick für die grossen Sprachmodelle
Neulich hatte ich ein Erfolgserlebnis, als ich die KI habe Diagramme zeichnen lassen. Der Clou war, die Ausgabe nicht als Pixelbild anzufordern, sondern als Text – denn Text ist die Disziplin, die die Sprachmodelle am besten beherrschen.
Das gilt auch dann, wenn es sich nicht um Prosa handelt, sondern um eine strukturierte Form. Man spricht in solchen Fällen von Auszeichnungssprachen: Es gibt ein Repertoire an Strukturelementen (Tags), die aus syntaktischen Bezeichnern, Sonderzeichen oder einer Kombination davon gebildet werden. Die wiederum bringen den Inhalt in eine Form, dass ein Interpreter daraus eine bestimmte Darstellung anfertigt: Aus einer Textdatei der Auszeichnungssprache HTML wird eine Website, aus Markdown ein formatiertes Dokument und aus Mermaid.js ein Diagramm.
Stellt sich die Frage: Beherrschen die gängigen Sprachmodelle auch andere Auszeichnungssprachen, zum Beispiel Scalable Vector Graphics? Mit SVG lassen sich Vektorgrafiken beschreiben, d. h. Darstellungen aus geometrischen Elementen wie Linien, Rechtecken, Kreisen und Polygonen. Und wie die anderen Auszeichnungssprachen haben sie einen entscheidenden Vorteil: Der Output ist kompatibel zu Editoren seiner Gewichtsklasse.
Die KI produziert Rohmaterial, kein Endprodukt
Das heisst: Sie lassen sich öffnen, bearbeiten und weiterverwenden. Wie beim Text müssen wir die Ausgabe der KI nicht als Endprodukt betrachten, sondern als Rohmaterial, das wir nach Gutdünken anpassen, mit anderen Inhalten kombinieren und verbessern. Im Fall von SVG ist das besonders vielversprechend: Vektorgrafik ist für eine professionelle Arbeitsweise ausgelegt: Es lassen sich komplexe Illustrationen erstellen, für Druck und Web aufbereiten, und es gibt leistungsfähige Editoren wie Adobe Illustrator, Corel Draw und das kostenlose Affinity, in denen die KI-Elemente frei verwendbar sind. Im Vergleich dazu sind die Änderungsmöglichkeiten bei Pixelgrafiken, wie sie von Nano Banana oder ChatGPT generiert werden, nur in kleinem Rahmen änderbar.
Die Frage liegt auf der Hand: Sind die bekannten Sprachmodelle in der Lage, SVG auszugeben? Um diese grundsätzliche Fähigkeit auszuloten, kommt ein kurzer Prompt zum Zug. Gefragt ist ein simples Icon oder Piktogramm, das in eine schematische Darstellung oder ein UX-Design einfliessen könnte¹.
Und in der Tat – es klappt. Alle zwölf getesteten Sprachmodelle bewältigen die Aufgabe². Zehn davon kapieren auf Anhieb, worum es geht. Nur ChatGPT fabriziert erst ein Pixellogo und braucht eine Extra-Einladung für den SVG-Output. Immerhin punktet er mit einem brauchbaren Ergebnis – was nicht alle elf Sprachmodelle für sich in Anspruch nehmen dürfen.
Und das sind die fabrizierten Icons:
Am nächsten am Testsieg dran
Copilot: Um ein Haar die Nummer eins. Doch es gibt einen Punkt Abzug für die zu nahe am Rand liegende untere Tastenreihe.
Claude: Auch dieses Icon hätte es aufs Podest schaffen können, würde die rechte Umschalttaste nicht überstehen.
Mit Abstrichen brauchbar
Kimi: Die fehlende Leertaste gibt Abzug. Diese Tastatur könnte auch ein Slimline-PC sein.
Grok: Die vertikal verrutschte Zentrierung des Herzens und der Tasten kosten den Platz in der Top-Gruppe.
Deepseek: Das Herz ist zu breit geraten und klebt viel zu nah am unteren Rand.
ChatGPT: Das Herz, das den Bildschirm sprengt und die Perspektive bei der Tastatur ist falsch.
Missraten
Perplexity: Monitor top, Keyboard flop.
Gemini: Eher Mini-PC als Tastatur und auch das Herz ist zu pummelig.
Meta AI: Monitor und Herz sind einwandfrei, aber die Tastatur ist unbrauchbar.
Motiv nicht zu erkennen
Apertus: Ein Roboter mit roten Lippen und drei Augen?
Mistral: Eher ein Icon für ein Terminal beim Blutspenden.
Jimmy: Unfassbar schnell, aber komplett unbrauchbar.
Kurze Hinweise zu den weniger bekannten Sprachmodellen: Kimi stellte ich Ende 2025 vor – wobei meine Versuchsanordnung leider torpediert wurde. Jimmy ist ein in Hardware gegossenes Sprachmodell, das bei dieser Aufgabe seinen Tempovorteil inhaltlich nicht wettmachen kann.
Fazit: Die Resultate sind gestalterisch nicht überwältigend. Für ein besseres Resultat würden wir den Prompt verfeinern und sinnvollerweise auch stilistische Vorgaben machen. Im mindesten sollten wir eine Farbpalette vorgeben. Bei den Sprachmodellen, die Bilder als Inputs entgegennehmen, könnten wir Icons bzw. Piktogramme als Vorgabe und zur Orientierung auswählen.
Doch um Kunst oder auch nur Geschmack soll es an dieser Stelle – trotz meiner kleinen Rangliste – nicht gehen. Hier sollte der Nachweis erbracht werden, dass die Sprachmodelle in der Lage sind, korrektes SVG auszugeben und diese einfache Aufgabe zu lösen. Für komplexere Anforderungen gibt es mit Recraft.ai ein spezialisiertes Modell, das aufwendige, aus mehreren Elementen bestehende Sujets bewältigt und einen gewissen künstlerischen Anspruch mitbringt.
Fussnoten
1) Das ist der Prompt:
Generiere mir ein Logo in SVG-Syntax (als reiner Text):
- Quadratisch, mit abgerundeten Ecken
- Schwarzer Hintergrund, stilisierter Computermonitor in Weiss mit einer minimalistisch ausgeführten Tastatur
- Auf dem Bildschirm ein rotes Herz. ↩
2) Manche liefern den Output nicht in direkt herunterladbarer Form. Bei diesen Sprachmodellen müssen wir uns die Mühe machen, die Ausgabe zu kopieren, in einen Texteditor wie Notepad++ einzufügen und mit Dateiendung .svg zu speichern. ↩
#Gemini #KIQuicktipp #KIWeltanschauungen #Publisher