Mastodawn

Logo-Gestaltung mit KI: Einen Design-Preis gibt es noch nicht

Kann die KI uns bei Gestaltungsaufgaben helfen? Meine Ansprüche liegen tief: Für meine Ansprüche braucht es kein überragendes Design, sondern bloss etwas, mit dem man sich nicht blamiert.

Obwohl die Latte fast am Boden liegt, wurde ich bei früheren Versuchen bitter enttäuscht: Ich liess mir vor drei Jahren und zweimal vor acht Jahren ein Logo kreieren und erhielt so langweilige, generische Resultate, dass ich selbst in fünf Minuten etwas Besseres hinbekommen hätte. Doch ist die Zeit inzwischen reif? Schliesslich haben die Bildgeneratoren in den letzten Monaten rasante Fortschritte gemacht.

Ein Icon, das hübsch, sympathisch und zugänglich wirkt

Das alte, vor Jahren selbst gebastelte Favicon.

Die Herangehensweise ist dadurch eine völlig andere: Wir wählen keine spezialisierte Gestaltungs-App, sondern die üblichen Verdächtigen. Ich starte zwei Versuche mit Gemini und ChatGPT, und zwar mit einer maximal allgemeinen Anfrage: «Du kennst sicher meine Website Clickomania.ch. Kannst du mir ein Favicon gestalten? Es soll den technischen Aspekt widerspiegeln, aber auch sympathisch und nahbar wirken.»

Zur Erklärung: Das Favicon ist das Webseiten-Symbol, das der Browser in den Reitern und Lesezeichen anzeigt und auch in den Resultaten der Suchmaschinen bei der Unterscheidung hilft. Es sollte auch in winzigem Abbildungsmassstab erkennbar sein. Mein bisheriges Icon ist offensichtlich selbst gebastelt, und zwar in der tollen Farbschrift «Gilbert».

Der erste Versuch: ein Rohrkrepierer

Die Resultate zeigen, dass weder Gemini (links) noch ChatGPT (rechts) grosse Kenner meines Schaffens sind. Diese Favicons würde ich niemals verwenden wollen. Dennoch ist zumindest die Version von OpenAI besser als das, was 2023 und 2018 herausgekommen ist.

Geminis erster Versuch, ohne jegliche Instruktionen.Das ist das Icon, das ChatGPT zu diesem Blog hier einfällt.

Doch diese zweite Version bringt mich auf eine Idee. Ich zeichne einen groben Entwurf und bitte die KI, ihn mir sauber auszuarbeiten. Das ist der Entwurf:

Meine selbstgezeichnete Skizze, die die Unterzeile des Blogs («Beobachtungen aus einer technologisierten Welt») versinnbildlicht.

Versuch 2: Eine Skizze verschönern

Ihn übergebe ich mit einem relativ kurzen Prompt, der als Aufgabe stellt, eine fertige Version auszuarbeiten¹. Gemini liefert folgendes Resultat:

Diese Variante des Logos von Gemini ist kaum von meiner Skizze zu unterscheiden.

ChatGPT liefert mir nach dem zweiten Versuch (ich bitte darum, den grauen Hintergrund durch einen schwarzen zu ersetzen) dieses Logo ab:

ChatGPT erzeugt anhand meiner Vorlage diesen ersten Entwurf.

Wir können folgende Dinge festhalten: OpenAI schlägt Google deutlich. Beim Sieger-Logo ist die Gestaltungs-Idee erkennbar. Doch es gibt einige Mängel. Der offensichtlichste ist, dass dieses Logo nicht freundlich wirkt.

Ein letzter Anlauf mit einem sehr ausführlichen Prompt

Ich starte einen neuen Chat mit meinem Ursprungslogo und formuliere meinen Prompt sehr viel ausführlicher².

Das sind die beiden Ergebnisse: Erstens Gemini …

Gemini setzt meine Instruktionen nicht buchstabengetreu um: Der Computer ist schwarz, nicht blau, der schwarze Hintergrund fehlt und die Augen und nicht das Gesicht sind rot. Auch Gemini ergänzt den Monitor mit einem Fuss.

… und zweitens von ChatGPT.

Das Resultat von ChatGPT: Die Farbangaben wurden einigermassen getreulich übernommen, wobei das Blau zu dunkel geraten ist. Auch ChatGPT fügt eigenmächtig einen Monitorfuss hinzu. Er hat zur Folge, dass das C und «Clickomania» so weit auseinanderstehen, dass man diese beiden Elemente nicht mehr in Verbindung bringt.

Fazit: Close, but no cigar, wie der Amerikaner sagt. Im Vergleich zu den grässlichen Logos bei meinen früheren Versuchen sind diese Resultate deutlich besser. Trotzdem bleibt das alte, dilettantische Favicon weiter in Benutzung. Denn obwohl meine Gestaltungs-Idee erkennbar ist, wirken diese KI-Werke blutleer – einfach zu wenig nahbar und menschlich, um dieses Blog und seine Werte repräsentieren zu dürfen.

Fussnoten

1) Das ist der Prompt für die Ausarbeitung:

Das ist mein grober Entwurf, inspiriert von deinem Design. Bitte entwickle daraus eine fertig ausgestaltete Fassung im Stil eines reduzierten, modernen Logos, das als Favicon funktioniert. Beachte folgende Dinge:

Das Resultat muss quadratisch sein.
Die Lesbarkeit muss auch in kleiner Reproduktion gewährleistet sein. Passe die Schrift entsprechend an. Verwende einen gut lesbaren Font.
Falls möglich, verbessere die Verschmelzung des C und des Computerbildschirms.
Verwende flächige Farben. ↩

2) Das ist der Prompt für den zweiten Versuch:

Das ist der grobe Entwurf für ein Favicon. Bitte entwickle daraus eine fertig ausgestaltete Fassung:

Dein wichtigster Auftrag lautet, dass das Motiv selbst in kleiner Reproduktion erkennbar ist.
Der Stil ist modern.
Das fertige Bild ist quadratisch.
Das C verschmilzt mit dem Computerbildschirm. Zusammen bilden Monitor und C eine Einheit. Das C ist deutlich vom Bildschirmrahmen abgehoben.
Die Augen blicken beobachtend, eher freundlich als streng. Sie sind nicht exakt symmetrisch, sondern im Blick leicht nach rechts gerichtet.
Arbeite mit geometrischen Formen. Ausnahme ist das C: Es darf eine leichte Andeutung einer handgezeichneten Form haben.
Der Bildschirm und die Schrift stehen auf einem schwarzen Hintergrund.
Die Farbe der Schrift (C und Clickomania) ist Hex 3399cc.
Die Farbe des Gesichts (im Bildschirmhintergrund) ist Hex fb7d67.
Verwende keine Farbverläufe, sondern flächige Farben. ↩

Beitragsbild: Bleistift und Papier sind bei der Logogestaltung weiterhin ein entscheidender Schlüssel zum Erfolg (Onkar Mehta, Unsplash-Lizenz).

#Gemini #Publisher #VideoBildgenerator

Matthias Feb 26

Aus der Vektorkurve geflogen

Gibt es KI-Bildgeneratoren, die Vektoren statt Pixel liefern? Diese Frage tauchte Anfang Januar bei einer meiner KI-Schulungen auf, und sie ist mehr als berechtigt. Pixel sind die beste Wahl für fotorealistische Motive oder künstlerische Illustrationen.

Doch in vielen anderen Fällen wäre der geometrische Ansatz geeigneter. Denken wir an die Infografiken, an technische Illustrationen, an Diagramme oder Visualisierungen, wie wir sie mit Notebook LM und Gemini erstellen. Wenn die aus einzelnen Elementen aufgebaut wären, liessen sie sich leicht bearbeiten: Wir könnten die Anordnung anpassen, Seitenverhältnisse ändern und die Farbgebung verbessern. Vor allem gäbe es die Möglichkeit, die Texte zu bearbeiten. Gemini und Dall-e von OpenAI haben zwar zugelegt. Doch noch immer generieren sie bei visuellem Output Nonsens-Ausdrücke, seltsame Formulierungen oder Sprachverwirrungen. Und auch typisch ist die Pseudo-Typografie: seltsame Gebilde, die aussehen wie Buchstaben, aber zu keinem bekannten Alphabet gehören.

Nachforschungen ergaben, dass die Auswahl an Vektor-Bildgeneratoren derzeit gering ist. Adobe Firefly warb schon bei der Lancierung mit der Funktion Text to vector. Die würde ich gern testen, aber dafür braucht es Illustrator und ein Abo für 25.95 Franken im Monat. Nebenbei: Was zum Teufel, Adobe!? Eure Abo-Seite ist abschreckender als die Auslage dieses dänischen Restbeständeverwerters.

Eine Umgebung für die kreative Ideenfindung

Dank recraft.ai muss ich nicht unverrichteter Dinge abziehen. Das in London beheimatete Unternehmen richtet sich an Gestaltungsprofis. Das merken wir daran, dass der Prompt für die Bilderzeugung nicht für sich allein steht, sondern in eine simple Grafik-Anwendung eingebettet ist. Wir zeichnen von Hand Rahmen, arbeiten mit Pinsel und geometrischen Elementen wie Linien, Rechtecken, Kreisformen und Pfeilen und platzieren Textfelder oder Pixel. Das soll kein Grafikprogramm ersetzen, sondern einfachen Entwürfen (Mockups) den Weg bereiten.

In dieser Umgebung platzieren auch die KI-generierten Elemente. Beim Prompt-Feld erzeugen wir unsere Inhalte entweder manuell oder mithilfe eines agentischen Assistenten. Letzteres benötigt natürlich mehr Credits.

Unter Model stehen uns eine Reihe von generativen KI-Modellen zur Auswahl. Einige davon kommen uns bekannt vor (Nano Banana und Imagen von Google, GPT von OpenAI, Flux von Black Forest, sowie Ideogram, Hidream und Qwen – also auch einige Vertreter aus der Open-Source-Welt). Recraft selbst hat eigene Modelle im Angebot, und hier werden wir mit Recraft V2 Vector und Recraft V3 Vector fündig. Das alte Modell will einen Credit für eine Bilderzeugung, das neue zwei. Apropos: Als Nutzer ohne Abo erhalten wir 30 Credits pro Tag. Für 10 US-Dollar (Pro) gibt es 1000 Credits pro Monat und das Team-Abo kostet 55 Dollar und beinhaltet 9000 Credits.

Kurzer Einschub: Die erste Variante dieses Blogposts wurde von der Wirklichkeit überholt. Während der Beitrag auf Halde lag, lancierte der Hersteller die Version 4 seines Modells, das auch bei den Vektormöglichkeiten eine deutliche Verbesserung verspricht. Da es auch deutlich mehr Credits verschlingt, konnte ich nicht alle Prompts mit dem neuen Modell ergänzen. Beim vierten Beispiel habe ich das jedoch getan – es zeigt eine deutliche Verbesserung. Einschub Ende.

1) Die Chimäre

Wir können die Modelle selbst auswählen oder die Wahl der Software überlassen. Ich probiere mein Glück mit der Einstellung Auto mode und mit dem Prompt, den ich seit Anbeginn der KI-Bildgeneratoren für meine Tests nutze. Eine junge Frau mit Fuchsschwanz und Hasenohren.

Die KI generiert zwei Varianten. Ohne stilistische Vorgaben erhalte ich zwei Illustrationen im Kinderbuchstil. Ob man sie für ein reales Projekt verwenden würde, ist natürlich Geschmackssache. Auf den ersten Blick wirken die Grafiken charmant. Bei längerer Betrachtung erkennen wir sie nicht unbedingt als KI-generiert. Aber sie wirken generisch genug, um keine Konkurrenz zu einer echten Illustratorin oder einem realen Illustrator zu sein.

Die KI generiert zwei Varianten des Mädchens mit Hasenohren und Fuchsschwanz (Modell Recraft V3 Vector).

Doch bei der Vektor-Vorgabe gibt sich Recraft keine Blösse: Die Grafiken lassen sich im SVG-Format exportieren, das sich problemlos in Affinity öffnen und bearbeiten lässt. Das Umfärben, Verschieben, Verändern und Entfernen von Bestandteilen der Grafik ist ein Klacks, und natürlich könnten wir auch Dinge hinzufügen.

Es zeigt sich allerdings auch, dass der Aufbau nicht über alle Zweifel erhaben ist. Ein Beispiel: Das blaue Kreissegment im Hintergrund des Fuchsmädchens ist aus fünf einzelnen Formen aufgebaut, die zwischen die Konturen der Figur im Vordergrund eingepasst wurden. Das ist natürlich Unfug. Wer nur den Hauch einer Ahnung von Vektoren hat, hätte ein einzelnes Kreissegment angelegt und hinter dem Mädchen platziert. Im Fall hier ist das kein wirkliches Problem. Doch generell erschweren solche Anfängerfehler die Bearbeitung, und sie machen die Grafik unnötig komplex.

Das Vektorbild in Affinity: Die Elemente lassen sich nachbearbeiten – aber statt eines Kreissegments finden sich mehrere isolierte Puzzleteile.

Erfreulich allerdings: Die KI hat die Grafik genau in den Rahmen eingepasst, den ich vorab auf der Zeichenfläche deponierte. Beim Recraft-Prompt könnten wir alternativ bei Ratio das Seitenverhältnis angeben. Unter Count legen wir fest, wie viele Varianten erstellt werden sollen. Bei Image Colors wählen wir die Farbpalette, die die KI berücksichtigen soll. Und in den Settings geben wir an, ob im Bild Textelemente enthalten sein dürfen oder nicht (Avoid text in image).

2) Eine komplexe Infografik

So weit, so erfreulich. Aber wie gut ist das Resultat bei einer Aufgabe aus dem Bereich der Infografik? Um mit schwerem Geschütz einzusteigen, setze ich bei meinem Versuch von neulich an, mir eine erklärende Infografik zu einem komplexen Buch erzeugen zu lassen. Allerdings scheitert dieses Unterfangen schon vor dem Start: Der Prompt von Recraft nimmt nur 1000 Zeichen entgegen. Das ist zu kurz für alle Informationen, die in die Grafik gehören würden.

3) Eine einfache Infografik

Also, eine einfachere Aufgabe. Gemini lieferte mir für diesen Artikel ein visuelles Guetslirezept¹. Klappt das auch mit Recraft?

Die Antwort ist ein Jein. Das ganze Rezept lässt sich mit der Anweisung zwar auf unter 1000 Zeichen kürzen. Doch die KI ist dennoch überfordert.

Sie erfüllt die Anforderung zwar, sowohl Zutaten als auch Zubereitung zu visualisieren, doch bei den Details hapert es gewaltig: Statt drei Eiweiss sehen wir zwei ganze Eier und die Mandeln sind eindeutig nicht gemahlen. Der Text erscheint wie gefordert in Deutsch, doch die längeren Textblöcke erhalten viele Fehler und seltsame Glyphen-Unfälle:

Auf den ersten Blick wirkt das Rezept gelungen, doch Mängel zeigen sich bei den Details (Recraft-Modell Version 4).

Das ist das Resultat der neuen Version des Vektormodells. Zum Vergleich hier die ursprüngliche Variante, die noch mit dem Vorgänger entstand. Sie zeigt einen deutlichen Fortschritt:

Vom Rezept bleibt nur die Liste mit den Zutaten übrig (Recraft-Modell Version 3).

Beim ersten Versuch erscheint der Text auf Englisch und nur die Liste mit den Zutaten wurde visualisiert.

Das grössere Problem besteht bei beiden Ausführungen: Die schriftlichen Angaben sind nicht als bearbeitbare Textrahmen in der SVG-Grafik enthalten. Sie bestehen aus Vektorkurven, wobei teilweise sogar einzelne Buchstaben aus mehreren Elementen zusammengebaut wurden. Die wirken in einer hohen Zoomstufe unbeholfen und kantig.

Die Vermutung liegt nahe, dass die Textelemente als Pixel generiert und vektorisiert wurden. Das deutet darauf hin, dass die künstliche Intelligenz diese Vektorgrafiken nicht systematisch aufbaut, wie es ein menschlicher Illustrator tun würde. Stattdessen bildet sie das Erscheinungsbild nach, so gut es halt geht. Das heisst: Optisch können die Grafiken in Ordnung sein – strukturell haben sie Defizite.

Der Text besteht aus schlecht vektorisierten Buchstaben.

Im vorliegenden Fall müssten die Textelemente gelöscht und manuell neu aufgebaut werden. Das wäre zwar ein Zusatzaufwand; ein gewisses Rationalisierungspotenzial besteht dennoch.

Zum Vergleich: Diese Rezeptdarstellung stammt von Gemini. Als Pixelbild lässt sie sich mit vernünftigem Aufwand nicht nachbearbeiten.

4) Illustration fürs Schulbuch

Letzter Versuch: Eine Illustration fürs Schulbuch. Die Ausgangslage ist eine Tabelle, in der fünf Tiere (Elefant, Giraffe, Hauskatze, Nashorn und Grizzlybär) mit Gewicht und Körperhöhe aufgeführt sind. Eine Spalte mit Emojis zeigt die Gefährlichkeit für den Menschen.

Das neue Modell Version 4 ist ein deutlicher Fortschritt: Diese Illustration ist zwar weit entfernt von Perfektion, aber im Vergleich zum Vorgängermodell (siehe unten) ein grosser Fortschritt.

Die KI sollte daraus eine Visualisierung erstellen und Diagramme für die jeweiligen Werte hinzufügen. Formale Vorgabe: «Gestalte es modern, verspielt, aber dennoch seriös genug für den Bildungsbereich, und achte darauf, dass der Text auf Deutsch bleibt.»

Wie man sieht, würden wir dieses Resultat niemals eins zu eins verwenden wollen, dafür stimmen zu viele Details nicht. Wir stellen etwa fest, dass die Höhe durch einen vertikalen Massstab symbolisiert wird. Und die Hauskatze ist mit 400 Kilogramm deutlich übergewichtig. Aber die Sprachvorgabe wurde berücksichtigt und als Rohfassung könnte diese Illustration nützliche Dienste erweisen.

Zum Vergleich: Das Resultat der Version 3 überzeugt deutlich weniger: Die Vorgabe zur Sprache wird ignoriert, die Diagramme fehlen. Die Giraffe wird mit den Werten des Elefanten angeschrieben und der Grizzlybär erscheint als Label, aber nicht als Bild und ohne Daten. Auf der zweiten Grafik taucht ein gelber Kopffüssler auf, der mit keinem der Tiere korrespondiert, die in der Liste erscheinen.

Die Tiere und Masseinheiten auseinanderzuhalten, entpuppt sich als zu hohe Hürde (Recraft V3 Vector).

Fazit

Fazit: Als Ersatz für Cliparts ab Stange taugt Recraft auf alle Fälle: Die legendären Corel-CDs mit Sammlungen von Hunderttausenden Stock-Motiven in Vektorform sind hiermit – so sehr mich das auch schmerzt – Geschichte. Die so generierten Motive sind individueller als die vorgestanzten Kreationen. Durch geschicktes Prompten, klare Stilvorgaben und eine gezielte Nachbearbeitung lässt sich auch der Eindruck der Belanglosigkeit, der den KI-Werken anhaftet, verringern oder beseitigen.

Den Ansprüchen von Infografiken und Datenvisualisierungen ist die Technik im Moment nicht gewachsen. In ganz simplen Fällen kann sie den Initialaufwand verringern oder uns als Inspiration dienen. Aber für vorzeigbare Resultate kommen wir nicht darum herum, selbst Hand anzulegen.

Fussnoten

1) Bei Google machte ich es mir maximal einfach und schrieb nicht einmal das Rezept selbst auf. Das war der Prompt:

Hier ein Rezept für Zimtsterne. Kannst du mir daraus eine schöne Infografik machen, in der nicht nur die Zutaten visualisiert sind, sondern auch die einzelnen Arbeitsschritte? Das Resultat soll ansprechend wirken, wie in einem feinsäuberlich gestalteten Rezeptbuch. ↩

Beitragsbild: Um die Vektorkurven richtig zu nehmen, braucht es Erfahrung als Mauslenker in der Grafik-Anwendung (Jesse Bowser, Unsplash-Lizenz).

#Adobe #Datenvisualisierung #KI #Longread #Publisher #VideoBildgenerator

Matthias Feb 19

Wie aus einer verwickelten Geschichte eine anschauliche Grafik entsteht

Es ist paradox: Einerseits beobachten wir diesen enormen Fortschritt bei den Bildgeneratoren. Andererseits wird mit dieser generativen KI fast ausschliesslich Schindluder getrieben. Zumindest scheint es so: AI Slop bis zum Abwinken auf Facebook und sexistische Kackscheisse auf X bei Elon Musk. Der Mann versprach zwar Besserung. Aber das Problem ist nicht vom Tisch.

Es scheint zwar nicht so, aber es gibt auch vernünftige Einsatzzwecke. Mir haben es die massgeschneiderten Infografiken angetan. Die Bildgeneratoren beherrschen allerlei Formate: Infografiken, Diagramme und Mindmaps, um nur einige zu nennen.

Sachverhalte zu visualisieren, hilft beim Nachdenken. Nebenbei sind sie wunderbar geeignet, um einen drögen Blogpost oder Dokumente anderer Art aufzupeppen. Im Vergleich zu rein illustrativen Bildern – bei denen ich den KI-Einsatz hier im Blog stark zurückgefahren habe – scheint mir die Akzeptanz bei informativen Formaten grösser zu sein.

Die Bilder-KIs privat und halbprivat nutzen

Nebst den journalistischen Möglichkeiten lassen sich Bilder-KIs wunderbar privat benutzen: Heute gelingt es der künstlichen Intelligenz, anders als noch vor einem Jahr, innenarchitektonische Szenarien durchzuexerzieren oder Rezepte grafisch zu gestalten.

Bei mir wirkt sie einer persönlichen Schwäche entgegen: Mir fällt es bei der Buchlektüre oft schwer, mir die Namen der Personen zu merken. Das liegt manchmal an den Autoren, wenn sie in ihren Storys mehrere Dutzend Leute auffahren. Meistens bin ich selbst schuld.

Wie wäre es also, fragte ich mich, wenn ich mir ein Personenverzeichnis zu Hilfe nähme? Das geht in Textform, aber viel wirkungsvoller ist eine grafische Darstellung. Die hilft, den Personen eine bildliche Erscheinung zu geben.

Genau jetzt werden viele begeisterte Bücherwürmer (und -würmerinnen) aufschreien und betonen, zum integralen Leseerlebnis gehöre zwingend dazu, sich die Erscheinung der Protagnonistinnen und Hauptfiguren selbst auszumalen. Einverstanden – aber wie gesagt, fällt mir das schwer. Man kann die Methode genausogut auf wichtige Schauplätze, auf entscheidende Wendungen oder meinetwegen auf schwer verständliche Konzepte anwenden.

Ich exerzierte die Methode bei Daniel Suarez’ Weltraumepos «Delta-V» durch und verfeinerte sie mit «The Hallmarked Man» von J.K. Rowling. Zu meiner Freude klappte es wunderbar. Ich benötigte drei Schritte:

1) Die notwendigen Informationen bereitstellen

Als Erstes ist eine Übersicht der wichtigen Figuren gefragt. Bei Geschichten mit üppiger Besetzung liefern die Verlage es als Buchanhang mit (unterschlagen es jedoch beim Hörbuch). Bei bekannten Werken stöbern wir sie via Internet auf (z.B. hier für «The Hallmarked Man»), doch meistens sind wir auf uns allein gestellt. Es kommt hinzu: Für die Visualisierung brauchen wir nicht nur die Namen, sondern zusätzlich eine Beschreibung, die Anhaltspunkte für die Visualisierung gibt.

Das heisst: Wir kommen nicht darum herum, die Liste selbst zu erstellen. Falls wir es nicht von Hand erledigen wollen, hilft das E-Book weiter: Digitalleser und Reader-Besitzerinnen sind im Vorteil. Damit wir es der KI vorsetzen können, darf es keinen Kopierschutz aufweisen; der Kindle-Store fällt als Bezugsquelle flach. Die deutschsprachigen Buchläden helfen weiter. Sie statten ihre Bücher mit Wasserzeichen, nicht mit einem DRM, aus.

Um der KI das Buch vorzusetzen, benötigen wir es im richtigen Format. Mit Epub kommen wir kaum zum Ziel. Bei der Konvertierung hilft uns die Open-Source-Software Calibre weiter:

Wir öffnen das Buch im Hauptprogramm (nicht im Viewer). Dort klicken wir es in der Übersicht mit der rechten Maustaste an und wählen Bücher konvertieren > Einzeln konvertieren aus dem Kontextmenü aus. Im Dialog selektieren wir rechts oben das Zielformat. Wir können Docx benutzen, aber reiner Text (TXT) erfüllt den Zweck ebenso. Das exportierte Buch findet sich im Nutzerverzeichnis von Calibre, dort in einer Ordnerstruktur aus Autor und Buchtitel.

2) Das Personenregister erstellen

Das Ausgangsmaterial für dieses Experiment.

Diese Exportdatei verwenden wir für unser Personenverzeichnis – oder analog für beliebige andere Bereiche, die wir analysieren oder visualisieren möchten.

Dabei stellt sich uns eine garstige Hürde in den Weg: Wie sich zeigt, sprengen längere Romane das Fassungsvermögen gängiger Sprachmodelle. Das liegt daran, dass das Kontextfenster zu schmal ist und darum nicht der gesamte Inhalt berücksichtigt wird.

Bei «Delta-v» zeigt sich das eindrücklich: Das 556-seitige Buch überfordert sowohl ChatGPT als auch Gemini und lässt sie kräftig halluzinieren. Beide Sprachmodelle liefern komplett erfundene Crews.

Der Aufgabe gewachsen ist hingegen LM von Google. Diese Lösung ist für grössere Datenmengen geeignet¹. Sie liefert ein brauchbares Personalverzeichnis².

Beim Prompt sind wir frei. Mein Beispiel:

Gib mir bitte eine Übersicht der Crew der Konstantin, die zum Asteroiden fliegt: Namen und eine Kurzbeschreibung. Berücksichtige die Personenbeschreibungen im Buch exakt und gib Hinweise auf die äussere Erscheinung wieder: Ethnie, Alter, Haarfarbe, Körperbau, besondere Merkmale und Kleidungsstil. Welchen ersten Eindruck macht die Person durch ihre Erscheinung?

Je nach Buch lässt sich das variieren. Für «The Hallmarked Man» verwendete ich folgende Einleitung:

Stelle eine Liste der wichtigen Personen zusammen. Erwähne insbesondere die Figuren, die für die Handlung wichtig sind oder mindestens dreimal erwähnt werden. Lasse Nebenfiguren weg. Gruppiere die Personen nach Rolle in der Geschichte, d. h., ob sie zum Umfeld von Robin und Cormoran gehören, zu den privaten Handlungssträngen zählen oder im Rahmen der Ermittlungen wichtig sind.

3) Das Register visualisieren

Ist diese Liste vorhanden, setzen wir sie einer KI vor. Notebook LM beherrscht vielerlei Visualisierungsmöglichkeiten, sodass wir unsere Übersicht mit den Funktionen generieren, die rechts im Studio-Bereich vorzufinden sind. Auch gut geeignet ist Nano Banana in Google Gemini.

Gemäss unseren Vorlieben betrauen wir auch die alternatativen Bildgenerator mit dieser Aufgabe. Bei meinem Test – ich probierte es mit Dall-e von OpenAI und mit Meta AI – waren die Konkurrenten den Infografik-Formaten jedoch nicht gewachsen.

Den Prompt formuliere ich wie folgt:

Erstelle anhand der Informationen ein fiktives, möglichst realistisches Passbild der jeweiligen Person, das der Ethnie Rechnung trägt. Ergänze Rang und Rolle, aber verzichte auf jegliche Angaben, die den Verlauf der Geschichte spoilern könnten. Diese Infografik ist für Leserinnen und Leser gedacht, die sich während der Lektüre mit den jeweiligen Personen vertraut machen können.

Das Resultat

Natürlich, ob gut oder schlecht, liegt im Auge des Betrachters. Das Resultat der Personenübersicht von «Delta-v» entpuppt sich als nützliche Ergänzung zu meiner Rezension.

Das Personal des Buchs «Delta-v» von Daniel Suarez als KI-Infografik.

Zugegeben, mit acht Leuten ist diese Aufgabe überschaubar. Böse Zungen würden behaupten, dass sich ein etwas aufmerksamerer Leser als ich die Leute durchaus hätte merken können (trotz des Handicaps, dass diverse Namen auf A enden).

Anders sieht das bei «The Hallmarked Man» aus. Notebook LM liefert in der Personenübersicht zwanzig Namen³. Die Liste von Wikipedia ist fast dreimal so lang. In der Infografik tauchen 14 Personen auf – und zwar nicht ausschliesslich diejenigen, die die Handlung vorantreiben.

Mit anderen Worten: Bei J. K. Rowling muss Google kapitulieren. Das zeigt sich bereits beim Titel. Das «getönte Glas» aus der Titelzeile ist eine Halluzination. Ich habe Notebook LM mit der englischsprachigen Fassung gefüttert. Auf Deutsch heisst das Buch «Der Mann mit dem Silberzeichen».

Die Übersicht der Figuren von «The Hallmarked Man». Nicht falsch, aber lückenhaft und mit nicht immer optimaler Gewichtung.

Trotzdem: Mit einigen Anpassungen liesse sich die Methode verbessern. Wir könnten insbesondere das KI-generierte Personenverzeichnis anhand der Wikipedia-Übersicht unseren Bedürfnissen anpassen und auf die Personen begrenzen, die wir tatsächlich im Auge behalten wollen.

Oder wir könnten uns separate Grafiken für die einzelnen Sphären erstellen lassen: Also Cormoran, Robin und die Agentur, private Verwicklungen und Personen im Visier der Ermittlungen. Das ergäbe eine deutliche Verbesserung.

Wie oben erwähnt, liefert nur Google eine brauchbare Übersichtsgrafik. Doch mit einer leicht modifizierten Aufgabestellung liefert ChatGPT ein schönes Resultat. Der Clou ist, keine separaten Passbilder, sondern ein Gruppenbild zu verlangen.

Cormoran Strike, Robin Ellacott, Pat Chauncey, Ryan Murphy und Kim Cochran. Dass Ryan Kim die Hand auf den Ellenbogen legt, ist wirklich unangemessen.

Fussnoten

1) Gemäss dieser Übersicht verwendet Notebook LM zwei Millionen Token, die bezahlte Version von ChatGPT jedoch nicht einmal einen Zehntel, nämlich 128’000 Token. Bei der Gratisvariante seien es sogar nur 4000 bis 16’000. Obs stimmt, weiss ich nicht, aber die Zahlen decken sich mit meinen Beobachtungen. ↩

2) Wenn wir ganze Bücher an die KI verfüttern, sollten wir dem Urheberrecht Rechnung tragen: Bei vielen KI-Modellen werden die eingegebenen Daten u. U. fürs Training des Modells benutzt. Das heisst: Eine Folge unseres Experiments könnte darin bestehen, dass die Werke auf eine Weise verwendet werden, die nicht im Interesse der Autorinnen, Autoren und Verlage ist. Ich habe für diesen Test (auch im Rahmen einer Schulung meinen geschäftlichen Account verwendet, bei dem der Betreiber garantiert, dass kein Training mit den eingegebenen Daten erfolgt. ↩

3) Das ist die Übersicht der Personen, wie sie von Google Notebook LM geliefert wurde:

Das Umfeld von Robin und Cormoran (Agentur und Partner)

Cormoran Strike
Ein 42-jähriger Privatdetektiv und Ex-Militärpolizist. Er ist gross, massig und behaart mit einer markanten, krummen Nase (ähnlich wie Beethoven) und dunklem, lockigem Haar. Er trägt eine Beinprothese am rechten Unterschenkel. Strike wirkt oft erschöpft und mürrisch, aber hochgradig professionell.
Erster Eindruck: Ein physisch imposanter, etwas ungepflegter, aber scharfsinniger Mann.

Robin Ellacott
Strikes 32-jährige Geschäftspartnerin. Sie ist eine grosse, schlanke Frau mit erdbeerblondem Haar und blasser Haut. Sie kleidet sich oft funktional (Jeans, Beanies zur Tarnung), zeigt sich bei offiziellen Anlässen aber in eleganten Kleidern, wie einem dunkelrosa Modell.
Erster Eindruck: Tapfer, engagiert und mittlerweile eine gleichberechtigte Expertin in ihrem Feld.

Pat Chauncey
Die 68-jährige Büroleiterin der Agentur. Sie hat ein affenähnliches Gesicht, trägt ihre Haare unnatürlich tiefschwarz gefärbt und hat fast ständig eine E-Zigarette im Mund. Ihre Stimme ist ein rauer Bariton.
Erster Eindruck: Mürrisch und streng, aber loyal.

Ryan Murphy
Robins Freund und CID-Officer. Er ist gross, fit und klassisch gutaussehend (ähnlich wie Paul Newman). Er wirkt oft angespannt aufgrund seines Berufs und seiner Vergangenheit als Alkoholiker.
Erster Eindruck: Ein attraktiver, fähiger Polizist, der jedoch zu Eifersucht neigt.

Kim Cochran
Eine neue Mitarbeiterin (später ausgeschieden). Sie wird als «vogelähnlich» beschrieben, ist zierlich, hübsch, mit kurzem braunem Haar und wachen braunen Augen. Sie trägt oft figurbetonte, modische Kleider.
Erster Eindruck: Kompetent und charmant, aber manipulativ und arrogant gegenüber Robin.

Private Handlungsstränge (Familie und Umfeld)

Jonny Rokeby
Strikes leiblicher Vater und ein legendärer Rockstar. Er ist sehr dünn, hat ein dunkles, tief zerfurchtes Gesicht und langes, mittlerweile graues Haar. Er trägt teure schwarze Anzüge.
Erster Eindruck: Ein gealterter, aber immer noch charismatischer Star, der nun versucht, Wiedergutmachung zu leisten.

Lucy
Strikes Schwester. Sie wirkt oft emotional belastet, trägt zu Partys glitzernde Kleidung und Rentier-Geweihe. Sie ist diejenige, die die familiären Bindungen nach Cornwall aufrechtzuerhalten versucht.

Bijou Watkins
Eine Anwältin und ehemalige Affäre von Strike. Sie ist eine attraktive Brünette mit blauen Augen, olivfarbener Haut und einer üppigen Figur (oft mit Hinweisen auf Brustimplantate).
Erster Eindruck: Provokativ, laut und manipulativ.

Valentine Longcaster
Decimas Bruder und ehemaliger Stiefbruder von Charlotte Campbell. Er ist etwa 40 Jahre alt, hat schmutzig-blondes Haar mit einem schlottrigen Pony und ein weiches Kinn. Er kleidet sich extravagant und exzentrisch.
Erster Eindruck: Arrogant, snobistisch und oft unter Drogeneinfluss stehend.

Sacha Legard
Charlottes Halbbruder und Cousin von Rupert Fleetwood. Er ist ein aussergewöhnlich gutaussehender Schauspieler mit lebhaften blauen Augen und einer schlanken Statur.
Erster Eindruck: Ein narzisstischer, selbstbezogener Mann, der sich hinter einer charmanten Fassade versteckt.

Im Rahmen der Ermittlungen (Opfer, Zeugen und Verdächtige)

Decima Mullins (geb. Longcaster)
Die Auftraggeberin. Sie ist 38 Jahre alt, blass, korpulent und hat strähniges braunes Haar mit grauem Ansatz. Ihr Gesicht ist rund und flach, oft mit Anzeichen von Rosazea. Sie trägt meist vernachlässigte Kleidung wie einen fleckigen schwarzen Woll-Poncho.
Erster Eindruck: Eine vernachlässigte, emotional labile Frau aus reichem Hause.

Rupert Fleetwood
Der verschwundene Freund von Decima (26 Jahre). Er ist blass, blond, breit Schultern mit einem sehr runden Gesicht und einem kurzen Hals. Er wurde früher als Kellner in einem Club gesehen.
Erster Eindruck: Ein eher gewöhnlich aussehender junger Mann, der in grosse Schwierigkeiten geraten ist.

Ian Griffiths
Der Hauptgegner und Mörder. Er ist etwa Mitte 40, klein gewachsen (ca. 1,52 m), dunkelhaarig und leicht o-beinig. Er ist Musiker und umgibt sich mit kitschigen Souvenirs und Esoterik-Gegenständen.
Erster Eindruck: Aggressiv und kleinbürgerlich-exzentrisch.

Lord Oliver Branfoot
Ein korrupter Lord und TV-Persönlichkeit. Er ist gross, dicklich und rundschultrig mit zerzaustem dunklem Haar, einer fleischigen Nase und hängenden Augen (ähnlich einem Gartenzwerg). Er kleidet sich oft in zerknitterte Anzüge.
Erster Eindruck: Ein jovialer, scheinbar tölpelhafter Adliger, der seine dunklen Machenschaften hinter Humor verbirgt.

Jim Todd (alias Todd Jameson)
Ein Reinigungskraft und verurteilter Straftäter. Er ist Mitte 60, sehr beleibt (kugelförmig), hat winzige blaue Augen, einen breiten Mund und ist fast glatzköpfig mit grauen Haarbüscheln an den Ohren.
Erster Eindruck: Hinterhältig, aggressiv und unangenehm.

Sofia Medina
Ein Mordopfer. Sie war eine 20-jährige spanische Studentin mit taillenlangem schwarzen Haar und olivfarbener Haut. Sie wurde als «Party-Girl» beschrieben.
Erster Eindruck: Schön, aber naiv und verwundbar.

Niall Semple
Ein vermisster Ex-SAS-Soldat. Er war etwa 1,70 m gross, kräftig gebaut mit hohen Wangenknochen, kurzem blondem Haar und leuchtend blauen Augen.
Erster Eindruck: Ein disziplinierter Soldat, der durch eine Hirnverletzung den Halt verlor.

Tyler Powell
Ein weiterer Vermisster. Er war kräftig gebaut, hatte sehr grosse Ohren und ein asymmetrisches Gesicht mit mausbraunem Haar.
Erster Eindruck: Ein eher schlichter, aber eigentlich gutmütiger Mechaniker.

Dino Longcaster
Decimas Vater und Clubbesitzer. Er ist ein grosser, schwerer Mann mit einem sehr grossen, runden Kopf («Kanonenkugel»), zurückgekämmtem grauem Haar und ausgeprägten Tränensäcken. Er trägt tadellose Massanzüge.
Erster Eindruck: Gelangweilt, herablassend und ein Kontrollfreak.

Ralph Lawrence
Ein mutmasslicher MI5-Agent. Er ist Ende 50, gross, breit Schultern mit kurzem Salz-und-Pfeffer-Haar und einem quadratischen Kiefer. Er kleidet sich in massgeschneiderte Anzüge oder teure Kaschmirpullover.
Erster Eindruck: Autoritär, charmant und kontrolliert. ↩

Beitragsbild: Natürlich – sie würde es noch viel besser hinbekommen (Andrea Piacquadio, Pexels-Lizenz).

#Gemini #KI #LLMs #Longread #Publisher #VideoBildgenerator

Matthias Feb 9

Google Gemini erkennt leider längst nicht alle KI-Deepfakes

Kollege Thomas Benkö schrieb letzte Woche auf Linkedin über die angebliche Schneeleopard-Attacke in Koktokay. Bei «Blick» dokumentierte er den Fall einer chinesischen Skifahrerin, die mit einem vorbeistreifenden Raubtier ein Selfie machen wollte (gute Idee, übrigens) und daraufhin attackiert wurde. Wie heutzutage kaum mehr anders zu erwarten, war es nur ein KI-Fake. Respektive genauer: Teile der Geschichte scheinen zu stimmen, doch nicht das gesamte Material, das darüber veröffentlicht wurde, ist authentisch.

Auch das ZDF analysierte die Begebenheit. Sie führt uns vor Augen, dass eine Halbwahrheit problematischer sein kann als eine glatte Lüge. Letztere wischen wir vom Tisch. Doch bei ersterer müssen wir mühselig zwischen realen und erlogenen Details unterscheiden und uns mit der Frage auseinandersetzen, welches Framing dahinterstecken könnte. In diesem Fall war’s vermutlich schlichte Klickgeilheit.

An dieser Stelle soll es um ein technisches Detail gehen. Sowohl der «Blick» als auch das ZDF weisen auf SynthID hin. Das ist Googles Methode, KI-generierte Inhalte mit einem digitalen Wasserzeichen erkenntlich zu machen. Das wird nicht nur bei Bildern und Videos eingebettet, sondern selbst bei Text. Ich halte das für eine sinnvolle Massnahme, doch wie hier analysiert, ist es keineswegs ein Patentrezept gegen Deepfakes. Enthält ein Inhalt kein SynthID-Wasserzeichen, ist das kein Beweis für seine Authentizität.

«Dieses Selfie ist gefälscht»

Benkö weist darauf hin, dass Googles Chatbot Gemini die SynthID-Markierung ausliest. Und in der Tat: Ein Test mit dem vermeintlichen Selfie der tollkühnen Skifahrerin ergibt das unzweifelhafte Ergebnis:

Eine Analyse mit dem Tool SynthID hat ergeben, dass Teile des Bildes digitale Wasserzeichen enthalten, die auf den Einsatz von Google KI-Modellen hinweisen.

Hier ist der Fall klar: Gemini hat das SynthID-Wasserzeichen entdeckt.

Das bringt uns zur Frage: Wie gut ist Gemini generell beim Enttarnen von KI-Inhalten?

Bei diesem Test interessiert mich vor allem, wie Googles künstliche Intelligenz im umgekehrten Fall abschneidet. Werden Bilder als authentisch erkannt, wenn sie das erwiesenermassen sind, aber trotzdem aussehen wie KI-generiert?

Ich verwende für diesen Zweck zwei Aufnahmen, die beide von freien Fotoplattformen stammen¹ und erwiesenermassen echt sein müssen. Sie wurden nämlich veröffentlicht, bevor die KI-Bildgeneratoren mit fotorealistischen Möglichkeiten existierten. Um es kurz zu machen: Bei denen bekleckert sich Gemini nicht mit Ruhm.

Gemini liegt zweimal voll daneben

Im Gegenteil; er vermutet in beiden Fällen fälschlicherweise eine KI:

Weckt zu Unrecht KI-Vibes.

Mann mit Geldbündeln:
Dieses Bild weist sehr starke Merkmale einer KI-Generierung auf. Achte auf die Finger der rechten Hand: Sie wirken unnatürlich lang und verformt. Auch die Texturen der Geldscheine und die Schrift darauf («Franklin Barbershop») sind typisch für Bild-KIs, die oft Schwierigkeiten haben, Text und feine Details wie die Sicherheitsmerkmale von Währungen korrekt darzustellen.

Sieht künstlich aus, stammt aber von 2018.

Paar auf der Bank (Stockfoto-Stil):
Auch dieses Bild zeigt bei genauerer Betrachtung Unstimmigkeiten, die auf KI hindeuten. Besonders auffällig ist die Hand der Frau auf dem Rücken des Mannes: Die Fingerstellung und die Anzahl der sichtbaren Finger wirken anatomisch nicht korrekt. Auch der Übergang der Haare zur Schulter zeigt oft unnatürliche Verschmelzungen.

Immerhin erkennt Gemini die zwei Kontrollaufnahmen, die tatsächlich mit KI generiert worden sind.

Trotzdem ist Googles Chatbot damit schlechter als zwei spezialisierte Erkennungs-Algorithmen: aiornot.com lag schon 2024 in allen Fällen richtig. Das gleiche gilt für Sight Engine aus meinem letztjährigen Test. Dieser meiner Erfahrung nach sehr zuverlässige Detektor liegt indes beim Schneeleoparden-Bild daneben und attestiert ihm fälschlicherweise Authentizität.

Bei den Beispielen ohne SynthID vermutet Gemini KI, wo wir es mit echter Fotografie zu tun haben.

Fazit: Es ist – und bleibt – kompliziert.

Gemini hilft uns in eindeutigen Fällen, in denen ein SyntID-Marker vorhanden ist. In allen anderen Fällen ist Googles KI nicht zuverlässig.
Umgekehrt zeigt dieses Beispiel, dass auch bewährte KI-Detektoren nicht von false negatives gefeit sind.

Die Authentizität garantieren kann nur der Urheber einer Aufnahme – sei es, weil die Aufnahme kryptografisch über die Metadaten abgesichert wurde, wie es die Content Authenticity Initiative anstrebt. Oder sei es, weil die Aufnahme über verlässliche Wege aus einer vertrauenswürdigen Quelle zu uns gelangte. In anderen Fällen helfen uns die hier vorgestellten Werkzeuge, unseren Grad der Unsicherheit zu verringern. Aber völlige Gewissheit garantieren sie nicht – und auf alle Fälle müssen wir diese Werkzeuge bewusst und mit Kenntnis ihrer Grenzen einsetzen.

Der sonst zuverlässige KI-Detektor von Sight Engine liegt hier falsch.

Fussnoten

1) Einige Details zu den beiden Aufnahmen:

Bild «Paar auf der Bank» benutzte ich im Beitrag Eine KI mit Gefühl, aber ohne Geschlechtstrieb. Es stammt von Andre Furtado bzw. Pexels und wurde am 5. September 2018 aufgenommen (hier auch 2021 bei Archive.org).
«Bild Mann mit Geldbündeln» kam im Beitrag Ein Angebot mit einem Gschmäckli zum Zug. Bereitgestellt von Finance_and_investing auf Pixabay datiert es vom 30. Oktober 2021. ↩

Beitragsbild: Das Ding könnte auch aus Plastik sein (Mart Production, Pexels-Lizenz).

#DerOnlineShitDerWoche #Gemini #Googologie #VideoBildgenerator

Matthias Oct 2, 2025

Wie eine eigene Skizze zum Leben erwacht

Ich bin kein Fan von Meta und die KI-Strategie des Konzerns finde ich verheerend. Umso erschreckender, dass ich Meta AI selbst etwas abgewinnen kann: Mark Zuckerbergs künstliche Intelligenz ist manchmal schlagfertig. Und mir hat es die neue Animations-Funktion angetan, die Fotos oder Skizzen in kurze Videoclips verwandelt.

Sie heisst Vibes und wurde letzte Woche lanciert. Auf die grundsätzlichen Probleme komme ich gleich zu sprechen. Zuerst muss ich begründen, warum ich Spass beim Experimentieren habe. Für meinen ersten Versuch verwendete ich mein (schon öfter benutztes) Mordor-Selfie.

Aus dem Badezimmer nach Mordor

Auch dieses Mal war meine Idee, mich in einen Bewohner Mittelerdes zu verwandeln¹.

https://blog.clickomania.ch/wp-content/uploads/2025/10/250929-Meta-Vibe-Matthias-goes-to-Mordor.mp4

Und ja, am Ergebnis gibt es diverse Dinge auszusetzen:

Die Verwandlung in den Elf findet abrupt statt; Haare und Hörner sind plötzlich da, statt langsam aus dem Kopf zu wachsen.
Elfen haben keine Hörner.
Der Jeansrock, den mir Meta verpasst, ist mehr als seltsam.
Und die Begleiter sind seltsame, deformierte Doppelgänger meiner selbst.

Trotz der Fehler ist das unbestreitbar charmant: Wie sich die Badezimmertür öffnet und den Blick auf den Schicksalsberg freigibt, ist überraschend und sehenswert – Aufmerksamkeit erzeugt es auf alle Fälle.

Die Ameise

Für das zweite Beispiel muss ein weiterer meiner Testkandidaten herhalten: nämlich die velofahrende Ameise, mit der ich schon in Sora und in Google Veo experimentierte. Da bei Vibes eine Grafikdatei als Ausgangspunkt für die Animation benötigt wird, fertige ich per Maus eine simple Skizze an, wie ich mir dieses Motiv vorstelle.

https://blog.clickomania.ch/wp-content/uploads/2025/10/250929-Meta-Vibe-Ants-Adventure.mp4

Vibes nimmt diesen Entwurf und versetzt ihn in Bewegung. Die nicht ganz runden Räder werden eiernd animiert und die Beinchen zucken auf den Pedalen, auch wenn diese Spasmen nicht als Strampeln durchgehen können. Aber wie im Hintergrund eine Wiese auftaucht und die Ameise sich in die Landschaft hineinbewegt, ist hübsch.

Keine Frage: Mit Vibes ist es ein Klacks, eine dröge Grafik in einer Präsentation mit multimedialem Feuerwerk aufzupeppen. Und wie grossartig ist es für Kinder, wenn wir mittels Meta AI ihre Zeichnungen in einen Kurz-Trickfilm verwandeln?

Es steckt ohne Zweifel eine Menge kreatives Potenzial in dieser generativen KI. Was mich angeht, macht mir Vibes mehr Spass als Sora und Veo zusammen. Da die KI ein eigenes Motiv als Ausgangspunkt nimmt, ist das Resultat verbindlicher, als wenn wir nur einen Prompt übermitteln können.

Der Begeisterung zum Trotz: Viele Leute hassen Vibes

Diesem persönlichen Eindruck zum Trotz waren die Reaktionen auf Vibes ungnädig. Die Newsplattform «Techcrunch» malte das Horrorszenario einer KI-verseuchten Tiktok-Variante an die Wand:

Der beliebteste Kommentar zum Beitrag [von Metas KI-Chef Alexandr Wang] lautet: «Niemand will das», während eine andere Meinungsäusserung lautet: «Diggi postet KI-Schrott in seiner eigenen App». Ein weiterer Kommentar lautet: «Ich glaube, ich spreche für alle, wenn ich sage: Was …?»

Womit wir beim Anfang wären: Das Problem ist nicht das neue KI-Werkzeug an sich, sondern Metas Bestreben, die eigenen Plattformen auf Teufel komm raus mit Unmengen an KI-Inhalten zu fluten. Das muss man als Affront empfinden, wenn man auf Instagram schöne, selbstgemachte Fotos präsentieren und auf Facebook mit echten Menschen über reale Themen diskutieren möchte. In diesem Umfeld sind Animationen, so niedlich sie auch sein mögen, sinnlos.

So toll die Software, so sinnlos der Einsatzzweck

Mir ist ein Rätsel, was sich Meta davon verspricht, die eigenen Plattformen in ein KI-dominiertes Paralleluniversum zu verwandeln. Natürlich geht es irgendwie um Macht und darum, die User stärker an die eigenen Produkte zu binden. Vielleicht kann der AI Slop dazu beitragen. Doch genauso ist es möglich, dass Mark Zuckerberg selbst diese Strategie bislang nicht zu Ende gedacht hat.

Fazit: Ich empfehle Vibes gern – aber nicht, um mit belanglosem digitalem Müll sämtliche Kommunikationskanäle zu verstopfen. Stattdessen sollten wir ausloten, wie sich diese Animationen auf kreative und durchdachte Weise in bedeutsame und relevante Botschaften verwandeln lassen.

Fussnoten

1) Prompt:

Bitte verwandle diesen Mann in einen Elf in einer Umgebung, die an Mittelerde erinnert. Im Hintergrund gibt es einen ausbrechenden Vulkan, die Umgebung ist karg und öde. Der Mann hat keine Brille, keine Uhr und kein Smartphone in der Hand, stattdessen trägt er elbische Kleidung und einen langen Bart. In der linken Hand hält er einen Ring. Er dreht sich zum Berg um und marschiert dann mit anderen Elben los. ↩

Beitragsbild: Dieser Tiger ist ein perfektes Motiv, um mittels Vibes animiert zu werden (Liliana Drew, Pexels-Lizenz).

#KI #Kinder #Office #VideoBildgenerator

Matthias Sep 1, 2025

Nein, Googles neue Bildbearbeitungs-KI ist kein «Adobe-Killer»

Letzte Woche lancierte Google eine neue KI-Funktion und sparte nicht mit Selbstlob: «Schon bei der ersten Vorabversion gerieten die Leute völlig aus dem Häuschen. Das ist das weltweit am besten bewertete Bildbearbeitungsmodell!», prahlten die beiden Googler Nicole Brichtova und David Sharon.

Die Euphorie war anscheinend ansteckend. Beim «Business Insider» fragte man sich schon, ob Adobe demnächst einpacken müsse. Denn wieso sollte jemand noch Photoshop abonnieren wollen, wenn Bilder per sofort mittels Prompts verändert werden können? Nach dieser Logik hätten nicht nur die Bildbearbeitungsprogramme ausgedient, sondern auch die Leute, die sie bedienen können.

Nein, kein «Adobe-Killer»

Ohne das Ergebnis meines eigenen Tests vorwegzunehmen, darf ich vermelden, dass «Business Insider» entweder plumpes Clickbaiting betreibt oder keine Ahnung hat. Das neue Bildbearbeitungsmodell «Nano Banana» ist zwar ein Fortschritt. Aber es konkurrenziert die klassische Fotoretusche in keinerlei Hinsicht. Bei der geht es um gezielte, subtile und moderate Korrekturen, die die Echtheit eines Motivs nicht tangieren. Oder jemand verfolgt eine künstlerische Vision, die mit handwerklichen Mitteln zu realisieren ist.

Im Vergleich dazu ist «Nano Banana» ein lustiges Spielzeug, das das vorgesetzte Bildmaterial auf rabiate und schwer kontrollierbare Weise verändert. Dafür gibt es selbstverständlich Einsatzzwecke. Aber die sind experimenteller und nicht professioneller Natur. Mein eigener Testlauf belegt das: Google liefert ein amüsantes Resultat, kann meine Erwartungen aber nur ansatzweise erfüllen.

Tolkien würde es vermutlich hassen

Zum Einsatz kam mein Mordor-Selfie, das ich schon für meinen Test der Flux-KI benutzte. Der erste Prompt lautet:

Das ist ein Selfie. Ich hätte gerne, dass du mich in eine Landschaft setzt, die wie Mordor aussieht: Also wüst, öd und dunkel, mit einem Lava speienden Vulkan im Hintergrund. Bitte entferne das Smartphone aus meiner Hand und füge stattdessen einen grossen, glänzenden Ring ein, auf dem mysteriöse Schriftzeichen sichtbar sind.

Gemini sagt, er liefere mir ein Bild, tut aber nichts. Auf meinen Hinweis, dass er das Bild vergessen habe, kommt er zu Potte.

Links das Original-Selfie, rechts der erste Versuch: Schicksalsberg im Hintergrund und der Ring der Macht ersetzt das Smartphone.

Der Schicksalsberg im Hintergrund ist hübsch getroffen und auch der Ring mit den sprühenden Funken gefällt mir ausgezeichnet. Zu kritisieren ist, dass Isildurs Fluch ums Handgelenk getragen werden müsste, weil er für den Finger viel zu gross ist. Aber das sei verziehen, weil ein Ring in passender Grösse auf dem Bild kaum zu erkennen wäre.

Wie schon bei meinem Flux-Test wird das Hauptmotiv zwar tadellos freigestellt (vom Hintergrund getrennt) und in die Fantasie-Szene verfrachtet. Dennoch wirkt es wie ausgeschnitten, weil es in Bezug auf Helligkeit, Licht und Schatten überhaupt nicht zur Umgebung passt. Ich fordere «Nano Banana» daher auf, eine Angleichung vorzunehmen und dafür zu sorgen, dass der Schriftzug auf dem T-Shirt auch lesbar ist:

Kannst du mir das Bild horizontal spiegeln, damit der Schriftzug richtig lesbar ist? Und dann sorge bitte dafür, dass die Lichtstimmung beim Selfie zu der düsteren Umgebung von Mordor passt. Die Figur sollte dunkler werden und, falls möglich, eher von hinten beleuchtet werden, denn von vorn – weil der Vulkan ja im Hintergrund zu sehen ist. Damit ich nicht gänzlich in der Dunkelheit verschwinde, könntest du etwas Licht von vorn geben, z. B. von einem Feuer oder einer Lampe.

Die Lichtstimmung bekommt Gemini nicht hin

Das klappt nicht. Weder die Spiegelung noch die passende Stimmung sind im Resultat zu sehen. Das einzige, was Gemini hinbekommt, ist das Feuer im Vordergrund. Ich werde daher deutlicher und ergänze ausserdem den Wunsch, mich in einen Elben zu verwandeln:

Kannst du das noch prägnanter machen? Also den Mann abdunkeln und in eine düsterere Lichtstimmung tauchen? Und wenn wir schon dabei sind: Entferne doch die Brille und die Uhr, verpasse mir einen längeren Bart und spitzige Elben-Ohren!

Die zweite Variante (links) sollte düsterer wirken. Bei der dritten Iteration entfernt Gemini wunschgemäss Uhr und Brille und verpasst mir einen Bart.

Die Uhr und die Brille verschwinden tatsächlich und auch den Bart würde ich als gelungen bezeichnen. Von den Elben-Ohren lässt sich das nicht behaupten. Die sind etwas abstehender als in Wirklichkeit, aber für meinen Geschmack viel zu wenig spitz.

Das Spiegeln des Schriftzugs (oder der ganzen Figur) wäre auf herkömmlichem Weg in einer Sekunde erledigt. Der KI gelingt es interessanterweise nur teilweise. Beim Bild rechts steht der Anfang des Satzes («one does …») nun richtig herum, der hintere Teil aber durcheinander. Es steht nun «Walmes tin» da – was auch immer das heissen sollte.

Ich entschliesse mich, Gemini die volle Dröhnung zu verpassen, und übergebe eine (von ChatGPT erstellte) Übersicht aller wichtigen äusseren Eigenschaften der Elben:

Kannst du mich noch elfenhafter machen? Also:
Gesicht: schmal, ebenmässig, aber von Altersweisheit geprägt; feine Linien um Augen und Mund, jedoch ohne menschliche Gebrechlichkeit.
Augen: klar, leuchtend, oft grau oder blau, mit tiefer, uralter Weisheit.
Haare: lang, silbern oder weiss, manchmal leicht golden; meist glatt und gepflegt.
Körperbau: gross, schlank, aufrecht, mit würdevollem Auftreten.
Kleidung: edel, aber schlicht – lange Gewänder in Naturfarben (Grün, Grau, Braun, Weiss oder Blau), bestickt mit feinen Mustern.
Accessoires: Umhang, oft mit einer Brosche geschlossen; Schmuck aus Silber oder Mithril; gelegentlich ein Stab oder Schwert als Symbol seiner Stellung.
Aura: würdevoll, gelassen, fast überirdisch; eine stille Autorität, die Zeit und Erfahrung ausstrahlt.

Das tut Gemini auch, bedauerlicherweise geht an dieser Stelle jedoch die Ähnlichkeit zu meinem Selfie verloren. Ich versuche, noch einmal bei meinem bärtigen Ich anzusetzen und die Beschreibung klarer zu halten:

Mache mein Gesicht schmaler, weiser, die Augen blau und gross, meine Haare lang und silbrig und zu einem Pferdeschwanz gebunden und gib mir eine schwere Halskette und ein Schwert.

Doch das Bildbearbeitungsmodell ist nicht in der Lage, alle Anforderungen unter einen Hut zu bringen. Der resultierende Elf ist nicht mehr fotorealistisch, sondern comichaft.

An dieser Stelle geht jede Ähnlichkeit zum Selfie verloren.

Damit haben wir erfolgreich die Grenzen der neuen Bilder-KI erreicht. Und ja, es ist beeindruckend, was Google abliefert: Hätte ich dieses Modell vor vier Jahren – also bevor wir es mit generativer künstlicher Intelligenz zu tun bekommen haben – ausprobiert, ich wäre hin und weg gewesen. Meine kritische Haltung zeigt, wie sehr wir uns an die Möglichkeiten und den rasanten Fortschritt gewöhnt haben.

Unter dem Strich finde ich die Arbeit mit der Bildbearbeitung in Midjourney intuitiver und produktiver. Eines ist jedoch nicht wegzudiskutieren: Die Möglichkeiten, die sich mit «Nano Banana» eröffnen, sind faszinierend – vor allem für Leute wie mich, die zwar eine rege Fantasie, aber dummerweise zu wenig handwerkliche Fähigkeiten haben, sie auf die herkömmliche Weise in Kunst umzusetzen.

Beitragsbild: Ein Werk von Nano-Banana: Meine Wenigkeit am Filmset von «Herr der Ringe».

#Adobe #Googologie #KI #Publisher #VideoBildgenerator

Matthias Jul 21, 2025

Drei abgefahrene Kunst-Experimente mit Midjourney

Midjourney ist eine der generativen Bilder-KIs der ersten Stunde. Ich halte sie nach wie vor zu den wichtigsten Vertretern ihrer Art. Sie beherrscht eine breite Palette an Stilen. Und sie beschert uns – Geduld und Geschick beim Prompten vorausgesetzt – realistische Resultate. In meiner Erfahrung ist sie aber ein störrisches kleines Eselchen: Sie stellt sich bockig und wir müssen oft viele Anläufe und Prompt-Variationen ausprobieren, um zu einem brauchbaren Motiv zu gelangen. Und in diversen Fällen hat mich dieses renitente Ding auch komplett im Stich gelassen. Es hat dann manchmal geholfen, ChatGPT auf den Plan zu rufen und per KI die entscheidenden Aspekte so explizit wie möglich formulieren zu lassen.

An dieser Stelle soll es jedoch nicht um mein persönliches Ungemach mit dieser generativen künstlichen Intelligenz gehen, sondern um deren Fähigkeiten bei der Bildbearbeitung.

In der Rubrik Edit stellt Midjourney eine Arbeitsumgebung bereit, in der wir ein Bild via Upload oder über einen Link platzieren. Wir haben eine Handvoll Werkzeuge zur Verfügung, mit denen wir dieses Ursprungsmotiv für die Veränderung vorbereiten. Mit dem Pinsel im Modus Erase entfernen wir Elemente, die im finalen KI-Motiv nicht enthalten sein sollen. Falls wir zu viel löschen, schalten wir auf Restore um und stellen die erwünschten Partien wieder her. Es gibt auch die Funktion Smart Select, die beim Prozess des Auswählens behilflich ist: Mit der geben wir über zwei Plus-Markierungen zwei Enden des fraglichen Objekts vor und die Software wählt den Bereich dazwischen aus. Das klappte bei meinen hier nachfolgend beschriebenen drei Studien ausgezeichnet.

1) Mona Lisa beim Fotografen

Im Editor wird das Motiv freigestellt.

Bei meinem Versuch mit Mona Lisa habe ich die Dame aus Leonardo da Vincis recht bekanntem Ölgemälde freigestellt, allerdings ohne mich gross mit einzelnen Pixeln aufzuhalten. Doch wie wir sehen, bügelt die KI derlei Schludrigkeiten aus; im finalen Bild ist von den unsauberen Rändern nichts zu sehen.

Meine Idee bestand darin, Mona Lisa zum Fotografen zu schicken. Ich habe die Zeichenfläche in alle Richtungen etwas ausgeweitet – was einfach über die Anfasser am rechten, linken, oberen und unteren Rand zu bewerkstelligen ist – und mit einem simplen Prompt angegeben, es solle ein Mann mit einer altmodischen Mittelformatkamera hinzugefügt werden¹. Zwei Varianten taugen etwas:

Die erste seht ihr als Beitragsbild. Mir gefällt, dass die KI sich bei der zumindest ansatzweise Mühe gibt, den Stil des Ursprungsmotivs zu imitieren. Natürlich erkennen wir sofort, dass die Farbgebung nicht übereinstimmt; die erfundenen Bereiche sind zu knallig und zu bunt und es fehlt auch an der Leinwandstruktur. Aber es ist originell, dass die künstliche Intelligenz den Original-Hintergrund als Gemälde hinter Mona Lisa platziert.

Anerkennung verdient Midjourney dafür, wie Kamera und Stativ auf Mittelalter getrimmt sind. Wenn es derlei Ausrüstung im 16. Jahrhundert schon gegeben hätte, dann hätte sie womöglich so ausgesehen. Abzüge müssen wir geben, weil der Fotograf das Teleobjektiv für ein Porträt benutzt und das fünf Zentimeter vor seinem Sujet aufbaut. So bekommt er höchstens einen unscharfen Pickel aufs Foto.

Die zweite Variante ist bezüglich Bildkomposition gelungener, aber hier passen die Zeitebenen nicht zusammen. Der Fotograf stammt in seiner Anmutung aus dem frühen letzten Jahrhundert, nicht aus der Renaissance.

Leonardo da Vinci war eigentlich Fotograf.

2) Marilyn in der modernen Stadt

Beim Experiment mit Andy Warhols Marilyn Monroe habe ich komplett auf die Freistellung verzichtet – mit dem Effekt, dass die KI tatsächlich nicht die Frau in eine neue Umgebung versetzt, sondern das Bild mit dem Originalrahmen in einer neuen Umgebung platziert². Das ist eine Überraschung, aber eine positive. Mir gefällt das Resultat gut, auch wenn sich die Farbpaletten von Warhol und Midjourney beissen und mir nicht klar ist, weswegen die flanierende Frau einen Schnauzbart trägt. Auch sonst sind die Stile inkompatibel: Midjourney liefert zu viele Details, trägt die Farbe zu wenig flächig auf und ist nicht expressiv genug. Abgesehen davon ist das Kaff, in dem diese Handlung spielt, zu provinziell.

Hier passt nichts zusammen – und trotzdem gefällt es irgendwie.

Trotzdem gefällt mir dieses Motiv. Es weckt Widerstand und die Vorstellung, dass sich an diesem Plakatmast ein Wurmloch vom einen Kunst-Paralleluniversum zu einem seiner Nachbarn auftut.

Die zweite Variante atmet einen Hauch New York. Die Idee wäre originell, wenn das Warhol-Bild so unscharf wäre, wie es im Hintergrund sein müsste. Aber da könnten wir mit Photoshop nachhelfen.

Das könnte so gewesen sein.

3) Die kiffende Katze im Casino

Die Katze mit Hut im Editor: Drei Bilder, separat freigestellt, ergeben das neue Motiv.

Beim dritten Anlauf experimentiere ich mit den Ebenen im Bearbeitungsbereich: Es ist möglich, ein Motiv aus mehreren Versatzstücken zusammenzupuzzeln.

Im Beispiel kommen drei Elemente zum Zug: Erstens natürlich das Katzenbild. Zweitens das Foto eines Damenhuts und drittens die Spezialzigarette. Alle drei Elemente habe ich mit dem oben beschriebenen Smart Select-Feature freigestellt. Das gibt uns die Freiheit, die Elemente zu verschieben, in der Grösse zu ändern, zu drehen und mit dem Arrangement zu spielen. Was mir fehlt, ist die Möglichkeit, Ebenen horizontal und vertikal zu spiegeln. Der Hut sähe vielleicht besser aus, würde er umgekehrt auf dem Kopf der Katze sitzen.

Das erste Bild entspricht nicht meinen Erwartungen³. Die KI nimmt nicht meine ganze Komposition als Vorlage. Ich finde heraus, dass ich die Hilfe zu den Ebenen hätte lesen sollen. Dort steht Folgendes:

Nachdem Sie Ihre Ebenen angeordnet und gelöscht haben, können Sie sie durch Übermitteln der Bearbeitung zu einer einzigen Ebene zusammenführen. Nach dem Zusammenführen können Sie weiter an dem Bild arbeiten oder es hochskalieren und herunterladen.

Wenn Sie eine Bearbeitung mit Ebenen übermitteln, werden nur die Bereiche Ihres Bildes mit sichtbarer Transparenz neu generiert (das graue Schachbrettmuster) – alle sichtbaren Teile bleiben unverändert. Um das gesamte Bild neu zu generieren, beispielsweise in einem einheitlichen Stil, verwenden Sie Retexture.

Ich lerne, dass ich für meine Bildkomposition mit drei Ebenen den Retexture-Modus verwenden muss. Und mit dem liefert Midjourney ein enorm befriedigendes Finale für diesen Blogpost. Natürlich, zu mäkeln gibt es auch hier: Ich habe mir eine Szene wie im Film Casino vorgestellt, doch von Scorsese ist weit und breit nichts zu sehen. Aber auch da könnten wir versuchen, ChatGPT den Prompt überarbeiten zu lassen. Und auf alle Fälle geben die Mankos Raum für weitere Experimente …

Ist sie nicht süss?Als Casinodirektor würde dieses Motiv in meinem Büro hängen.

Fussnoten

1) Der Prompt:

This woman is posing for a photographer, who stands in front of her with his camera and takes her picture with an old fashion middle format camera. ↩

2) Der Prompt:

This woman is walking leisurely on a sidewalk in a modern city. ↩

3) Der Prompt für das Katzenbild mit den drei Ebenen:

This cat is wearing a hat and smoking a joint, and still looking cute. It is sitting in a casino on a poker table surrounded by playing cards [in comic style]. ↩

Beitragsbild: Etwas mehr Abstand wäre auch okay.

#KI #Longread #VideoBildgenerator

Matthias Jun 13, 2025

So leicht verschlägt es einen nach Mordor

Mir wurde in letzter Zeit etliche Male von Flux vorgeschwärmt; teils privat und teils medial. Das ist eine Software, die Bilder und Videos generiert. Und falls das überhaupt noch der Erwähnung bedarf: Sie tut das mithilfe künstlicher Intelligenz.

Bemerkenswert hingegen ist, von wem die Software stammt. Das Unternehmen hinter Flux heisst Black Forest Labs und Wikipedia gibt an, die Entwicklung habe in Freiburg im Breisgau ihren Anfang genommen. Im Impressum von bfl.ai wird heute allerdings Wilmington, DE angegeben, wobei das Kürzel nicht für Deutschland, sondern für Delaware steht. Das ist ein Dämpfer für jene unter uns, die in Flux gern einen europäischen Hoffnungsträger im globalen Gerangel um die KI-Vorherrschaft sehen würden.

Preisvergleiche sind schwierig

Das hält mich nicht von einem Test ab. Flux kann auf mehreren Wegen verwendet werden. Auf der Website des Entwicklers gibt es einen Playground. Die KI ist auch über Websites von Drittanbietern wie flux-ai.io oder getimg.ai zugänglich. Die Abos sind jeweils unterschiedlich ausgestaltet, was Preisvergleiche leider erschwert¹.

Ich habe mit Flux meine übliche Testreihe durchgeführt: Die Prompts dazu findet ihr hier und die Resultate seht ihr gleich. Zuvor muss eine Spezialität von Flux gewürdigt werden.

Die Bilderzeugung ist nämlich nicht die einzige Disziplin, die die KI beherrscht. Sie kann auch bestehende Bilder anhand eines Prompts verändern. Und das habe ich als erstes ausprobiert – das Resultat seht ihr als oben als Beitragsbild.

Der Prompt dazu lautete wie folgt:

Spiegle das Bild dieses Mannes an der vertikalen Achse, sodass die Schrift auf dem T-Shirt nicht spiegelverkehrt erscheint. Transferiere ihn in eine Landschaft, die wie Mordor aussieht: Also dunkel, mit düsteren Schatten und karger Vegetation, einem Lavaspeienden Berg im Hintergrund und dunklen Wolken am Himmel. Ersetze das Handy in der Hand des Mannes durch einen Ring.

Auf der positiven Seite stellen wir folgende Dinge fest:

Flux hat die Kernaufgabe richtig verstanden. In der bearbeiteten Version stehe ich nicht mehr in meinem Badezimmer, sondern vor dem Schicksalsberg.
Der Hintergrund ist gut gelungen – um Welten besser, als was ich aus Cocreator in Microsoft Paint herausleiern konnte, wo ich letzten Oktober ein ähnliches Experiment mit dem gleichen Bild unternommen habe.
Die KI hat eine ausgezeichnete Arbeit geleistet, meine beiden Ellbogen, die auf dem Foto nicht sichtbar sind, zu rekonstruieren. Nicht einmal ich als Besitzer dieser Ellbogen käme auf die Idee, dass sie künstlich generiert sind.

In einer Detailkritik haben wir indes diverse Unstimmigkeiten zu bemängeln:

Den Wunsch, mein Bild zu spiegeln, hat die KI ignoriert.
Das Handy ist zwar aus meiner Hand verschwunden, aber der geforderte Ring wurde nicht hinzugefügt.
Und natürlich passt die Lichtstimmung des eingefügten Motivs überhaupt nicht zu der düsteren Landschaft.

Das erste Problem liesse sich beheben, indem wir die Spiegelung selbst vornehmen. Den Ring und die Lichtstimmung bekämen wir vielleicht hin, wenn wir den Prompt konkreter und mit mehr Details ausgestalten würden. (Da ich meine Gratis-Credits aufgebraucht habe, kann ich das vorerst leider nicht ausprobieren.) Falls möglich, würde ich aber beim Ausgangsbild und ein neues Selfie aufnehmen, das besser zum gewünschten Endresultat passt.

Eine direkte Herausforderung für Photoshop

Trotzdem muss ich das Offensichtliche hier festhalten: Das ist ein epochaler Meilenstein in der Fotografie-Postproduktion. Die gleiche Arbeit in Photoshop würde auf herkömmliche Weise einen erfahrenen Anwender eine halbe Stunde beschäftigen. Ein wenig erfahrener Anwender hätte keine Chance. Das ist eine Zeitenwende in der Bildbearbeitung.

Hier abschliessend wie versprochen die Bilder zu meinen vier Standardtests, die ihr mit den Resultaten anderer generativer Bilder-KIs vergleichen könnt. Ich sortiere die Kreationen aufsteigend nach meiner Benotung.

4) Der träumende Androide

Der träumende Android: Note mangelhaft.

Ein schwieriges Motiv, zugegeben. Der Stil wäre für ein Kinderbuch passend. Da es sich bei der Aufgabe um eine Anspielung an das Buch Do Androids Dream of Electric Sheep? von Philip K. Dick handelt, wäre eine etwas «erwachsenere» Darstellung auch okay. Speziell kritisiere ich allerdings, dass der Android nicht schläft und damit nicht träumt und zwei Schafe aus der Traumblase ausgebrochen sind. Ausserdem ist nicht erkennbar, dass es sich um elektrische Schafe handeln müsste.

3) Das Schweiz-Diorama

Das Schweiz-Diorama: Note genügend.

Die Umsetzung gefällt mir gut; wie sich Matterhorn, Bundeshaus und Kapellbrücke ineinanderfügen, ist sogar ausgezeichnet. Minuspunkte gibt es, weil das Bundeshaus nicht aus Schokolade besteht – und weil es nicht als Bundeshaus zu erkennen ist.

2) Die Frau mit Hasenohren und Fuchsschwanz

Schimäre: Note gut.

Bei dieser Umsetzung sitzen sowohl die Ohren als auch der Fuchsschwanz. Der Stil ist dem märchenhaften Motiv angemessen und die Darstellung ist nicht übersexualisiert, wie das sonst oft der Fall ist.

Bei diesem Motiv zeigt Flux, dass die Vorschusslorbeeren nicht unverdient sind: Das ist das beste Resultat, das ich zu diesem Prompt bislang erhalten habe. Es gibt dennoch nur die Note gut, weil ich schade finde, dass oben die Ohren und unten die Haarspitzen angeschnitten sind.

1) Die Punk-Familie in Paris

Punk-Familie in Paris: Note ausgezeichnet.

Bei diesem Motiv wird Flux selbst hohen Erwartungen gerecht: Alle drei Familienmitglieder erscheinen so, wie beschrieben, und an der Pose vor dem Eiffelturm gibt es nichts zu mäkeln. Erster Kritikpunkt: Der Papa könnte noch etwas wilder, bzw. weniger gepflegt aussehen, insbesondere, was Bart und Frisur angeht.

Zweiter Kritikpunkt: Die Beleuchtung am Turm und bei der Strassenlaterne deutet auf Nacht hin, der Rest der Szene findet bei Tageslicht statt. Und natürlich würden wir uns für ein Ferienbild einen blauen Himmel wünschen. Auch diese Mankos liessen sich womöglich durch eine explizitere Formulierung des Prompts beseitigen.

Trotzdem: Flux überzeugt. Und positiv zu erwähnen ist das unglaubliche Tempo, mit denen diese vier Bilder erstellt worden sind.

Fussnoten

1) Bei Flux-ai kostet das günstigste Abo zehn Dollar pro Monat, wofür es 5000 Credits gibt. Da je nach Aufgabe eine unterschiedliche Zahl von Credits benötigt werden, kann ich nicht allgemeingültig sagen, wie weit das reicht. Für den Test gibt es 40 Credits gratis, die für vier Bilder mit dem Modell Flux.1 schnell gereicht haben. Für Videoexperimente sind mindestens 100 Credits pro Versuch einzurechnen, sodass wir mit dem Gratis-Account leider keinen Versuch unternehmen können. Bei getimg.ai zahlen wir mindestens acht Franken pro Monat für 3000 monatliche Credits. ↩

#KI #Publisher #VideoBildgenerator

Matthias Mar 18, 2025

Googles Bilder-KI produziert grosse Momente – wenn sie keinen Aussetzer hat

Wie viele KIs gibt es inzwischen, die Bilder generieren können? Wikipedia zählt im Eintrag zu den Text-zu-Bild-Generatoren zehn Hauptmodelle auf. Die Liste scheint mir nicht vollständig zu sein, namentlich fehlen Grok und Imagine with Meta AI. Trotzdem bringt mich diese Liste zum Schluss, dass ich mir noch einen Kandidaten vorknöpfen muss, damit meine Testreihe der Bildgeneratoren einen repräsentativen Eindruck hinterlässt.

Darum hier der Test von Googles Bildgenerator. Ich habe dank meines Arbeitgebers Zugriff auf Gemini Advanced. Dort können auch Motive in Auftrag gegeben werden, die mit Imagen 3 erzeugt werden.

Die erste Beobachtung ist verblüffend – aber kein Kompliment für Google:

Es mangelt Gemini an Durchblick.

Sie besteht darin, dass Google sich im Vergleich zur Konkurrenz ständig weigert, ein bestimmtes Motiv zu erstellen. Meine aktuelle Testreihe besteht aus vier Motiven¹, von denen Imagen aber nur die Hälfte überhaupt erzeugen wollte. Bei den zwei Beispielen mit Menschen habe ich beide Male folgende Abfuhr erhalten:

Ich lerne noch, wie bestimmte Arten von Bildern erstellt werden. Daher kann es sein, dass ich nicht genau das erzeuge, wonach Sie suchen. Ausserdem kann ich nicht mit fotorealistischen Bildern von identifizierbaren Personen, Kindern oder anderen Bildern helfen, weil das gegen meine Richtlinien verstösst.

Mit diesen Einschränkungen will Google natürlich verhindern, dass die Leute Motive kreieren, die im weitesten Sinn sexuell sein könnten. Ich verstehe das zu einem gewissen Grad, halte es aber trotzdem für falsch: Erstens, weil in den Museen zu Recht auch unanständige Darstellungen hängen und die Auslotung der Sexualität ein integraler Bestandteil der Kunst ist. Aber wenn Google die KI aus Angst vor Missbrauch gleich komplett davon abhält, Menschen abzubilden, ist das eine Überreaktion, wie sie im Buch steht. Sie macht Imagen nahezu unbrauchbar.

Kommen wir damit zu den – leider dünnen – Resultaten:

Das Schweizer Schokoladen-Diorama ist hervorragend: Sowohl die Schokolade als auch die Rahmdeko ist erkennbar; ebenso das Matterhorn und die Kapellbrücke. Beim Bundeshaus fehlt die Kuppel, aber der Neorenaissancestil ist erkennbar. Mit dieser Kreation sticht Google die gesamte Konkurrenz aus.

Schweizerischer wurde die Schweiz noch nie von einer KI gezeichnet.

Der zweite Test, der überhaupt ein Resultat produziert hat, ist derjenige des träumenden Androiden. Er ist deutlich weniger eindrücklich: Da der Androide im Bett sitzt, wird ihn niemand für schlafend halten. Auch die Beine sind zu kurz – oder, falls die Figur kniet, fehlen ihre Füsse. Die Traumblase setzt beim Mund und nicht beim Kopf an und die Schafe sind nicht elektrisch.

Dieser Android träumt im Sitzen.

Fazit: Falls keine Menschen gefragt sind, können wir Google eine Chance geben. Doch trotz des schönen Schoko-Sujets ist Imagen nicht auf der Höhe der Zeit. Nicht einmal meine Aufforderung, eine Variante im Querformat zu erstellen, hat die KI richtig verstanden, sondern bloss eine zweite quadratische Version geliefert.

Damit dieser Blogpost nicht so antiklimaktisch endet, zwei Zugaben:

Erstens habe ich einen kleinen Vergleich zwischen Gemini, Adobe Firefly, Dall-e 3 und Grok von Elon Musk angestellt. Zu sehen ist ein Feuerwehrmann, der zu malen versucht, aber nichts hinbekommt, weil er auf dem Schlauch steht².

Der malende Feuerwehrmann, der auf dem Schlauch stehen sollte, aber es kaum jemals tut. Von rechts nach links und oben nach unten: Google Imagen, Adobe Firefly, Dall-e 3 und Grok von X.

Zweitens will ich euch keinen Fall diese grossartige Leistung vorenthalten, die Thomas «bö» Benkö am letzten Sonntag auf Twitter gepostet hat und die auch von Google stammt:

thanks, google pic.twitter.com/8FMTTplkls

— Thomas Benkö | bö  (@ThBenkoe) March 16, 2025

Fussnoten

1) Das sind die vier Prompts, die für meine Tests verwende. Ich habe sie seit den ersten Versuchen deutlich verfeinert, sodass die Resultate nicht immer exakt vergleichbar sind. Dennoch sind sie meines Erachtens aussagekräftig, weil es zum Fortschritt dazugehört, dass nicht nur die Software besser wird, sondern auch wir Anwenderinnen und Anwender Lernerfahrungen machen. Zu denen gehört eben auch, dass wir unsere Anliegen präziser und für die Modelle besser verständlich formulieren:

Der träumende Android

Dieser Prompt ist inspiriert vom Buch Do Androids Dream of Electric Sheep? von Philip K. Dick, das auf Deutsch unter dem Titel «Träumen Androiden von elektrischen Schafen?» und im Kino als Blade Runner bekannt ist. Kann die KI ein abstraktes Konzept visualisieren? Bei diesem Prompt habe ich gelernt, dass es sinnvoll ist, eine Interpretationshilfe mitzuliefern – also zu erklären, wie der Traum visualisiert werden soll und mit welchen Tricks die Schafe als elektrisch gekennzeichnet werden.

Da ich diesen Prompt auch für den Test von Videogeneratoren verwende, gebe ich in eckigen Klammern die Modifikationen fürs Bewegtbild an, die u.a. vorgeben, wie sich die Schafe im Traum bewegen sollen:

An image [a video] of an android, going to bed, slipping under the blanket and closing his eyes. He starts dreaming, which is visualized by a bubble over his head. In this bubble, three sheep appear, one after another. [The sheeps slowly raise their heads and looking into the camera.]

Die Mensch-Tier-Chimäre

Die Idee hinter diesem Prompt war, dass diese Aufgabe für einen Comiczeichner oder einen Illustrator ein Klacks wäre. Darum muss eine KI, wenn sie nicht bloss Standardmotive replizieren will, hier ein gewisses Talent zur Improvisation beweisen. Sie muss die Hasenohren am richtigen Ort ansetzen, ebenso den Fuchsschwanz – die Beschreibung eines Fabelwesens impliziert auch einen bestimmten Stil. Das Resultat sollte, ohne dass das explizit verlangt wird, im Stil eines Comics oder einer Buchillustration erfolgen.

The most beautiful girl on earth with rabbit ears and a fox tail.

Ich habe diesen Prompt bei meinem allerersten Test verwendet. Und zwar so spontan, dass ich zuerst (unsinnigerweise) Fuchsohren und einen Hasenschwanz verlangt habe. Auch die Formulierung «most beautiful girl on earth» ist zu romantisierend und sie klingt nach der Ausdrucksweise der 1950er-Jahre. Für einen guten Prompt würde ich empfehlen, das Alter der Person zu spezifizieren und keine so interpretationsbedürftige Umschreibung zu liefern.

Trotzdem ist dieser Prompt im Nachhinein ein Glückstreffer, weil er die Stereotype der KI zum Vorschein bringt: Führt die Vorgabe «girl» tatsächlich dazu, dass ein Kind gezeigt wird oder versteht die KI den Begriff «Mädchen» im sexistischen Sinn als Frau? Und es zeigt sich, welche Schönheitsideale im Modell dominant sind: Falls ich mich nicht täusche, ist bei meinen sämtlichen Versuchen eine weisshäutige Person abgebildet worden, oft blond, schlank und dem klassischen Schönheitsideal entsprechend.

Schweiz aus Schokolade

Das ist eines der Beispiele, bei denen sich über die Zeit eine verblüffende Verbesserung ergeben hat. Daher habe ich die Anforderung erweitert. Während ich ursprünglich das Bundeshaus und Matterhorn separat habe generieren lassen, sollen sie nun als Diorama zu einem Motiv kombiniert werden:

An image with famous landmarks from Switzerland: the Matterhorn, the federal building in Berne and the Kapellbrücke in Lucerne as a diorama – but everything made of chocolate, with cream on top.

Die Punks in Paris

Dieser Prompt ist auf Stable Diffusion ausgelegt. Ich verwende ihn aber gerne wortgleich auch bei anderen Generatoren:

Beautiful family holiday picture in Paris with one Eiffel Tower in the background and a postcard feel. The mom is a punk with tattoos and young. Dad is 30 and wild looking with lots of tattoos and the frame of a bodybuilder. Daughter is 8 years old and looks nice and is well and conservatively dressed and is smiling sweetly without tattoos. Detailed, soft lighting, rendered in octane. There are only three people in the picture and only one Eiffeltower, hyperrealistic, lots of details, phtographic style. ↩

2) Der Prompt für diese Aufgabe lautete:

The image of a robot who acts like a fireman, who does not fight a fire, but tries to paint an image by shooting paint out of his hose on a big canvas. There is no paint coming out, because the fireman stands with one foot on the hose. ↩

Beitragsbild: Google Imagen, bei den meisten Aufgaben (Cottonbro studio, Pexels-Lizenz).

#Googologie #KI #VideoBildgenerator

Text-to-image model - Wikipedia

Matthias Feb 26, 2025

Welches ist die beste KI? Tipps für zwölf Einsatzgebiete

So langsam wird es unübersichtlich bei der KI. Es vergeht kaum ein Tag, dass ein neuer Akteur um die Ecke kommt und sein Modell präsentiert. Auch die altgedienten Anbieter lassen sich nicht lumpen und lancieren Updates und Features, dass es eine Freude ist. Beziehungsweise ein Riesenstress. Zumindest für Leute wie mich, deren Ehrgeiz darin besteht, bei dieser Entwicklung hinterherzukommen und sie als Blogger ausreichend zu würdigen.

Und die Leute, die sich nicht so intensiv mit der Materie befassen wollen, denen dürfte inzwischen schwindelig werden. Darum mache ich es mir heute zur Aufgabe, einen Überblick zu bieten: Welche KIs sollte man kennen? Welches Modell eignet sich wofür? Meine Einschätzung hier erfolgt subjektiv, nach meinen Gewohnheiten: Weil die sich meistens bewähren. Wenn es konkreter wird und ihr eine KI für eine spezifische Aufgabe benötigt, empfehle ich diese Methode hier.

1) Simple und schnelle Auskünfte

Für die ganz banalen Dinge verwende ich weiterhin eine normale Suchmaschine, meistens Google, und keine künstliche Intelligenz.

Erstens benötigt eine Websuche weniger Ressourcen. Zweitens ist es wichtig, sich aller KI zum Trotz weiterhin im freien Web zu bewegen und zu informieren. Falls mir Google keine guten Treffer liefert, weiche ich auf ChatGPT aus.

2) Vertiefte Recherchen

Perplexity ist der Aktualität (meistens) gewachsen.

Zu den komplizierteren Recherchen zähle ich Anfragen, die sich schlecht in ein paar Suchbegriffe packen lassen. Das ist dann der Fall, wenn ein bestimmter Kontext beachtet werden muss oder zeitliche Einschränkungen notwendig sind, um sinnvolle Ergebnisse zu erhalten. Hier ist Perplexity meine erste Anlaufstelle. Falls mich die Antwort nicht überzeugt, wage ich einen zweiten Versuch mit der Websuche von ChatGPT.

Wenn ich es ganz genau wissen will, führe ich bei Grok eine Nachforschung mit Deepsearch-Methode durch.

3) Den Überblick über aktuelle Ereignisse erlangen

Zu aktuellen Geschehnissen verschaffe ich mir bei den Medien meines Vertrauens einen Überblick. Perplexity kommt zum Zug, wenn ich konkrete Fragen habe, deren Antworten sich nicht aus den Newsbeiträgen ergeben. Natürlich prüfe ich jeweils die angegebenen Quellen, und wenn dann noch Punkte offen sind, setze ich ChatGPT ein.

4) Redigieren und umformulieren

Ich formuliere meine Texte gern selbst. Darum kommt es eigentlich nie vor, dass ich mir Mails, Briefe oder Social-Media-Postings von der KI verfassen lasse. Trotzdem gibt es Situationen, in denen ein Sprachmodell als Ghostwriter okay ist. Bislang fiel diese Rolle ChatGPT zu. Doch seit ich diese französische KI getestet habe, gebe ich für diese Aufgabe Le Chat von Mistral den Vorzug.

5) Übersetzungen

Für beide Übertragungsrichtungen – von der Fremdsprache nach Deutsch und von Deutsch in die Fremdsprache – gibt es bei mir nur eine KI des Vertrauens: Deepl. Meine Tipps zu diesem Sprachtalent finden sich übrigens hier.

Deepl übersetzt auch Dokumente.

6) Bilder und Illustrationen

Bei den Bildgeneratoren gibt es eine besonders üppige Auswahl. Und das ist auch gut so: Es kommt oft vor, dass die ersten Versuche fehlschlagen und trotz allen Modifikationen am Prompt nicht das Gewünschte Resultat entsteht. Dann hilft nur eines: Das Glück beim nächsten Kandidaten zu suchen.

Ich klappere die Generatoren normalerweise in folgender Reihenfolge ab:

Wenn ich Zeit habe, verwende ich Stable Diffusion mit der Draw Things-App auf dem Macbook Pro M3. Eine Alternative für Leute ohne die passende Hardware ist Leonardo.ai (Da Vinci würde sich vermutlich im Grab umdrehen).

Soll es schnell gehen, kommt Adobe Firefly zum Zug (Was Adobe Firefly inzwischen kann – und was nicht).

Der nächste Versuch erfolgt mit Grok. Falls auf dem Bild eine bekannte Persönlichkeit abgebildet sein soll, ist Grok der einzige Kandidat. Denn nur die KI von Elon Musk erlaubt die Erstellung von Motiven mit Promis.

Wenn ich noch immer nicht am Ziel angelangt bin, teste ich den Prompt mit Bing (Die Software hat träumen gelernt), Dall-e, Imagine with Meta AI (Die Bilder-KI von Meta im Test) und Imagen 3 von Google (Googles Bilder-KI produziert grosse Momente – wenn sie keinen Aussetzer hat).

Um anhand eines einzelnen Fotos ein KI-Bild einer Person oder eines Gegenstands zu produzieren, bietet sich Image Playground von Apple an (Auf Apples Bilder-Spielplatz blüht der Kitsch).

Tipps für fotorealistische Bilder liefere ich übrigens hier und hier.

Adobe Firefly liefert Bilder, die oft ziemlich echt aussehen.

7) Projekte mit Dateien und Dokumenten

Inzwischen sind die meisten Sprachmodelle in der Lage, einzelne Dateien zu analysieren. Doch wenn die Arbeit mit Dateien andauert und im Rahmen eines grösseren Projekts erfolgt, dann habe ich zwei klare Favoriten:

ChatGPT mit der Projektfunktion (Vier Lieblings-Tipps für ChatGPT) oder alternativ mit einem eigenen GPT (So wird ChatGPT zum persönlichen Daten-Mineur)
Google Notebook LM (Ein leistungsfähiges Recherche-Hilfsmittel)

8) Transkription längerer Audioaufnahmen

Um Audioaufnahmen zu verschriftlichen, setze ich meistens auf Happy Scribe (Eine Spracherkennung, die auch mit Dialekten klarkommt): Der Grund ist der praktische Editor für die Nachbearbeitung. Wenn es darauf nicht ankommt, dann verwende ich Macwhisper zur Transkription auf dem Mac. Wer keinen passenden Mac hat, kann Auphonic für diesen Zweck nutzen (Die KI, die auch Züritüsch versteht).

Auch hier gilt: Welches die beste Lösung ist, hängt von den Umständen ab. Der grosse Vergleich der Spracherkennungs-Tools erklärt die Stärken und Schwächen der einzelnen Produkte.

9) Texte einsprechen lassen

Die Sprachsynthese ist kein Gebiet, dass ich tagtäglich beackern würde. Dennoch: Wenn ich einmal keine Lust habe, einen Text selbst einzusprechen oder ihn nicht mit meiner eigenen, sondern einer fremden Stimme benötige, dann ist die Software von Elevenlabs meine erste Wahl (Als Frau klinge ich ganz schön sexy).

Im Editor der Evenlabs-Software lassen sich dem virtuellen Sprecher Vorgaben zu seiner «Performance» machen.

Als Tipp am Rand verweise ich gern auf den Newsreader von Elevenlabs, der uns Artikel in einer nicht nervenden Stimme vorliest.

10) Programmcode

Um Programmcode zu erzeugen, habe ich die besten Erfahrungen mit Claude gemacht (siehe hier und hier).

So sieht es aus, wenn Claude auf eine kurze Frage gleich ein fixfertiges Game liefert.

11) Text-zu-Video-Generatoren

Ich bin gespannt auf Veo 2 von Google. Doch da ich diese Software bislang nur vom Hörensagen kenne, führt kein Weg an Sora von OpenAI vorbei (Der Videogenerator Sora von OpenAI im Test).

Sora ist ein Text-zu-Video-Generator.

Da Sora hierzulande nicht offiziell verfügbar ist, sei auf Canva und ähnliche Apps sowie auf Runwayml verwiesen: Sie fabrizieren eher Cinemagramme denn Videosequenzen, was aber für eine Präsentation o.ä. auch ausreicht.

12) Virtuelle Avatare auf die Menschheit loslassen

Das ist kein Anwendungsfall für die meisten von uns. Auch ich habe dieses Gebiet bloss aus Neugierde und nicht aus einer echten Notwendigkeit heraus erkundet. Dennoch der Hinweis, mit welchen Tools wir uns selbst oder fremde Personen als Avatare in Szene setzen können.

Hourone.ai ist jene Software, die theoretisch das beste Ergebnis bieten sollte. Mein erster Auftritt als digitaler Mensch ist allerdings gescheitert.
Geklappt haben meine Versuche aber mit D-ID.com (Diese KI glaubt, moderieren zu können).

Beitragsbild: An welcher Ecke steckt nochmal die KI für die neue Wohnungseinrichtung? – Spoiler: hier (Ben Mathis Seibel, Unsplash-Lizenz).

#KI #LLMs #VideoBildgenerator

Wie wir die beste KI für einen bestimmte Aufgabe finden – Clickomania

Mit Openrouter.ai lassen wir mehrere grosse Sprachmodelle gegeneinander antreten. Sie beantworten parallel den gleichen Prompt. Im direkten Vergleich wird sofort klar, wer die der Herausforderung gewachsen ist und wer wie wild halluziniert.