Aus der Vektorkurve geflogen

Gibt es KI-Bildgeneratoren, die Vektoren statt Pixel liefern? Diese Frage tauchte Anfang Januar bei einer meiner KI-Schulungen auf, und sie ist mehr als berechtigt. Pixel sind die beste Wahl für fotorealistische Motive oder künstlerische Illustrationen.

Doch in vielen anderen Fällen wäre der geometrische Ansatz geeigneter. Denken wir an die Infografiken, an technische Illustrationen, an Diagramme oder Visualisierungen, wie wir sie mit Notebook LM und Gemini erstellen. Wenn die aus einzelnen Elementen aufgebaut wären, liessen sie sich leicht bearbeiten: Wir könnten die Anordnung anpassen, Seitenverhältnisse ändern und die Farbgebung verbessern. Vor allem gäbe es die Möglichkeit, die Texte zu bearbeiten. Gemini und Dall-e von OpenAI haben zwar zugelegt. Doch noch immer generieren sie bei visuellem Output Nonsens-Ausdrücke, seltsame Formulierungen oder Sprachverwirrungen. Und auch typisch ist die Pseudo-Typografie: seltsame Gebilde, die aussehen wie Buchstaben, aber zu keinem bekannten Alphabet gehören.

Nachforschungen ergaben, dass die Auswahl an Vektor-Bildgeneratoren derzeit gering ist. Adobe Firefly warb schon bei der Lancierung mit der Funktion Text to vector. Die würde ich gern testen, aber dafür braucht es Illustrator und ein Abo für 25.95 Franken im Monat. Nebenbei: Was zum Teufel, Adobe!? Eure Abo-Seite ist abschreckender als die Auslage dieses dänischen Restbeständeverwerters.

Eine Umgebung für die kreative Ideenfindung

Dank recraft.ai muss ich nicht unverrichteter Dinge abziehen. Das in London beheimatete Unternehmen richtet sich an Gestaltungsprofis. Das merken wir daran, dass der Prompt für die Bilderzeugung nicht für sich allein steht, sondern in eine simple Grafik-Anwendung eingebettet ist. Wir zeichnen von Hand Rahmen, arbeiten mit Pinsel und geometrischen Elementen wie Linien, Rechtecken, Kreisformen und Pfeilen und platzieren Textfelder oder Pixel. Das soll kein Grafikprogramm ersetzen, sondern einfachen Entwürfen (Mockups) den Weg bereiten.

In dieser Umgebung platzieren auch die KI-generierten Elemente. Beim Prompt-Feld erzeugen wir unsere Inhalte entweder manuell oder mithilfe eines agentischen Assistenten. Letzteres benötigt natürlich mehr Credits.

Unter Model stehen uns eine Reihe von generativen KI-Modellen zur Auswahl. Einige davon kommen uns bekannt vor (Nano Banana und Imagen von Google, GPT von OpenAI, Flux von Black Forest, sowie Ideogram, Hidream und Qwen – also auch einige Vertreter aus der Open-Source-Welt). Recraft selbst hat eigene Modelle im Angebot, und hier werden wir mit Recraft V2 Vector und Recraft V3 Vector fündig. Das alte Modell will einen Credit für eine Bilderzeugung, das neue zwei. Apropos: Als Nutzer ohne Abo erhalten wir 30 Credits pro Tag. Für 10 US-Dollar (Pro) gibt es 1000 Credits pro Monat und das Team-Abo kostet 55 Dollar und beinhaltet 9000 Credits.

Kurzer Einschub: Die erste Variante dieses Blogposts wurde von der Wirklichkeit überholt. Während der Beitrag auf Halde lag, lancierte der Hersteller die Version 4 seines Modells, das auch bei den Vektormöglichkeiten eine deutliche Verbesserung verspricht. Da es auch deutlich mehr Credits verschlingt, konnte ich nicht alle Prompts mit dem neuen Modell ergänzen. Beim vierten Beispiel habe ich das jedoch getan – es zeigt eine deutliche Verbesserung. Einschub Ende.

1) Die Chimäre

Wir können die Modelle selbst auswählen oder die Wahl der Software überlassen. Ich probiere mein Glück mit der Einstellung Auto mode und mit dem Prompt, den ich seit Anbeginn der KI-Bildgeneratoren für meine Tests nutze. Eine junge Frau mit Fuchsschwanz und Hasenohren.

Die KI generiert zwei Varianten. Ohne stilistische Vorgaben erhalte ich zwei Illustrationen im Kinderbuchstil. Ob man sie für ein reales Projekt verwenden würde, ist natürlich Geschmackssache. Auf den ersten Blick wirken die Grafiken charmant. Bei längerer Betrachtung erkennen wir sie nicht unbedingt als KI-generiert. Aber sie wirken generisch genug, um keine Konkurrenz zu einer echten Illustratorin oder einem realen Illustrator zu sein.

Die KI generiert zwei Varianten des Mädchens mit Hasenohren und Fuchsschwanz (Modell Recraft V3 Vector).

Doch bei der Vektor-Vorgabe gibt sich Recraft keine Blösse: Die Grafiken lassen sich im SVG-Format exportieren, das sich problemlos in Affinity öffnen und bearbeiten lässt. Das Umfärben, Verschieben, Verändern und Entfernen von Bestandteilen der Grafik ist ein Klacks, und natürlich könnten wir auch Dinge hinzufügen.

Es zeigt sich allerdings auch, dass der Aufbau nicht über alle Zweifel erhaben ist. Ein Beispiel: Das blaue Kreissegment im Hintergrund des Fuchsmädchens ist aus fünf einzelnen Formen aufgebaut, die zwischen die Konturen der Figur im Vordergrund eingepasst wurden. Das ist natürlich Unfug. Wer nur den Hauch einer Ahnung von Vektoren hat, hätte ein einzelnes Kreissegment angelegt und hinter dem Mädchen platziert. Im Fall hier ist das kein wirkliches Problem. Doch generell erschweren solche Anfängerfehler die Bearbeitung, und sie machen die Grafik unnötig komplex.

Das Vektorbild in Affinity: Die Elemente lassen sich nachbearbeiten – aber statt eines Kreissegments finden sich mehrere isolierte Puzzleteile.

Erfreulich allerdings: Die KI hat die Grafik genau in den Rahmen eingepasst, den ich vorab auf der Zeichenfläche deponierte. Beim Recraft-Prompt könnten wir alternativ bei Ratio das Seitenverhältnis angeben. Unter Count legen wir fest, wie viele Varianten erstellt werden sollen. Bei Image Colors wählen wir die Farbpalette, die die KI berücksichtigen soll. Und in den Settings geben wir an, ob im Bild Textelemente enthalten sein dürfen oder nicht (Avoid text in image).

2) Eine komplexe Infografik

So weit, so erfreulich. Aber wie gut ist das Resultat bei einer Aufgabe aus dem Bereich der Infografik? Um mit schwerem Geschütz einzusteigen, setze ich bei meinem Versuch von neulich an, mir eine erklärende Infografik zu einem komplexen Buch erzeugen zu lassen. Allerdings scheitert dieses Unterfangen schon vor dem Start: Der Prompt von Recraft nimmt nur 1000 Zeichen entgegen. Das ist zu kurz für alle Informationen, die in die Grafik gehören würden.

3) Eine einfache Infografik

Also, eine einfachere Aufgabe. Gemini lieferte mir für diesen Artikel ein visuelles Guetslirezept¹. Klappt das auch mit Recraft?

Die Antwort ist ein Jein. Das ganze Rezept lässt sich mit der Anweisung zwar auf unter 1000 Zeichen kürzen. Doch die KI ist dennoch überfordert.

Sie erfüllt die Anforderung zwar, sowohl Zutaten als auch Zubereitung zu visualisieren, doch bei den Details hapert es gewaltig: Statt drei Eiweiss sehen wir zwei ganze Eier und die Mandeln sind eindeutig nicht gemahlen. Der Text erscheint wie gefordert in Deutsch, doch die längeren Textblöcke erhalten viele Fehler und seltsame Glyphen-Unfälle:

Auf den ersten Blick wirkt das Rezept gelungen, doch Mängel zeigen sich bei den Details (Recraft-Modell Version 4).

Das ist das Resultat der neuen Version des Vektormodells. Zum Vergleich hier die ursprüngliche Variante, die noch mit dem Vorgänger entstand. Sie zeigt einen deutlichen Fortschritt:

Vom Rezept bleibt nur die Liste mit den Zutaten übrig (Recraft-Modell Version 3).

Beim ersten Versuch erscheint der Text auf Englisch und nur die Liste mit den Zutaten wurde visualisiert.

Das grössere Problem besteht bei beiden Ausführungen: Die schriftlichen Angaben sind nicht als bearbeitbare Textrahmen in der SVG-Grafik enthalten. Sie bestehen aus Vektorkurven, wobei teilweise sogar einzelne Buchstaben aus mehreren Elementen zusammengebaut wurden. Die wirken in einer hohen Zoomstufe unbeholfen und kantig.

Die Vermutung liegt nahe, dass die Textelemente als Pixel generiert und vektorisiert wurden. Das deutet darauf hin, dass die künstliche Intelligenz diese Vektorgrafiken nicht systematisch aufbaut, wie es ein menschlicher Illustrator tun würde. Stattdessen bildet sie das Erscheinungsbild nach, so gut es halt geht. Das heisst: Optisch können die Grafiken in Ordnung sein – strukturell haben sie Defizite.

Der Text besteht aus schlecht vektorisierten Buchstaben.

Im vorliegenden Fall müssten die Textelemente gelöscht und manuell neu aufgebaut werden. Das wäre zwar ein Zusatzaufwand; ein gewisses Rationalisierungspotenzial besteht dennoch.

Zum Vergleich: Diese Rezeptdarstellung stammt von Gemini. Als Pixelbild lässt sie sich mit vernünftigem Aufwand nicht nachbearbeiten.

4) Illustration fürs Schulbuch

Letzter Versuch: Eine Illustration fürs Schulbuch. Die Ausgangslage ist eine Tabelle, in der fünf Tiere (Elefant, Giraffe, Hauskatze, Nashorn und Grizzlybär) mit Gewicht und Körperhöhe aufgeführt sind. Eine Spalte mit Emojis zeigt die Gefährlichkeit für den Menschen.

Das neue Modell Version 4 ist ein deutlicher Fortschritt: Diese Illustration ist zwar weit entfernt von Perfektion, aber im Vergleich zum Vorgängermodell (siehe unten) ein grosser Fortschritt.

Die KI sollte daraus eine Visualisierung erstellen und Diagramme für die jeweiligen Werte hinzufügen. Formale Vorgabe: «Gestalte es modern, verspielt, aber dennoch seriös genug für den Bildungsbereich, und achte darauf, dass der Text auf Deutsch bleibt.»

Wie man sieht, würden wir dieses Resultat niemals eins zu eins verwenden wollen, dafür stimmen zu viele Details nicht. Wir stellen etwa fest, dass die Höhe durch einen vertikalen Massstab symbolisiert wird. Und die Hauskatze ist mit 400 Kilogramm deutlich übergewichtig. Aber die Sprachvorgabe wurde berücksichtigt und als Rohfassung könnte diese Illustration nützliche Dienste erweisen.

Zum Vergleich: Das Resultat der Version 3 überzeugt deutlich weniger: Die Vorgabe zur Sprache wird ignoriert, die Diagramme fehlen. Die Giraffe wird mit den Werten des Elefanten angeschrieben und der Grizzlybär erscheint als Label, aber nicht als Bild und ohne Daten. Auf der zweiten Grafik taucht ein gelber Kopffüssler auf, der mit keinem der Tiere korrespondiert, die in der Liste erscheinen.

Die Tiere und Masseinheiten auseinanderzuhalten, entpuppt sich als zu hohe Hürde (Recraft V3 Vector).

Fazit

Fazit: Als Ersatz für Cliparts ab Stange taugt Recraft auf alle Fälle: Die legendären Corel-CDs mit Sammlungen von Hunderttausenden Stock-Motiven in Vektorform sind hiermit – so sehr mich das auch schmerzt – Geschichte. Die so generierten Motive sind individueller als die vorgestanzten Kreationen. Durch geschicktes Prompten, klare Stilvorgaben und eine gezielte Nachbearbeitung lässt sich auch der Eindruck der Belanglosigkeit, der den KI-Werken anhaftet, verringern oder beseitigen.

Den Ansprüchen von Infografiken und Datenvisualisierungen ist die Technik im Moment nicht gewachsen. In ganz simplen Fällen kann sie den Initialaufwand verringern oder uns als Inspiration dienen. Aber für vorzeigbare Resultate kommen wir nicht darum herum, selbst Hand anzulegen.

Fussnoten

1) Bei Google machte ich es mir maximal einfach und schrieb nicht einmal das Rezept selbst auf. Das war der Prompt:

Hier ein Rezept für Zimtsterne. Kannst du mir daraus eine schöne Infografik machen, in der nicht nur die Zutaten visualisiert sind, sondern auch die einzelnen Arbeitsschritte? Das Resultat soll ansprechend wirken, wie in einem feinsäuberlich gestalteten Rezeptbuch. ↩

Beitragsbild: Um die Vektorkurven richtig zu nehmen, braucht es Erfahrung als Mauslenker in der Grafik-Anwendung (Jesse Bowser, Unsplash-Lizenz).

#Adobe #Datenvisualisierung #KI #Longread #Publisher #VideoBildgenerator

Wie aus einer verwickelten Geschichte eine anschauliche Grafik entsteht

Es ist paradox: Einerseits beobachten wir diesen enormen Fortschritt bei den Bildgeneratoren. Andererseits wird mit dieser generativen KI fast ausschliesslich Schindluder getrieben. Zumindest scheint es so: AI Slop bis zum Abwinken auf Facebook und sexistische Kackscheisse auf X bei Elon Musk. Der Mann versprach zwar Besserung. Aber das Problem ist nicht vom Tisch.

Es scheint zwar nicht so, aber es gibt auch vernünftige Einsatzzwecke. Mir haben es die massgeschneiderten Infografiken angetan. Die Bildgeneratoren beherrschen allerlei Formate: Infografiken, Diagramme und Mindmaps, um nur einige zu nennen.

Sachverhalte zu visualisieren, hilft beim Nachdenken. Nebenbei sind sie wunderbar geeignet, um einen drögen Blogpost oder Dokumente anderer Art aufzupeppen. Im Vergleich zu rein illustrativen Bildern – bei denen ich den KI-Einsatz hier im Blog stark zurückgefahren habe – scheint mir die Akzeptanz bei informativen Formaten grösser zu sein.

Die Bilder-KIs privat und halbprivat nutzen

Nebst den journalistischen Möglichkeiten lassen sich Bilder-KIs wunderbar privat benutzen: Heute gelingt es der künstlichen Intelligenz, anders als noch vor einem Jahr, innenarchitektonische Szenarien durchzuexerzieren oder Rezepte grafisch zu gestalten.

Bei mir wirkt sie einer persönlichen Schwäche entgegen: Mir fällt es bei der Buchlektüre oft schwer, mir die Namen der Personen zu merken. Das liegt manchmal an den Autoren, wenn sie in ihren Storys mehrere Dutzend Leute auffahren. Meistens bin ich selbst schuld.

Wie wäre es also, fragte ich mich, wenn ich mir ein Personenverzeichnis zu Hilfe nähme? Das geht in Textform, aber viel wirkungsvoller ist eine grafische Darstellung. Die hilft, den Personen eine bildliche Erscheinung zu geben.

Genau jetzt werden viele begeisterte Bücherwürmer (und -würmerinnen) aufschreien und betonen, zum integralen Leseerlebnis gehöre zwingend dazu, sich die Erscheinung der Protagnonistinnen und Hauptfiguren selbst auszumalen. Einverstanden – aber wie gesagt, fällt mir das schwer. Man kann die Methode genausogut auf wichtige Schauplätze, auf entscheidende Wendungen oder meinetwegen auf schwer verständliche Konzepte anwenden.

Ich exerzierte die Methode bei Daniel Suarez’ Weltraumepos «Delta-V» durch und verfeinerte sie mit «The Hallmarked Man» von J.K. Rowling. Zu meiner Freude klappte es wunderbar. Ich benötigte drei Schritte:

1) Die notwendigen Informationen bereitstellen

Als Erstes ist eine Übersicht der wichtigen Figuren gefragt. Bei Geschichten mit üppiger Besetzung liefern die Verlage es als Buchanhang mit (unterschlagen es jedoch beim Hörbuch). Bei bekannten Werken stöbern wir sie via Internet auf (z.B. hier für «The Hallmarked Man»), doch meistens sind wir auf uns allein gestellt. Es kommt hinzu: Für die Visualisierung brauchen wir nicht nur die Namen, sondern zusätzlich eine Beschreibung, die Anhaltspunkte für die Visualisierung gibt.

Das heisst: Wir kommen nicht darum herum, die Liste selbst zu erstellen. Falls wir es nicht von Hand erledigen wollen, hilft das E-Book weiter: Digitalleser und Reader-Besitzerinnen sind im Vorteil. Damit wir es der KI vorsetzen können, darf es keinen Kopierschutz aufweisen; der Kindle-Store fällt als Bezugsquelle flach. Die deutschsprachigen Buchläden helfen weiter. Sie statten ihre Bücher mit Wasserzeichen, nicht mit einem DRM, aus.

Um der KI das Buch vorzusetzen, benötigen wir es im richtigen Format. Mit Epub kommen wir kaum zum Ziel. Bei der Konvertierung hilft uns die Open-Source-Software Calibre weiter:

Wir öffnen das Buch im Hauptprogramm (nicht im Viewer). Dort klicken wir es in der Übersicht mit der rechten Maustaste an und wählen Bücher konvertieren > Einzeln konvertieren aus dem Kontextmenü aus. Im Dialog selektieren wir rechts oben das Zielformat. Wir können Docx benutzen, aber reiner Text (TXT) erfüllt den Zweck ebenso. Das exportierte Buch findet sich im Nutzerverzeichnis von Calibre, dort in einer Ordnerstruktur aus Autor und Buchtitel.

2) Das Personenregister erstellen

Das Ausgangsmaterial für dieses Experiment.

Diese Exportdatei verwenden wir für unser Personenverzeichnis – oder analog für beliebige andere Bereiche, die wir analysieren oder visualisieren möchten.

Dabei stellt sich uns eine garstige Hürde in den Weg: Wie sich zeigt, sprengen längere Romane das Fassungsvermögen gängiger Sprachmodelle. Das liegt daran, dass das Kontextfenster zu schmal ist und darum nicht der gesamte Inhalt berücksichtigt wird.

Bei «Delta-v» zeigt sich das eindrücklich: Das 556-seitige Buch überfordert sowohl ChatGPT als auch Gemini und lässt sie kräftig halluzinieren. Beide Sprachmodelle liefern komplett erfundene Crews.

Der Aufgabe gewachsen ist hingegen LM von Google. Diese Lösung ist für grössere Datenmengen geeignet¹. Sie liefert ein brauchbares Personalverzeichnis².

Beim Prompt sind wir frei. Mein Beispiel:

Gib mir bitte eine Übersicht der Crew der Konstantin, die zum Asteroiden fliegt: Namen und eine Kurzbeschreibung. Berücksichtige die Personenbeschreibungen im Buch exakt und gib Hinweise auf die äussere Erscheinung wieder: Ethnie, Alter, Haarfarbe, Körperbau, besondere Merkmale und Kleidungsstil. Welchen ersten Eindruck macht die Person durch ihre Erscheinung?

Je nach Buch lässt sich das variieren. Für «The Hallmarked Man» verwendete ich folgende Einleitung:

Stelle eine Liste der wichtigen Personen zusammen. Erwähne insbesondere die Figuren, die für die Handlung wichtig sind oder mindestens dreimal erwähnt werden. Lasse Nebenfiguren weg. Gruppiere die Personen nach Rolle in der Geschichte, d. h., ob sie zum Umfeld von Robin und Cormoran gehören, zu den privaten Handlungssträngen zählen oder im Rahmen der Ermittlungen wichtig sind.

3) Das Register visualisieren

Ist diese Liste vorhanden, setzen wir sie einer KI vor. Notebook LM beherrscht vielerlei Visualisierungsmöglichkeiten, sodass wir unsere Übersicht mit den Funktionen generieren, die rechts im Studio-Bereich vorzufinden sind. Auch gut geeignet ist Nano Banana in Google Gemini.

Gemäss unseren Vorlieben betrauen wir auch die alternatativen Bildgenerator mit dieser Aufgabe. Bei meinem Test – ich probierte es mit Dall-e von OpenAI und mit Meta AI – waren die Konkurrenten den Infografik-Formaten jedoch nicht gewachsen.

Den Prompt formuliere ich wie folgt:

Erstelle anhand der Informationen ein fiktives, möglichst realistisches Passbild der jeweiligen Person, das der Ethnie Rechnung trägt. Ergänze Rang und Rolle, aber verzichte auf jegliche Angaben, die den Verlauf der Geschichte spoilern könnten. Diese Infografik ist für Leserinnen und Leser gedacht, die sich während der Lektüre mit den jeweiligen Personen vertraut machen können.

Das Resultat

Natürlich, ob gut oder schlecht, liegt im Auge des Betrachters. Das Resultat der Personenübersicht von «Delta-v» entpuppt sich als nützliche Ergänzung zu meiner Rezension.

Das Personal des Buchs «Delta-v» von Daniel Suarez als KI-Infografik.

Zugegeben, mit acht Leuten ist diese Aufgabe überschaubar. Böse Zungen würden behaupten, dass sich ein etwas aufmerksamerer Leser als ich die Leute durchaus hätte merken können (trotz des Handicaps, dass diverse Namen auf A enden).

Anders sieht das bei «The Hallmarked Man» aus. Notebook LM liefert in der Personenübersicht zwanzig Namen. Die Liste von Wikipedia ist fast dreimal so lang. In der Infografik tauchen 14 Personen auf – und zwar nicht ausschliesslich diejenigen, die die Handlung vorantreiben.

Mit anderen Worten: Bei J. K. Rowling muss Google kapitulieren. Das zeigt sich bereits beim Titel. Das «getönte Glas» aus der Titelzeile ist eine Halluzination. Ich habe Notebook LM mit der englischsprachigen Fassung gefüttert. Auf Deutsch heisst das Buch «Der Mann mit dem Silberzeichen».

Die Übersicht der Figuren von «The Hallmarked Man». Nicht falsch, aber lückenhaft und mit nicht immer optimaler Gewichtung.

Trotzdem: Mit einigen Anpassungen liesse sich die Methode verbessern. Wir könnten insbesondere das KI-generierte Personenverzeichnis anhand der Wikipedia-Übersicht unseren Bedürfnissen anpassen und auf die Personen begrenzen, die wir tatsächlich im Auge behalten wollen.

Oder wir könnten uns separate Grafiken für die einzelnen Sphären erstellen lassen: Also Cormoran, Robin und die Agentur, private Verwicklungen und Personen im Visier der Ermittlungen. Das ergäbe eine deutliche Verbesserung.

Wie oben erwähnt, liefert nur Google eine brauchbare Übersichtsgrafik. Doch mit einer leicht modifizierten Aufgabestellung liefert ChatGPT ein schönes Resultat. Der Clou ist, keine separaten Passbilder, sondern ein Gruppenbild zu verlangen.

Cormoran Strike, Robin Ellacott, Pat Chauncey, Ryan Murphy und Kim Cochran. Dass Ryan Kim die Hand auf den Ellenbogen legt, ist wirklich unangemessen.

Fussnoten

1) Gemäss dieser Übersicht verwendet Notebook LM zwei Millionen Token, die bezahlte Version von ChatGPT jedoch nicht einmal einen Zehntel, nämlich 128’000 Token. Bei der Gratisvariante seien es sogar nur 4000 bis 16’000. Obs stimmt, weiss ich nicht, aber die Zahlen decken sich mit meinen Beobachtungen. ↩

2) Wenn wir ganze Bücher an die KI verfüttern, sollten wir dem Urheberrecht Rechnung tragen: Bei vielen KI-Modellen werden die eingegebenen Daten u. U. fürs Training des Modells benutzt. Das heisst: Eine Folge unseres Experiments könnte darin bestehen, dass die Werke auf eine Weise verwendet werden, die nicht im Interesse der Autorinnen, Autoren und Verlage ist. Ich habe für diesen Test (auch im Rahmen einer Schulung meinen geschäftlichen Account verwendet, bei dem der Betreiber garantiert, dass kein Training mit den eingegebenen Daten erfolgt. ↩

Beitragsbild: Natürlich – sie würde es noch viel besser hinbekommen (Andrea Piacquadio, Pexels-Lizenz).

#KI #LLMs #Longread #Publisher #VideoBildgenerator

Google Gemini erkennt leider längst nicht alle KI-Deepfakes

Kollege Thomas Benkö schrieb letzte Woche auf Linkedin über die angebliche Schneeleopard-Attacke in Koktokay. Bei «Blick» dokumentierte er den Fall einer chinesischen Skifahrerin, die mit einem vorbeistreifenden Raubtier ein Selfie machen wollte (gute Idee, übrigens) und daraufhin attackiert wurde. Wie heutzutage kaum mehr anders zu erwarten, war es nur ein KI-Fake. Respektive genauer: Teile der Geschichte scheinen zu stimmen, doch nicht das gesamte Material, das darüber veröffentlicht wurde, ist authentisch.

Auch das ZDF analysierte die Begebenheit. Sie führt uns vor Augen, dass eine Halbwahrheit problematischer sein kann als eine glatte Lüge. Letztere wischen wir vom Tisch. Doch bei ersterer müssen wir mühselig zwischen realen und erlogenen Details unterscheiden und uns mit der Frage auseinandersetzen, welches Framing dahinterstecken könnte. In diesem Fall war’s vermutlich schlichte Klickgeilheit.

An dieser Stelle soll es um ein technisches Detail gehen. Sowohl der «Blick» als auch das ZDF weisen auf SynthID hin. Das ist Googles Methode, KI-generierte Inhalte mit einem digitalen Wasserzeichen erkenntlich zu machen. Das wird nicht nur bei Bildern und Videos eingebettet, sondern selbst bei Text. Ich halte das für eine sinnvolle Massnahme, doch wie hier analysiert, ist es keineswegs ein Patentrezept gegen Deepfakes. Enthält ein Inhalt kein SynthID-Wasserzeichen, ist das kein Beweis für seine Authentizität.

«Dieses Selfie ist gefälscht»

Benkö weist darauf hin, dass Googles Chatbot Gemini die SynthID-Markierung ausliest. Und in der Tat: Ein Test mit dem vermeintlichen Selfie der tollkühnen Skifahrerin ergibt das unzweifelhafte Ergebnis:

Eine Analyse mit dem Tool SynthID hat ergeben, dass Teile des Bildes digitale Wasserzeichen enthalten, die auf den Einsatz von Google KI-Modellen hinweisen.

Hier ist der Fall klar: Gemini hat das SynthID-Wasserzeichen entdeckt.

Das bringt uns zur Frage: Wie gut ist Gemini generell beim Enttarnen von KI-Inhalten?

Bei diesem Test interessiert mich vor allem, wie Googles künstliche Intelligenz im umgekehrten Fall abschneidet. Werden Bilder als authentisch erkannt, wenn sie das erwiesenermassen sind, aber trotzdem aussehen wie KI-generiert?

Ich verwende für diesen Zweck zwei Aufnahmen, die beide von freien Fotoplattformen stammen¹ und erwiesenermassen echt sein müssen. Sie wurden nämlich veröffentlicht, bevor die KI-Bildgeneratoren mit fotorealistischen Möglichkeiten existierten. Um es kurz zu machen: Bei denen bekleckert sich Gemini nicht mit Ruhm.

Gemini liegt zweimal voll daneben

Im Gegenteil; er vermutet in beiden Fällen fälschlicherweise eine KI:

Weckt zu Unrecht KI-Vibes.

Mann mit Geldbündeln:
Dieses Bild weist sehr starke Merkmale einer KI-Generierung auf. Achte auf die Finger der rechten Hand: Sie wirken unnatürlich lang und verformt. Auch die Texturen der Geldscheine und die Schrift darauf («Franklin Barbershop») sind typisch für Bild-KIs, die oft Schwierigkeiten haben, Text und feine Details wie die Sicherheitsmerkmale von Währungen korrekt darzustellen.

Sieht künstlich aus, stammt aber von 2018.

Paar auf der Bank (Stockfoto-Stil):
Auch dieses Bild zeigt bei genauerer Betrachtung Unstimmigkeiten, die auf KI hindeuten. Besonders auffällig ist die Hand der Frau auf dem Rücken des Mannes: Die Fingerstellung und die Anzahl der sichtbaren Finger wirken anatomisch nicht korrekt. Auch der Übergang der Haare zur Schulter zeigt oft unnatürliche Verschmelzungen.

Immerhin erkennt Gemini die zwei Kontrollaufnahmen, die tatsächlich mit KI generiert worden sind.

Trotzdem ist Googles Chatbot damit schlechter als zwei spezialisierte Erkennungs-Algorithmen: aiornot.com lag schon 2024 in allen Fällen richtig. Das gleiche gilt für Sight Engine aus meinem letztjährigen Test. Dieser meiner Erfahrung nach sehr zuverlässige Detektor liegt indes beim Schneeleoparden-Bild daneben und attestiert ihm fälschlicherweise Authentizität.

Bei den Beispielen ohne SynthID vermutet Gemini KI, wo wir es mit echter Fotografie zu tun haben.

Fazit: Es ist – und bleibt – kompliziert.

  • Gemini hilft uns in eindeutigen Fällen, in denen ein SyntID-Marker vorhanden ist. In allen anderen Fällen ist Googles KI nicht zuverlässig.
  • Umgekehrt zeigt dieses Beispiel, dass auch bewährte KI-Detektoren nicht von false negatives gefeit sind.

Die Authentizität garantieren kann nur der Urheber einer Aufnahme – sei es, weil die Aufnahme kryptografisch über die Metadaten abgesichert wurde, wie es die Content Authenticity Initiative anstrebt. Oder sei es, weil die Aufnahme über verlässliche Wege aus einer vertrauenswürdigen Quelle zu uns gelangte. In anderen Fällen helfen uns die hier vorgestellten Werkzeuge, unseren Grad der Unsicherheit zu verringern. Aber völlige Gewissheit garantieren sie nicht – und auf alle Fälle müssen wir diese Werkzeuge bewusst und mit Kenntnis ihrer Grenzen einsetzen.

Der sonst zuverlässige KI-Detektor von Sight Engine liegt hier falsch.

Fussnoten

1) Einige Details zu den beiden Aufnahmen:

Beitragsbild: Das Ding könnte auch aus Plastik sein (Mart Production, Pexels-Lizenz).

#DerOnlineShitDerWoche #Googologie #KI #VideoBildgenerator

Wie eine eigene Skizze zum Leben erwacht

Ich bin kein Fan von Meta und die KI-Strategie des Konzerns finde ich verheerend. Umso erschreckender, dass ich Meta AI selbst etwas abgewinnen kann: Mark Zuckerbergs künstliche Intelligenz ist manchmal schlagfertig. Und mir hat es die neue Animations-Funktion angetan, die Fotos oder Skizzen in kurze Videoclips verwandelt.

Sie heisst Vibes und wurde letzte Woche lanciert. Auf die grundsätzlichen Probleme komme ich gleich zu sprechen. Zuerst muss ich begründen, warum ich Spass beim Experimentieren habe. Für meinen ersten Versuch verwendete ich mein (schon öfter benutztes) Mordor-Selfie.

Aus dem Badezimmer nach Mordor

Auch dieses Mal war meine Idee, mich in einen Bewohner Mittelerdes zu verwandeln¹.

https://blog.clickomania.ch/wp-content/uploads/2025/10/250929-Meta-Vibe-Matthias-goes-to-Mordor.mp4

Und ja, am Ergebnis gibt es diverse Dinge auszusetzen:

  • Die Verwandlung in den Elf findet abrupt statt; Haare und Hörner sind plötzlich da, statt langsam aus dem Kopf zu wachsen.
  • Elfen haben keine Hörner.
  • Der Jeansrock, den mir Meta verpasst, ist mehr als seltsam.
  • Und die Begleiter sind seltsame, deformierte Doppelgänger meiner selbst.

Trotz der Fehler ist das unbestreitbar charmant: Wie sich die Badezimmertür öffnet und den Blick auf den Schicksalsberg freigibt, ist überraschend und sehenswert – Aufmerksamkeit erzeugt es auf alle Fälle.

Die Ameise

Für das zweite Beispiel muss ein weiterer meiner Testkandidaten herhalten: nämlich die velofahrende Ameise, mit der ich schon in Sora und in Google Veo experimentierte. Da bei Vibes eine Grafikdatei als Ausgangspunkt für die Animation benötigt wird, fertige ich per Maus eine simple Skizze an, wie ich mir dieses Motiv vorstelle.

https://blog.clickomania.ch/wp-content/uploads/2025/10/250929-Meta-Vibe-Ants-Adventure.mp4

Vibes nimmt diesen Entwurf und versetzt ihn in Bewegung. Die nicht ganz runden Räder werden eiernd animiert und die Beinchen zucken auf den Pedalen, auch wenn diese Spasmen nicht als Strampeln durchgehen können. Aber wie im Hintergrund eine Wiese auftaucht und die Ameise sich in die Landschaft hineinbewegt, ist hübsch.

Keine Frage: Mit Vibes ist es ein Klacks, eine dröge Grafik in einer Präsentation mit multimedialem Feuerwerk aufzupeppen. Und wie grossartig ist es für Kinder, wenn wir mittels Meta AI ihre Zeichnungen in einen Kurz-Trickfilm verwandeln?

Es steckt ohne Zweifel eine Menge kreatives Potenzial in dieser generativen KI. Was mich angeht, macht mir Vibes mehr Spass als Sora und Veo zusammen. Da die KI ein eigenes Motiv als Ausgangspunkt nimmt, ist das Resultat verbindlicher, als wenn wir nur einen Prompt übermitteln können.

Der Begeisterung zum Trotz: Viele Leute hassen Vibes

Diesem persönlichen Eindruck zum Trotz waren die Reaktionen auf Vibes ungnädig. Die Newsplattform «Techcrunch» malte das Horrorszenario einer KI-verseuchten Tiktok-Variante an die Wand:

Der beliebteste Kommentar zum Beitrag [von Metas KI-Chef Alexandr Wang] lautet: «Niemand will das», während eine andere Meinungsäusserung lautet: «Diggi postet KI-Schrott in seiner eigenen App». Ein weiterer Kommentar lautet: «Ich glaube, ich spreche für alle, wenn ich sage: Was …?»

Womit wir beim Anfang wären: Das Problem ist nicht das neue KI-Werkzeug an sich, sondern Metas Bestreben, die eigenen Plattformen auf Teufel komm raus mit Unmengen an KI-Inhalten zu fluten. Das muss man als Affront empfinden, wenn man auf Instagram schöne, selbstgemachte Fotos präsentieren und auf Facebook mit echten Menschen über reale Themen diskutieren möchte. In diesem Umfeld sind Animationen, so niedlich sie auch sein mögen, sinnlos.

So toll die Software, so sinnlos der Einsatzzweck

Mir ist ein Rätsel, was sich Meta davon verspricht, die eigenen Plattformen in ein KI-dominiertes Paralleluniversum zu verwandeln. Natürlich geht es irgendwie um Macht und darum, die User stärker an die eigenen Produkte zu binden. Vielleicht kann der AI Slop dazu beitragen. Doch genauso ist es möglich, dass Mark Zuckerberg selbst diese Strategie bislang nicht zu Ende gedacht hat.

Fazit: Ich empfehle Vibes gern – aber nicht, um mit belanglosem digitalem Müll sämtliche Kommunikationskanäle zu verstopfen. Stattdessen sollten wir ausloten, wie sich diese Animationen auf kreative und durchdachte Weise in bedeutsame und relevante Botschaften verwandeln lassen.

Fussnoten

1) Prompt:

Bitte verwandle diesen Mann in einen Elf in einer Umgebung, die an Mittelerde erinnert. Im Hintergrund gibt es einen ausbrechenden Vulkan, die Umgebung ist karg und öde. Der Mann hat keine Brille, keine Uhr und kein Smartphone in der Hand, stattdessen trägt er elbische Kleidung und einen langen Bart. In der linken Hand hält er einen Ring. Er dreht sich zum Berg um und marschiert dann mit anderen Elben los. ↩

Beitragsbild: Dieser Tiger ist ein perfektes Motiv, um mittels Vibes animiert zu werden (Liliana Drew, Pexels-Lizenz).

#KI #Kinder #Office #VideoBildgenerator

Nein, Googles neue Bildbearbeitungs-KI ist kein «Adobe-Killer»

Letzte Woche lancierte Google eine neue KI-Funktion und sparte nicht mit Selbstlob: «Schon bei der ersten Vorabversion gerieten die Leute völlig aus dem Häuschen. Das ist das weltweit am besten bewertete Bildbearbeitungsmodell!», prahlten die beiden Googler Nicole Brichtova und David Sharon.

Die Euphorie war anscheinend ansteckend. Beim «Business Insider» fragte man sich schon, ob Adobe demnächst einpacken müsse. Denn wieso sollte jemand noch Photoshop abonnieren wollen, wenn Bilder per sofort mittels Prompts verändert werden können? Nach dieser Logik hätten nicht nur die Bildbearbeitungsprogramme ausgedient, sondern auch die Leute, die sie bedienen können.

Nein, kein «Adobe-Killer»

Ohne das Ergebnis meines eigenen Tests vorwegzunehmen, darf ich vermelden, dass «Business Insider» entweder plumpes Clickbaiting betreibt oder keine Ahnung hat. Das neue Bildbearbeitungsmodell «Nano Banana» ist zwar ein Fortschritt. Aber es konkurrenziert die klassische Fotoretusche in keinerlei Hinsicht. Bei der geht es um gezielte, subtile und moderate Korrekturen, die die Echtheit eines Motivs nicht tangieren. Oder jemand verfolgt eine künstlerische Vision, die mit handwerklichen Mitteln zu realisieren ist.

Im Vergleich dazu ist «Nano Banana» ein lustiges Spielzeug, das das vorgesetzte Bildmaterial auf rabiate und schwer kontrollierbare Weise verändert. Dafür gibt es selbstverständlich Einsatzzwecke. Aber die sind experimenteller und nicht professioneller Natur. Mein eigener Testlauf belegt das: Google liefert ein amüsantes Resultat, kann meine Erwartungen aber nur ansatzweise erfüllen.

Tolkien würde es vermutlich hassen

Zum Einsatz kam mein Mordor-Selfie, das ich schon für meinen Test der Flux-KI benutzte. Der erste Prompt lautet:

Das ist ein Selfie. Ich hätte gerne, dass du mich in eine Landschaft setzt, die wie Mordor aussieht: Also wüst, öd und dunkel, mit einem Lava speienden Vulkan im Hintergrund. Bitte entferne das Smartphone aus meiner Hand und füge stattdessen einen grossen, glänzenden Ring ein, auf dem mysteriöse Schriftzeichen sichtbar sind.

Gemini sagt, er liefere mir ein Bild, tut aber nichts. Auf meinen Hinweis, dass er das Bild vergessen habe, kommt er zu Potte.

Links das Original-Selfie, rechts der erste Versuch: Schicksalsberg im Hintergrund und der Ring der Macht ersetzt das Smartphone.

Der Schicksalsberg im Hintergrund ist hübsch getroffen und auch der Ring mit den sprühenden Funken gefällt mir ausgezeichnet. Zu kritisieren ist, dass Isildurs Fluch ums Handgelenk getragen werden müsste, weil er für den Finger viel zu gross ist. Aber das sei verziehen, weil ein Ring in passender Grösse auf dem Bild kaum zu erkennen wäre.

Wie schon bei meinem Flux-Test wird das Hauptmotiv zwar tadellos freigestellt (vom Hintergrund getrennt) und in die Fantasie-Szene verfrachtet. Dennoch wirkt es wie ausgeschnitten, weil es in Bezug auf Helligkeit, Licht und Schatten überhaupt nicht zur Umgebung passt. Ich fordere «Nano Banana» daher auf, eine Angleichung vorzunehmen und dafür zu sorgen, dass der Schriftzug auf dem T-Shirt auch lesbar ist:

Kannst du mir das Bild horizontal spiegeln, damit der Schriftzug richtig lesbar ist? Und dann sorge bitte dafür, dass die Lichtstimmung beim Selfie zu der düsteren Umgebung von Mordor passt. Die Figur sollte dunkler werden und, falls möglich, eher von hinten beleuchtet werden, denn von vorn – weil der Vulkan ja im Hintergrund zu sehen ist. Damit ich nicht gänzlich in der Dunkelheit verschwinde, könntest du etwas Licht von vorn geben, z. B. von einem Feuer oder einer Lampe.

Die Lichtstimmung bekommt Gemini nicht hin

Das klappt nicht. Weder die Spiegelung noch die passende Stimmung sind im Resultat zu sehen. Das einzige, was Gemini hinbekommt, ist das Feuer im Vordergrund. Ich werde daher deutlicher und ergänze ausserdem den Wunsch, mich in einen Elben zu verwandeln:

Kannst du das noch prägnanter machen? Also den Mann abdunkeln und in eine düsterere Lichtstimmung tauchen? Und wenn wir schon dabei sind: Entferne doch die Brille und die Uhr, verpasse mir einen längeren Bart und spitzige Elben-Ohren!

Die zweite Variante (links) sollte düsterer wirken. Bei der dritten Iteration entfernt Gemini wunschgemäss Uhr und Brille und verpasst mir einen Bart.

Die Uhr und die Brille verschwinden tatsächlich und auch den Bart würde ich als gelungen bezeichnen. Von den Elben-Ohren lässt sich das nicht behaupten. Die sind etwas abstehender als in Wirklichkeit, aber für meinen Geschmack viel zu wenig spitz.

Das Spiegeln des Schriftzugs (oder der ganzen Figur) wäre auf herkömmlichem Weg in einer Sekunde erledigt. Der KI gelingt es interessanterweise nur teilweise. Beim Bild rechts steht der Anfang des Satzes («one does …») nun richtig herum, der hintere Teil aber durcheinander. Es steht nun «Walmes tin» da – was auch immer das heissen sollte.

Ich entschliesse mich, Gemini die volle Dröhnung zu verpassen, und übergebe eine (von ChatGPT erstellte) Übersicht aller wichtigen äusseren Eigenschaften der Elben:

Kannst du mich noch elfenhafter machen? Also:
Gesicht: schmal, ebenmässig, aber von Altersweisheit geprägt; feine Linien um Augen und Mund, jedoch ohne menschliche Gebrechlichkeit.
Augen: klar, leuchtend, oft grau oder blau, mit tiefer, uralter Weisheit.
Haare: lang, silbern oder weiss, manchmal leicht golden; meist glatt und gepflegt.
Körperbau: gross, schlank, aufrecht, mit würdevollem Auftreten.
Kleidung: edel, aber schlicht – lange Gewänder in Naturfarben (Grün, Grau, Braun, Weiss oder Blau), bestickt mit feinen Mustern.
Accessoires: Umhang, oft mit einer Brosche geschlossen; Schmuck aus Silber oder Mithril; gelegentlich ein Stab oder Schwert als Symbol seiner Stellung.
Aura: würdevoll, gelassen, fast überirdisch; eine stille Autorität, die Zeit und Erfahrung ausstrahlt.

Das tut Gemini auch, bedauerlicherweise geht an dieser Stelle jedoch die Ähnlichkeit zu meinem Selfie verloren. Ich versuche, noch einmal bei meinem bärtigen Ich anzusetzen und die Beschreibung klarer zu halten:

Mache mein Gesicht schmaler, weiser, die Augen blau und gross, meine Haare lang und silbrig und zu einem Pferdeschwanz gebunden und gib mir eine schwere Halskette und ein Schwert.

Doch das Bildbearbeitungsmodell ist nicht in der Lage, alle Anforderungen unter einen Hut zu bringen. Der resultierende Elf ist nicht mehr fotorealistisch, sondern comichaft.

An dieser Stelle geht jede Ähnlichkeit zum Selfie verloren.

Damit haben wir erfolgreich die Grenzen der neuen Bilder-KI erreicht. Und ja, es ist beeindruckend, was Google abliefert: Hätte ich dieses Modell vor vier Jahren – also bevor wir es mit generativer künstlicher Intelligenz zu tun bekommen haben – ausprobiert, ich wäre hin und weg gewesen. Meine kritische Haltung zeigt, wie sehr wir uns an die Möglichkeiten und den rasanten Fortschritt gewöhnt haben.

Unter dem Strich finde ich die Arbeit mit der Bildbearbeitung in Midjourney intuitiver und produktiver. Eines ist jedoch nicht wegzudiskutieren: Die Möglichkeiten, die sich mit «Nano Banana» eröffnen, sind faszinierend – vor allem für Leute wie mich, die zwar eine rege Fantasie, aber dummerweise zu wenig handwerkliche Fähigkeiten haben, sie auf die herkömmliche Weise in Kunst umzusetzen.

Beitragsbild: Ein Werk von Nano-Banana: Meine Wenigkeit am Filmset von «Herr der Ringe».

#Adobe #Googologie #KI #Publisher #VideoBildgenerator

Drei abgefahrene Kunst-Experimente mit Midjourney

Midjourney ist eine der generativen Bilder-KIs der ersten Stunde. Ich halte sie nach wie vor zu den wichtigsten Vertretern ihrer Art. Sie beherrscht eine breite Palette an Stilen. Und sie beschert uns – Geduld und Geschick beim Prompten vorausgesetzt – realistische Resultate. In meiner Erfahrung ist sie aber ein störrisches kleines Eselchen: Sie stellt sich bockig und wir müssen oft viele Anläufe und Prompt-Variationen ausprobieren, um zu einem brauchbaren Motiv zu gelangen. Und in diversen Fällen hat mich dieses renitente Ding auch komplett im Stich gelassen. Es hat dann manchmal geholfen, ChatGPT auf den Plan zu rufen und per KI die entscheidenden Aspekte so explizit wie möglich formulieren zu lassen.

An dieser Stelle soll es jedoch nicht um mein persönliches Ungemach mit dieser generativen künstlichen Intelligenz gehen, sondern um deren Fähigkeiten bei der Bildbearbeitung.

In der Rubrik Edit stellt Midjourney eine Arbeitsumgebung bereit, in der wir ein Bild via Upload oder über einen Link platzieren. Wir haben eine Handvoll Werkzeuge zur Verfügung, mit denen wir dieses Ursprungsmotiv für die Veränderung vorbereiten. Mit dem Pinsel im Modus Erase entfernen wir Elemente, die im finalen KI-Motiv nicht enthalten sein sollen. Falls wir zu viel löschen, schalten wir auf Restore um und stellen die erwünschten Partien wieder her. Es gibt auch die Funktion Smart Select, die beim Prozess des Auswählens behilflich ist: Mit der geben wir über zwei Plus-Markierungen zwei Enden des fraglichen Objekts vor und die Software wählt den Bereich dazwischen aus. Das klappte bei meinen hier nachfolgend beschriebenen drei Studien ausgezeichnet.

1) Mona Lisa beim Fotografen

Im Editor wird das Motiv freigestellt.

Bei meinem Versuch mit Mona Lisa habe ich die Dame aus Leonardo da Vincis recht bekanntem Ölgemälde freigestellt, allerdings ohne mich gross mit einzelnen Pixeln aufzuhalten. Doch wie wir sehen, bügelt die KI derlei Schludrigkeiten aus; im finalen Bild ist von den unsauberen Rändern nichts zu sehen.

Meine Idee bestand darin, Mona Lisa zum Fotografen zu schicken. Ich habe die Zeichenfläche in alle Richtungen etwas ausgeweitet – was einfach über die Anfasser am rechten, linken, oberen und unteren Rand zu bewerkstelligen ist – und mit einem simplen Prompt angegeben, es solle ein Mann mit einer altmodischen Mittelformatkamera hinzugefügt werden¹. Zwei Varianten taugen etwas:

Die erste seht ihr als Beitragsbild. Mir gefällt, dass die KI sich bei der zumindest ansatzweise Mühe gibt, den Stil des Ursprungsmotivs zu imitieren. Natürlich erkennen wir sofort, dass die Farbgebung nicht übereinstimmt; die erfundenen Bereiche sind zu knallig und zu bunt und es fehlt auch an der Leinwandstruktur. Aber es ist originell, dass die künstliche Intelligenz den Original-Hintergrund als Gemälde hinter Mona Lisa platziert.

Anerkennung verdient Midjourney dafür, wie Kamera und Stativ auf Mittelalter getrimmt sind. Wenn es derlei Ausrüstung im 16. Jahrhundert schon gegeben hätte, dann hätte sie womöglich so ausgesehen. Abzüge müssen wir geben, weil der Fotograf das Teleobjektiv für ein Porträt benutzt und das fünf Zentimeter vor seinem Sujet aufbaut. So bekommt er höchstens einen unscharfen Pickel aufs Foto.

Die zweite Variante ist bezüglich Bildkomposition gelungener, aber hier passen die Zeitebenen nicht zusammen. Der Fotograf stammt in seiner Anmutung aus dem frühen letzten Jahrhundert, nicht aus der Renaissance.

Leonardo da Vinci war eigentlich Fotograf.

2) Marilyn in der modernen Stadt

Beim Experiment mit Andy Warhols Marilyn Monroe habe ich komplett auf die Freistellung verzichtet – mit dem Effekt, dass die KI tatsächlich nicht die Frau in eine neue Umgebung versetzt, sondern das Bild mit dem Originalrahmen in einer neuen Umgebung platziert². Das ist eine Überraschung, aber eine positive. Mir gefällt das Resultat gut, auch wenn sich die Farbpaletten von Warhol und Midjourney beissen und mir nicht klar ist, weswegen die flanierende Frau einen Schnauzbart trägt. Auch sonst sind die Stile inkompatibel: Midjourney liefert zu viele Details, trägt die Farbe zu wenig flächig auf und ist nicht expressiv genug. Abgesehen davon ist das Kaff, in dem diese Handlung spielt, zu provinziell.

Hier passt nichts zusammen – und trotzdem gefällt es irgendwie.

Trotzdem gefällt mir dieses Motiv. Es weckt Widerstand und die Vorstellung, dass sich an diesem Plakatmast ein Wurmloch vom einen Kunst-Paralleluniversum zu einem seiner Nachbarn auftut.

Die zweite Variante atmet einen Hauch New York. Die Idee wäre originell, wenn das Warhol-Bild so unscharf wäre, wie es im Hintergrund sein müsste. Aber da könnten wir mit Photoshop nachhelfen.

Das könnte so gewesen sein.

3) Die kiffende Katze im Casino

Die Katze mit Hut im Editor: Drei Bilder, separat freigestellt, ergeben das neue Motiv.

Beim dritten Anlauf experimentiere ich mit den Ebenen im Bearbeitungsbereich: Es ist möglich, ein Motiv aus mehreren Versatzstücken zusammenzupuzzeln.

Im Beispiel kommen drei Elemente zum Zug: Erstens natürlich das Katzenbild. Zweitens das Foto eines Damenhuts und drittens die Spezialzigarette. Alle drei Elemente habe ich mit dem oben beschriebenen Smart Select-Feature freigestellt. Das gibt uns die Freiheit, die Elemente zu verschieben, in der Grösse zu ändern, zu drehen und mit dem Arrangement zu spielen. Was mir fehlt, ist die Möglichkeit, Ebenen horizontal und vertikal zu spiegeln. Der Hut sähe vielleicht besser aus, würde er umgekehrt auf dem Kopf der Katze sitzen.

Das erste Bild entspricht nicht meinen Erwartungen³. Die KI nimmt nicht meine ganze Komposition als Vorlage. Ich finde heraus, dass ich die Hilfe zu den Ebenen hätte lesen sollen. Dort steht Folgendes:

Nachdem Sie Ihre Ebenen angeordnet und gelöscht haben, können Sie sie durch Übermitteln der Bearbeitung zu einer einzigen Ebene zusammenführen. Nach dem Zusammenführen können Sie weiter an dem Bild arbeiten oder es hochskalieren und herunterladen.

Wenn Sie eine Bearbeitung mit Ebenen übermitteln, werden nur die Bereiche Ihres Bildes mit sichtbarer Transparenz neu generiert (das graue Schachbrettmuster) – alle sichtbaren Teile bleiben unverändert. Um das gesamte Bild neu zu generieren, beispielsweise in einem einheitlichen Stil, verwenden Sie Retexture.

Ich lerne, dass ich für meine Bildkomposition mit drei Ebenen den Retexture-Modus verwenden muss. Und mit dem liefert Midjourney ein enorm befriedigendes Finale für diesen Blogpost. Natürlich, zu mäkeln gibt es auch hier: Ich habe mir eine Szene wie im Film Casino vorgestellt, doch von Scorsese ist weit und breit nichts zu sehen. Aber auch da könnten wir versuchen, ChatGPT den Prompt überarbeiten zu lassen. Und auf alle Fälle geben die Mankos Raum für weitere Experimente …

Ist sie nicht süss?Als Casinodirektor würde dieses Motiv in meinem Büro hängen.

Fussnoten

1) Der Prompt:

This woman is posing for a photographer, who stands in front of her with his camera and takes her picture with an old fashion middle format camera. ↩

2) Der Prompt:

This woman is walking leisurely on a sidewalk in a modern city. ↩

3) Der Prompt für das Katzenbild mit den drei Ebenen:

This cat is wearing a hat and smoking a joint, and still looking cute. It is sitting in a casino on a poker table surrounded by playing cards [in comic style]. ↩

Beitragsbild: Etwas mehr Abstand wäre auch okay.

#KI #Longread #VideoBildgenerator

So leicht verschlägt es einen nach Mordor

Mir wurde in letzter Zeit etliche Male von Flux vorgeschwärmt; teils privat und teils medial. Das ist eine Software, die Bilder und Videos generiert. Und falls das überhaupt noch der Erwähnung bedarf: Sie tut das mithilfe künstlicher Intelligenz.

Bemerkenswert hingegen ist, von wem die Software stammt. Das Unternehmen hinter Flux heisst Black Forest Labs und Wikipedia gibt an, die Entwicklung habe in Freiburg im Breisgau ihren Anfang genommen. Im Impressum von bfl.ai wird heute allerdings Wilmington, DE angegeben, wobei das Kürzel nicht für Deutschland, sondern für Delaware steht. Das ist ein Dämpfer für jene unter uns, die in Flux gern einen europäischen Hoffnungsträger im globalen Gerangel um die KI-Vorherrschaft sehen würden.

Preisvergleiche sind schwierig

Das hält mich nicht von einem Test ab. Flux kann auf mehreren Wegen verwendet werden. Auf der Website des Entwicklers gibt es einen Playground. Die KI ist auch über Websites von Drittanbietern wie flux-ai.io oder getimg.ai zugänglich. Die Abos sind jeweils unterschiedlich ausgestaltet, was Preisvergleiche leider erschwert¹.

Ich habe mit Flux meine übliche Testreihe durchgeführt: Die Prompts dazu findet ihr hier und die Resultate seht ihr gleich. Zuvor muss eine Spezialität von Flux gewürdigt werden.

Die Bilderzeugung ist nämlich nicht die einzige Disziplin, die die KI beherrscht. Sie kann auch bestehende Bilder anhand eines Prompts verändern. Und das habe ich als erstes ausprobiert – das Resultat seht ihr als oben als Beitragsbild.

Der Prompt dazu lautete wie folgt:

Spiegle das Bild dieses Mannes an der vertikalen Achse, sodass die Schrift auf dem T-Shirt nicht spiegelverkehrt erscheint. Transferiere ihn in eine Landschaft, die wie Mordor aussieht: Also dunkel, mit düsteren Schatten und karger Vegetation, einem Lavaspeienden Berg im Hintergrund und dunklen Wolken am Himmel. Ersetze das Handy in der Hand des Mannes durch einen Ring.

Auf der positiven Seite stellen wir folgende Dinge fest:

  • Flux hat die Kernaufgabe richtig verstanden. In der bearbeiteten Version stehe ich nicht mehr in meinem Badezimmer, sondern vor dem Schicksalsberg.
  • Der Hintergrund ist gut gelungen – um Welten besser, als was ich aus Cocreator in Microsoft Paint herausleiern konnte, wo ich letzten Oktober ein ähnliches Experiment mit dem gleichen Bild unternommen habe.
  • Die KI hat eine ausgezeichnete Arbeit geleistet, meine beiden Ellbogen, die auf dem Foto nicht sichtbar sind, zu rekonstruieren. Nicht einmal ich als Besitzer dieser Ellbogen käme auf die Idee, dass sie künstlich generiert sind.

In einer Detailkritik haben wir indes diverse Unstimmigkeiten zu bemängeln:

  • Den Wunsch, mein Bild zu spiegeln, hat die KI ignoriert.
  • Das Handy ist zwar aus meiner Hand verschwunden, aber der geforderte Ring wurde nicht hinzugefügt.
  • Und natürlich passt die Lichtstimmung des eingefügten Motivs überhaupt nicht zu der düsteren Landschaft.

Das erste Problem liesse sich beheben, indem wir die Spiegelung selbst vornehmen. Den Ring und die Lichtstimmung bekämen wir vielleicht hin, wenn wir den Prompt konkreter und mit mehr Details ausgestalten würden. (Da ich meine Gratis-Credits aufgebraucht habe, kann ich das vorerst leider nicht ausprobieren.) Falls möglich, würde ich aber beim Ausgangsbild und ein neues Selfie aufnehmen, das besser zum gewünschten Endresultat passt.

Eine direkte Herausforderung für Photoshop

Trotzdem muss ich das Offensichtliche hier festhalten: Das ist ein epochaler Meilenstein in der Fotografie-Postproduktion. Die gleiche Arbeit in Photoshop würde auf herkömmliche Weise einen erfahrenen Anwender eine halbe Stunde beschäftigen. Ein wenig erfahrener Anwender hätte keine Chance. Das ist eine Zeitenwende in der Bildbearbeitung.

Hier abschliessend wie versprochen die Bilder zu meinen vier Standardtests, die ihr mit den Resultaten anderer generativer Bilder-KIs vergleichen könnt. Ich sortiere die Kreationen aufsteigend nach meiner Benotung.

4) Der träumende Androide

Der träumende Android: Note mangelhaft.

Ein schwieriges Motiv, zugegeben. Der Stil wäre für ein Kinderbuch passend. Da es sich bei der Aufgabe um eine Anspielung an das Buch Do Androids Dream of Electric Sheep? von Philip K. Dick handelt, wäre eine etwas «erwachsenere» Darstellung auch okay. Speziell kritisiere ich allerdings, dass der Android nicht schläft und damit nicht träumt und zwei Schafe aus der Traumblase ausgebrochen sind. Ausserdem ist nicht erkennbar, dass es sich um elektrische Schafe handeln müsste.

3) Das Schweiz-Diorama

Das Schweiz-Diorama: Note genügend.

Die Umsetzung gefällt mir gut; wie sich Matterhorn, Bundeshaus und Kapellbrücke ineinanderfügen, ist sogar ausgezeichnet. Minuspunkte gibt es, weil das Bundeshaus nicht aus Schokolade besteht – und weil es nicht als Bundeshaus zu erkennen ist.

2) Die Frau mit Hasenohren und Fuchsschwanz

Schimäre: Note gut.

Bei dieser Umsetzung sitzen sowohl die Ohren als auch der Fuchsschwanz. Der Stil ist dem märchenhaften Motiv angemessen und die Darstellung ist nicht übersexualisiert, wie das sonst oft der Fall ist.

Bei diesem Motiv zeigt Flux, dass die Vorschusslorbeeren nicht unverdient sind: Das ist das beste Resultat, das ich zu diesem Prompt bislang erhalten habe. Es gibt dennoch nur die Note gut, weil ich schade finde, dass oben die Ohren und unten die Haarspitzen angeschnitten sind.

1) Die Punk-Familie in Paris

Punk-Familie in Paris: Note ausgezeichnet.

Bei diesem Motiv wird Flux selbst hohen Erwartungen gerecht: Alle drei Familienmitglieder erscheinen so, wie beschrieben, und an der Pose vor dem Eiffelturm gibt es nichts zu mäkeln. Erster Kritikpunkt: Der Papa könnte noch etwas wilder, bzw. weniger gepflegt aussehen, insbesondere, was Bart und Frisur angeht.

Zweiter Kritikpunkt: Die Beleuchtung am Turm und bei der Strassenlaterne deutet auf Nacht hin, der Rest der Szene findet bei Tageslicht statt. Und natürlich würden wir uns für ein Ferienbild einen blauen Himmel wünschen. Auch diese Mankos liessen sich womöglich durch eine explizitere Formulierung des Prompts beseitigen.

Trotzdem: Flux überzeugt. Und positiv zu erwähnen ist das unglaubliche Tempo, mit denen diese vier Bilder erstellt worden sind.

Fussnoten

1) Bei Flux-ai kostet das günstigste Abo zehn Dollar pro Monat, wofür es 5000 Credits gibt. Da je nach Aufgabe eine unterschiedliche Zahl von Credits benötigt werden, kann ich nicht allgemeingültig sagen, wie weit das reicht. Für den Test gibt es 40 Credits gratis, die für vier Bilder mit dem Modell Flux.1 schnell gereicht haben. Für Videoexperimente sind mindestens 100 Credits pro Versuch einzurechnen, sodass wir mit dem Gratis-Account leider keinen Versuch unternehmen können. Bei getimg.ai zahlen wir mindestens acht Franken pro Monat für 3000 monatliche Credits. ↩

#KI #Publisher #VideoBildgenerator

Googles Bilder-KI produziert grosse Momente – wenn sie keinen Aussetzer hat

Wie viele KIs gibt es inzwischen, die Bilder generieren können? Wikipedia zählt im Eintrag zu den Text-zu-Bild-Generatoren zehn Hauptmodelle auf. Die Liste scheint mir nicht vollständig zu sein, namentlich fehlen Grok und Imagine with Meta AI. Trotzdem bringt mich diese Liste zum Schluss, dass ich mir noch einen Kandidaten vorknöpfen muss, damit meine Testreihe der Bildgeneratoren einen repräsentativen Eindruck hinterlässt.

Darum hier der Test von Googles Bildgenerator. Ich habe dank meines Arbeitgebers Zugriff auf Gemini Advanced. Dort können auch Motive in Auftrag gegeben werden, die mit Imagen 3 erzeugt werden.

Die erste Beobachtung ist verblüffend – aber kein Kompliment für Google:

Es mangelt Gemini an Durchblick.

Sie besteht darin, dass Google sich im Vergleich zur Konkurrenz ständig weigert, ein bestimmtes Motiv zu erstellen. Meine aktuelle Testreihe besteht aus vier Motiven¹, von denen Imagen aber nur die Hälfte überhaupt erzeugen wollte. Bei den zwei Beispielen mit Menschen habe ich beide Male folgende Abfuhr erhalten:

Ich lerne noch, wie bestimmte Arten von Bildern erstellt werden. Daher kann es sein, dass ich nicht genau das erzeuge, wonach Sie suchen. Ausserdem kann ich nicht mit fotorealistischen Bildern von identifizierbaren Personen, Kindern oder anderen Bildern helfen, weil das gegen meine Richtlinien verstösst.

Mit diesen Einschränkungen will Google natürlich verhindern, dass die Leute Motive kreieren, die im weitesten Sinn sexuell sein könnten. Ich verstehe das zu einem gewissen Grad, halte es aber trotzdem für falsch: Erstens, weil in den Museen zu Recht auch unanständige Darstellungen hängen und die Auslotung der Sexualität ein integraler Bestandteil der Kunst ist. Aber wenn Google die KI aus Angst vor Missbrauch gleich komplett davon abhält, Menschen abzubilden, ist das eine Überreaktion, wie sie im Buch steht. Sie macht Imagen nahezu unbrauchbar.

Kommen wir damit zu den – leider dünnen – Resultaten:

Das Schweizer Schokoladen-Diorama ist hervorragend: Sowohl die Schokolade als auch die Rahmdeko ist erkennbar; ebenso das Matterhorn und die Kapellbrücke. Beim Bundeshaus fehlt die Kuppel, aber der Neorenaissancestil ist erkennbar. Mit dieser Kreation sticht Google die gesamte Konkurrenz aus.

Schweizerischer wurde die Schweiz noch nie von einer KI gezeichnet.

Der zweite Test, der überhaupt ein Resultat produziert hat, ist derjenige des träumenden Androiden. Er ist deutlich weniger eindrücklich: Da der Androide im Bett sitzt, wird ihn niemand für schlafend halten. Auch die Beine sind zu kurz – oder, falls die Figur kniet, fehlen ihre Füsse. Die Traumblase setzt beim Mund und nicht beim Kopf an und die Schafe sind nicht elektrisch.

Dieser Android träumt im Sitzen.

Fazit: Falls keine Menschen gefragt sind, können wir Google eine Chance geben. Doch trotz des schönen Schoko-Sujets ist Imagen nicht auf der Höhe der Zeit. Nicht einmal meine Aufforderung, eine Variante im Querformat zu erstellen, hat die KI richtig verstanden, sondern bloss eine zweite quadratische Version geliefert.

Damit dieser Blogpost nicht so antiklimaktisch endet, zwei Zugaben:

Erstens habe ich einen kleinen Vergleich zwischen Gemini, Adobe Firefly, Dall-e 3 und Grok von Elon Musk angestellt. Zu sehen ist ein Feuerwehrmann, der zu malen versucht, aber nichts hinbekommt, weil er auf dem Schlauch steht².

Der malende Feuerwehrmann, der auf dem Schlauch stehen sollte, aber es kaum jemals tut. Von rechts nach links und oben nach unten: Google Imagen, Adobe Firefly, Dall-e 3 und Grok von X.

Zweitens will ich euch keinen Fall diese grossartige Leistung vorenthalten, die Thomas «bö» Benkö am letzten Sonntag auf Twitter gepostet hat und die auch von Google stammt:

thanks, google pic.twitter.com/8FMTTplkls

— Thomas Benkö | bö  (@ThBenkoe) March 16, 2025

Fussnoten

1) Das sind die vier Prompts, die für meine Tests verwende. Ich habe sie seit den ersten Versuchen deutlich verfeinert, sodass die Resultate nicht immer exakt vergleichbar sind. Dennoch sind sie meines Erachtens aussagekräftig, weil es zum Fortschritt dazugehört, dass nicht nur die Software besser wird, sondern auch wir Anwenderinnen und Anwender Lernerfahrungen machen. Zu denen gehört eben auch, dass wir unsere Anliegen präziser und für die Modelle besser verständlich formulieren:

Der träumende Android

Dieser Prompt ist inspiriert vom Buch Do Androids Dream of Electric Sheep? von Philip K. Dick, das auf Deutsch unter dem Titel «Träumen Androiden von elektrischen Schafen?» und im Kino als Blade Runner bekannt ist. Kann die KI ein abstraktes Konzept visualisieren? Bei diesem Prompt habe ich gelernt, dass es sinnvoll ist, eine Interpretationshilfe mitzuliefern – also zu erklären, wie der Traum visualisiert werden soll und mit welchen Tricks die Schafe als elektrisch gekennzeichnet werden.

Da ich diesen Prompt auch für den Test von Videogeneratoren verwende, gebe ich in eckigen Klammern die Modifikationen fürs Bewegtbild an, die u.a. vorgeben, wie sich die Schafe im Traum bewegen sollen:

An image [a video] of an android, going to bed, slipping under the blanket and closing his eyes. He starts dreaming, which is visualized by a bubble over his head. In this bubble, three sheep appear, one after another. [The sheeps slowly raise their heads and looking into the camera.]

Die Mensch-Tier-Chimäre

Die Idee hinter diesem Prompt war, dass diese Aufgabe für einen Comiczeichner oder einen Illustrator ein Klacks wäre. Darum muss eine KI, wenn sie nicht bloss Standardmotive replizieren will, hier ein gewisses Talent zur Improvisation beweisen. Sie muss die Hasenohren am richtigen Ort ansetzen, ebenso den Fuchsschwanz – die Beschreibung eines Fabelwesens impliziert auch einen bestimmten Stil. Das Resultat sollte, ohne dass das explizit verlangt wird, im Stil eines Comics oder einer Buchillustration erfolgen.

The most beautiful girl on earth with rabbit ears and a fox tail.

Ich habe diesen Prompt bei meinem allerersten Test verwendet. Und zwar so spontan, dass ich zuerst (unsinnigerweise) Fuchsohren und einen Hasenschwanz verlangt habe. Auch die Formulierung «most beautiful girl on earth» ist zu romantisierend und sie klingt nach der Ausdrucksweise der 1950er-Jahre. Für einen guten Prompt würde ich empfehlen, das Alter der Person zu spezifizieren und keine so interpretationsbedürftige Umschreibung zu liefern.

Trotzdem ist dieser Prompt im Nachhinein ein Glückstreffer, weil er die Stereotype der KI zum Vorschein bringt: Führt die Vorgabe «girl» tatsächlich dazu, dass ein Kind gezeigt wird oder versteht die KI den Begriff «Mädchen» im sexistischen Sinn als Frau? Und es zeigt sich, welche Schönheitsideale im Modell dominant sind: Falls ich mich nicht täusche, ist bei meinen sämtlichen Versuchen eine weisshäutige Person abgebildet worden, oft blond, schlank und dem klassischen Schönheitsideal entsprechend.

Schweiz aus Schokolade

Das ist eines der Beispiele, bei denen sich über die Zeit eine verblüffende Verbesserung ergeben hat. Daher habe ich die Anforderung erweitert. Während ich ursprünglich das Bundeshaus und Matterhorn separat habe generieren lassen, sollen sie nun als Diorama zu einem Motiv kombiniert werden:

An image with famous landmarks from Switzerland: the Matterhorn, the federal building in Berne and the Kapellbrücke in Lucerne as a diorama – but everything made of chocolate, with cream on top.

Die Punks in Paris

Dieser Prompt ist auf Stable Diffusion ausgelegt. Ich verwende ihn aber gerne wortgleich auch bei anderen Generatoren:

Beautiful family holiday picture in Paris with one Eiffel Tower in the background and a postcard feel. The mom is a punk with tattoos and young. Dad is 30 and wild looking with lots of tattoos and the frame of a bodybuilder. Daughter is 8 years old and looks nice and is well and conservatively dressed and is smiling sweetly without tattoos. Detailed, soft lighting, rendered in octane. There are only three people in the picture and only one Eiffeltower, hyperrealistic, lots of details, phtographic style.

2) Der Prompt für diese Aufgabe lautete:

The image of a robot who acts like a fireman, who does not fight a fire, but tries to paint an image by shooting paint out of his hose on a big canvas. There is no paint coming out, because the fireman stands with one foot on the hose.

Beitragsbild: Google Imagen, bei den meisten Aufgaben (Cottonbro studio, Pexels-Lizenz).

#Googologie #KI #VideoBildgenerator

Text-to-image model - Wikipedia

Welches ist die beste KI? Tipps für zwölf Einsatzgebiete

So langsam wird es unübersichtlich bei der KI. Es vergeht kaum ein Tag, dass ein neuer Akteur um die Ecke kommt und sein Modell präsentiert. Auch die altgedienten Anbieter lassen sich nicht lumpen und lancieren Updates und Features, dass es eine Freude ist. Beziehungsweise ein Riesenstress. Zumindest für Leute wie mich, deren Ehrgeiz darin besteht, bei dieser Entwicklung hinterherzukommen und sie als Blogger ausreichend zu würdigen.

Und die Leute, die sich nicht so intensiv mit der Materie befassen wollen, denen dürfte inzwischen schwindelig werden. Darum mache ich es mir heute zur Aufgabe, einen Überblick zu bieten: Welche KIs sollte man kennen? Welches Modell eignet sich wofür? Meine Einschätzung hier erfolgt subjektiv, nach meinen Gewohnheiten: Weil die sich meistens bewähren. Wenn es konkreter wird und ihr eine KI für eine spezifische Aufgabe benötigt, empfehle ich diese Methode hier.

1) Simple und schnelle Auskünfte

Für die ganz banalen Dinge verwende ich weiterhin eine normale Suchmaschine, meistens Google, und keine künstliche Intelligenz.

Erstens benötigt eine Websuche weniger Ressourcen. Zweitens ist es wichtig, sich aller KI zum Trotz weiterhin im freien Web zu bewegen und zu informieren. Falls mir Google keine guten Treffer liefert, weiche ich auf ChatGPT aus.

2) Vertiefte Recherchen

Perplexity ist der Aktualität (meistens) gewachsen.

Zu den komplizierteren Recherchen zähle ich Anfragen, die sich schlecht in ein paar Suchbegriffe packen lassen. Das ist dann der Fall, wenn ein bestimmter Kontext beachtet werden muss oder zeitliche Einschränkungen notwendig sind, um sinnvolle Ergebnisse zu erhalten. Hier ist Perplexity meine erste Anlaufstelle. Falls mich die Antwort nicht überzeugt, wage ich einen zweiten Versuch mit der Websuche von ChatGPT.

Wenn ich es ganz genau wissen will, führe ich bei Grok eine Nachforschung mit Deepsearch-Methode durch.

3) Den Überblick über aktuelle Ereignisse erlangen

Zu aktuellen Geschehnissen verschaffe ich mir bei den Medien meines Vertrauens einen Überblick. Perplexity kommt zum Zug, wenn ich konkrete Fragen habe, deren Antworten sich nicht aus den Newsbeiträgen ergeben. Natürlich prüfe ich jeweils die angegebenen Quellen, und wenn dann noch Punkte offen sind, setze ich ChatGPT ein.

4) Redigieren und umformulieren

Ich formuliere meine Texte gern selbst. Darum kommt es eigentlich nie vor, dass ich mir Mails, Briefe oder Social-Media-Postings von der KI verfassen lasse. Trotzdem gibt es Situationen, in denen ein Sprachmodell als Ghostwriter okay ist. Bislang fiel diese Rolle ChatGPT zu. Doch seit ich diese französische KI getestet habe, gebe ich für diese Aufgabe Le Chat von Mistral den Vorzug.

5) Übersetzungen

Für beide Übertragungsrichtungen – von der Fremdsprache nach Deutsch und von Deutsch in die Fremdsprache – gibt es bei mir nur eine KI des Vertrauens: Deepl. Meine Tipps zu diesem Sprachtalent finden sich übrigens hier.

Deepl übersetzt auch Dokumente.

6) Bilder und Illustrationen

Bei den Bildgeneratoren gibt es eine besonders üppige Auswahl. Und das ist auch gut so: Es kommt oft vor, dass die ersten Versuche fehlschlagen und trotz allen Modifikationen am Prompt nicht das Gewünschte Resultat entsteht. Dann hilft nur eines: Das Glück beim nächsten Kandidaten zu suchen.

Ich klappere die Generatoren normalerweise in folgender Reihenfolge ab:

  • Wenn ich Zeit habe, verwende ich Stable Diffusion mit der Draw Things-App auf dem Macbook Pro M3. Eine Alternative für Leute ohne die passende Hardware ist Leonardo.ai (Da Vinci würde sich vermutlich im Grab umdrehen).
  • Soll es schnell gehen, kommt Adobe Firefly zum Zug (Was Adobe Firefly inzwischen kann – und was nicht).
  • Der nächste Versuch erfolgt mit Grok. Falls auf dem Bild eine bekannte Persönlichkeit abgebildet sein soll, ist Grok der einzige Kandidat. Denn nur die KI von Elon Musk erlaubt die Erstellung von Motiven mit Promis.
  • Wenn ich noch immer nicht am Ziel angelangt bin, teste ich den Prompt mit Bing (Die Software hat träumen gelernt), Dall-eImagine with Meta AI (Die Bilder-KI von Meta im Test) und Imagen 3 von Google (Googles Bilder-KI produziert grosse Momente – wenn sie keinen Aussetzer hat).
  • Um anhand eines einzelnen Fotos ein KI-Bild einer Person oder eines Gegenstands zu produzieren, bietet sich Image Play­ground von Apple an (Auf Apples Bilder-Spielplatz blüht der Kitsch).
  • Tipps für fotorealistische Bilder liefere ich übrigens hier und hier.

    Adobe Firefly liefert Bilder, die oft ziemlich echt aussehen.

    7) Projekte mit Dateien und Dokumenten

    Inzwischen sind die meisten Sprachmodelle in der Lage, einzelne Dateien zu analysieren. Doch wenn die Arbeit mit Dateien andauert und im Rahmen eines grösseren Projekts erfolgt, dann habe ich zwei klare Favoriten:

    8) Transkription längerer Audioaufnahmen

    Um Audioaufnahmen zu verschriftlichen, setze ich meistens auf Happy Scribe (Eine Spracherkennung, die auch mit Dialekten klarkommt): Der Grund ist der praktische Editor für die Nachbearbeitung. Wenn es darauf nicht ankommt, dann verwende ich Macwhisper zur Transkription auf dem Mac. Wer keinen passenden Mac hat, kann Auphonic für diesen Zweck nutzen (Die KI, die auch Züritüsch versteht).

    Auch hier gilt: Welches die beste Lösung ist, hängt von den Umständen ab. Der grosse Vergleich der Spracherkennungs-Tools erklärt die Stärken und Schwächen der einzelnen Produkte.

    9) Texte einsprechen lassen

    Die Sprachsynthese ist kein Gebiet, dass ich tagtäglich beackern würde. Dennoch: Wenn ich einmal keine Lust habe, einen Text selbst einzusprechen oder ihn nicht mit meiner eigenen, sondern einer fremden Stimme benötige, dann ist die Software von Eleven­labs meine erste Wahl (Als Frau klinge ich ganz schön sexy).

    Im Editor der Evenlabs-Software lassen sich dem virtuellen Sprecher Vorgaben zu seiner «Performance» machen.

    Als Tipp am Rand verweise ich gern auf den Newsreader von Eleven­labs, der uns Artikel in einer nicht nervenden Stimme vorliest.

    10) Programmcode

    Um Programmcode zu erzeugen, habe ich die besten Erfahrungen mit Claude gemacht (siehe hier und hier).

    So sieht es aus, wenn Claude auf eine kurze Frage gleich ein fixfertiges Game liefert.

    11) Text-zu-Video-Generatoren

    Ich bin gespannt auf Veo 2 von Google. Doch da ich diese Software bislang nur vom Hörensagen kenne, führt kein Weg an Sora von OpenAI vorbei (Der Videogenerator Sora von OpenAI im Test).

    Sora ist ein Text-zu-Video-Generator.

    Da Sora hierzulande nicht offiziell verfügbar ist, sei auf Canva und ähnliche Apps sowie auf Runwayml verwiesen: Sie fabrizieren eher Cinemagramme denn Videosequenzen, was aber für eine Präsentation o.ä. auch ausreicht.

    12) Virtuelle Avatare auf die Menschheit loslassen

    Das ist kein Anwendungsfall für die meisten von uns. Auch ich habe dieses Gebiet bloss aus Neugierde und nicht aus einer echten Notwendigkeit heraus erkundet. Dennoch der Hinweis, mit welchen Tools wir uns selbst oder fremde Personen als Avatare in Szene setzen können.

    Beitragsbild: An welcher Ecke steckt nochmal die KI für die neue Wohnungseinrichtung? – Spoiler: hier (Ben Mathis Seibel, Unsplash-Lizenz).

    #KI #LLMs #VideoBildgenerator

    Wie wir die beste KI für einen bestimmte Aufgabe finden – Clickomania

    Mit Openrouter.ai lassen wir mehrere grosse Sprach­mo­delle gegen­einan­der antreten. Sie beant­wor­ten paral­lel den gleichen Prompt. Im direk­ten Ver­gleich wird sofort klar, wer die der He­raus­for­de­rung ge­wach­sen ist und wer wie wild hallu­zi­niert.

    Der Videogenerator Sora von OpenAI im Test

    Vor gut zwei Jahren waren die von künstlicher Intelligenz generierten Bilder die Vorboten der KI-Revolution, die derzeit in vollem Gang ist – inklusive einer Neuauflage des Kampfs der Systeme¹.

    Liegt es da nicht auf der Hand, dass sich mit dem gleichen Prinzip Bewegtvideo erzeugen lässt – und es nur eine Frage der Zeit ist, bis Hollywood-Produzenten sich den ganzen Klimbim mit Regisseurinnen, Schauspieler, Kameraleuten und Filmsets sparen und ihre nächsten Blockbuster mit einem simplen Prompt erzeugen?

    Natürlich ist es nicht so einfach: Vor anderthalb Jahren experimentierte ich mit runwayml.com und stellte fest, dass sich Standbilder mit etwas Bewegung versehen lassen. Das sind keine Filmsequenzen mit einer erkennbaren Handlung, sondern vielmehr Cinemagramme. Die waren, auf herkömmlichem Weg produziert, vor zehn Jahren im Gefolge von Apples Live-Fotos kurz populär (siehe hier und hier). Im letzten September nahm ich einen erneuten Anlauf und schaute mir eine Vielzahl an Videogeneratoren an, bei denen aber kein Resultat eindrücklicher als ein Cinemagramm war.

    Wie weit reicht die Erzählkunst von Sora?

    Das hat sich geändert. Wenigstens ein wenig: OpenAI hat im Februar 2024 einen Text-zu-Video-Generator angekündigt und Sora im letzten Dezember lanciert. Die Clips, die Sora erzeugt, sind nicht nur wenige Sekunden oder nur Sekundenbruchteile lang, sondern dauern bis zu einer Minute. Es ist möglich, in einem Storyboard mehrere Szenen zu beschreiben. Auf diese Weise lässt sich zumindest eine kurze Geschichte in einem künstlich generierten Videoclip erzählen. Auch Google hat eine solche KI in Arbeit; Veo 2 soll Videos von mehreren Minuten Länge produzieren können.

    Die Übersicht mit den Sora-Clips und dem Prompt unten, über den sich weitere Videos erstellen lassen.

    Also, wie weit reicht die Erzählkunst von Sora?

    Der Videogenerator ist in der Schweiz nicht offiziell verfügbar, aber mittels VPN² klappte mein Test einwandfrei. Als Nutzer eines Plus-Abos bei OpenAI bekomme ich ein paar Credits, die ich für die Videogenerierung verbrate. Die Erstellung eines Videos geht so vonstatten:

    • Wir beschreiben das Video kürzer oder ausführlicher in unserem Prompt.
    • Wir stellen Parameter zum Stil, zur Länge und zum Seitenverhältnis ein³.
    • Wir lassen das Video erstellen oder klicken auf Storyboard.

    Das automatische Storyboard

    Bei dieser Variante wird anhand des Prompts automatisch und wiederum per KI ein szenischer Ablauf erstellt. Das sind mehrere «Einstellungen», die separat beschrieben werden. Wir können von Hand eingreifen, aber bei meinem ersten Test habe ich mich weitgehend auf die Inputs der Software verlassen.

    Für diesen Test habe ich einerseits die Prompts benutzt, die ihr aus meinen früheren Tests von Bildgeneratoren her kennt, weil damit Vergleiche zu früheren, statischen Resultaten möglich sind. Um den Besonderheiten des Films gerecht zu werden, habe ich mir eine kurze Geschichte ausgedacht, bei der eine Ameise auf ihr Velo steigt und eine Tour unternimmt, bei der sie einer Schnecke begegnet.

    Das Storyboard: Hier wird der Ablauf der Szenen geplant. Die Prompts hier hat die KI aufgrund meiner allgemeinen Beschreibung selbständig erstellt.

    Und das ist herausgekommen:

    1) Vier Fieberträume der KI

    [youtube https://www.youtube.com/watch?v=DzlRspsXrt4?version=3&rel=1&showsearch=0&showinfo=1&iv_load_policy=1&fs=1&hl=de-DE&autohide=2&wmode=transparent&w=640&h=360]

    In diesem Clip hat als erstes die Chimäre aus Mensch, Fuchs und Hase ihren Auftritt:

  • Diese Szene finde ich sehr gelungen: eine leicht märchenhafte Inszenierung, wie sie hervorragend in einen Kinderfilm passen würde. Bisher hat keine KI die Kombination aus drei Wesen so gut hinbekommen. Die Kamerafahrt vom Fuchsschwanz auf den Kopf mit der Körperdrehung der jungen Frau ist perfekt.
  • Die Punks in Paris sehen einzeln ganz okay aus. Zu bemängeln ist natürlich, dass Sora keine Familie hinbekommen hat, sondern nur ein Pärchen, ohne die achtjährige Tochter.
  • Die Schweiz aus Schokolade überzeugt wenig: Die Kapellbrücke ist nicht als solche erkennbar, das Bundeshaus auch nicht und das Matterhorn fehlt ganz. Aber die Schoko-Textur und die Kamerafahrten gefallen mir.
  • Der vierte Versuch hätte eine Verneigung vor Philip K. Dicks Roman Do Androids Dream of Electric Sheep? sein sollen. Obwohl ich ein ausführliches Storyboard angefertigt habe, ist der Androide nicht zu sehen und die Schafe sehen gruselig aus. Fazit: Komplett verunglückt.
  • 2) Die seltsame Velotour einer abenteuerlustigen Ameise

    [youtube https://www.youtube.com/watch?v=-i0KxHbLRO0?version=3&rel=1&showsearch=0&showinfo=1&iv_load_policy=1&fs=1&hl=de-DE&autohide=2&wmode=transparent&w=640&h=360]

    Dieses Beispiel sollte, wie oben erwähnt, eine Kurzgeschichte erzählen: Die Ameise besteigt ihr Fahrrad, fährt los und trifft auf eine Schnecke⁴.

    Das Resultat ist auf den ersten Blick eindrücklich: Die kleine Ameise, die Schnecke, die Graslandschaft – alles überzeugend. Man kann sich hervorragend ausmalen, wie aus dem, was wir hier sehen, ein Kinder-Kurzfilm oder sogar ein Kinofilm werden könnte.

    Bei genauerer Betrachtung fallen viele unstimmige Details auf:

    • Beim Aufsteigen verformt sich das Hinterteil der Ameise.
    • Die Schnecke kriecht nicht über den Boden, sondern sie gleitet – und das in einem viel zu schnellen Tempo.
    • Es gibt teilweise keine Pedalen, die Füsse der Ameise drehen im Leeren. Und beim Treten ist teilweise nur ein Ameisenbein zu sehen und in einer Szene bewegt die Ameise ihre Beine überhaupt nicht.
    • In der vierten Szene löst sich die Schnecke in Luft auf.
    • Und am Schluss erfindet Sora einen Mann hinzu, mit dem die Schnecke einen Fistbump ausführt. Der Film endet mit dem grinsenden Mann.

    Dieser Mann und der seltsame Faustgruss sind eine reine Halluzination der Software – davon stand nichts in meinem Drehbuch. Diese Wendung ist aus erzählerischer Sicht problematisch. Gut, vielleicht war es die Aufgabe der Ameise, die Schnecke zu ihrem menschlichen Freund zu führen? Will mir Sora zu verstehen geben, dass meine lahme Vorgabe das Potenzial dieser Story nicht ausschöpft?

    Ein echtes Problem ist das nicht; wenn uns diese Sequenz stört, können wir sie wegschneiden. Doch was das Ameisenabenteuer deutlich vor Augen führt, ist die Tatsache, dass beim Bewegtbild sich die Fehlerquellen potenzieren:

    • Falsche oder unnatürliche Bewegungsabläufe,
    • Ereignisse, die nicht mit den physikalischen Gesetzen oder den natürlichen Gegebenheiten übereinstimmen,
    • Anschlussfehler,
    • unplausible Szenenbilder und kleine Unstimmigkeiten, die ins Uncanny Valley führen.

    Kurz: Das Potenzial ist unübersehbar. Es gibt keinen Zweifel daran, dass wir in ein paar Jahren längere Filme sehen werden, die ein Teenager mit dem teuren Sora-Abo zu Hause an seinem Computer zusammengeklickt hat. Einige werden sich an den falschen Details stören, doch viele Leute werden grosszügig darüber hinwegsehen.

    Gleichzeitig wird es einen Gegentrend auslösen. Wir dürfen mit einem grösseren Bedürfnis nach echter, menschengemachter Kunst rechnen. Wer weiss – vielleicht bietet das die Chance auf einen Zeichentrickfilm, der wie zur Blütezeit von Walt Disney von Hand gezeichnet wird?

    Fussnoten

    1) Mit Deepseek fordert China die USA heraus. Genauso wie es der Chef der KI-Com­mu­nity Hugging Face, Clem Delangue, Ende 2024 voraussagte. Überrascht hat allerdings, wie schnell diese Prognose im neuen Jahr eingetroffen ist – und wie sehr dieser Coup jetzt sitzt. ↩

    2) Nach Kündigung meines NordVPN-Abos habe ich mit ProtonVPN einen Versuch gewagt; und zwar mit der Testvariante für einen US-Dolllar von Proton VPN Plus. Die wird einem angeboten, wenn man auf dieser Seite auf Get Proton VPN Free klickt. Die Gratisvariante ist für den Test leider ungeeignet, weil sie uns nicht erlaubt, einen Server in den USA zu wählen. ↩

    3) Die Konfigurationsmöglichkeiten bei Sora:

    • Presets steuern den Stil, zur Auswahl gehören Film Noir, Archival, Cardboard and Papercraft, Whimsical Stop Motion und Balloon World.
    • Seitenverhältnis: 16:9, 1:1 und 9:16, also Hochformat.
    • Auflösung: 480p, 720p und bei mir nicht verfügbar: 1080p
    • Dauer: 5 Sekunden und 10 Sekunden, plus, bei mir nicht verfügbar, 15 und 20 Sekunden
    • Wir dürfen ausserdem angeben, wie viele Varianten erzeugt werden sollen (eine, zwei oder vier). ↩

    4) Der Prompt für diesen Film:

    Erste Einstellung:

    A tiny ant, wearing a miniature helmet and goggles, pedals energetically on a small mountain bike through a lush, green grassland. The grass blades tower above, creating a vibrant and lively backdrop. The sunlight filters through the leaves, casting soft shadows on the ground. The ant’s determination is evident as it navigates the uneven terrain with skill and agility.

    Zweite Einstellung:

    The ant encounters a snail slowly making its way across its path. The ant looks at the snail and waves cheerfully before continuing on its journey. ↩

    Beitragsbild: Ein Untensil der Vergangenheit (Erik Uruci, Pexels-Lizenz)

    #KI #Longread #VideoBildgenerator