Heute einmal ein ganz anderes Thema.
Normalerweise verweise ich hier nicht auf Elisas Verlag (der seit kurzem ebenfalls hier auf unserem Kuschelmammut-Server prĂ€sent ist), aber dieses Mal ist es etwas anders, weil das aktuelle Buch fĂŒr uns ein technisches Novum ist: Wir haben zum ersten Mal ein Buch komplett von einer KI illustrieren lassen. Und bevor jemand fragt, die Texte und die Songs hat weiterhin ein Mensch geschrieben und zwar die Mathematikerin, Autorin und Musikerin Angelika Pauly.
Das Buch ist aktuell noch im Druck, wird aber Anfang November offiziell erscheinen, A4 Hardcover, Vollfarbe, 68 Seiten, mit CD, 19,- Euro.
Es handelt sich um ein Geschichten-Lieder-Buch fĂŒr Kinder im Alter von 5 bis 8, alle Songs sind mit Noten und Songtexten auch im Buch abgebildet und die 20 Lieder sind natĂŒrlich auf der CD enthalten.
OK. Eigenwerbung Ende.
Nun zum technischen Aspekt.
Wir entschieden uns, mit Stable Diffusion XL die Bilder zu generieren. Mitgeholfen hat uns dabei die Web-App Nightcafe.
Als ich Anfang des Jahres die Idee zu diesem Projekt hatte, war Bildgenerierung noch ganz, ganz am Anfang. Erste Versuche sahen ziemlich mickrig aus. Damals noch mit der Stable-Engine 0.9.
Doch die Entwicklung war rasant. nach 0.9 folgten schnell 1 und 1.9. dann 2.0 und schliesslich XL in Version 1. Die Bilder wurden immer besser und besser. Als dann bei Heise von Night CafĂ© geschwĂ€rmt wurde, habe ich mir das dann genauer angesehen. AuĂerdem hat die Autorin gedrĂ€ngelt :-)
Nightcafe ist ein Programm, dass mehrere verschiedene Engines und Stile etc. unter einer OberflÀche vereinigte.
Und ich gebe zu, ich war durchaus beeindruckt.
Aber es war noch ein langer Weg. Hier ein paar Erfahrungen:
1. ENGLISCH, ENGLISCH, ENGLISCH. Die Bilder auf Deutsch beschreiben, ging gar nicht. Nur StuĂ waren die Ergebnisse.
2. Alles steht und fÀllt mit der Wahl eines geeigneten Models. Wir haben Stable DIffusion XL 1.0 gewÀhlt (SDXL 1.0). Aber DALL-E 2, ist genauso möglich wie speziell vortrainierte Varianten.
3. Dann sollte man unbedingt einen bestimmten Stil auswĂ€hlen. Unsere Bilder sollten im Stil von Disney/Pixar sein, also klassische CGI. Einen Moment war ich auch versucht, Ghibli bzw. Anime allgemein, zu benutzen. Das habe ich aber verworfen, da die Bilder zwar fĂŒr Animefans echt toll waren, aber vielelicht dann am Ende fĂŒr ein Kinderbuch zu exotisch gewesen wĂ€ren.
4. Und dann muss beschrieben werden, was auf dem Bild zu sehen sein soll. Man muss da gar nicht zu sehr ins Detail gehen. Ich habe nur grob zwischen Vordergrund und HIntergrund unterschieden. Bei Nightcafe problematisch war, dass der Prompt in der LĂ€nge arg begrenzt ist (und wie wir hier sehen, kann sich Ron nie kurz fassen).
5. Probklematisch wart, dass Nightcafe einen Wort-Filter verwendet hat, Begriffe wie "kleine MĂ€dchen und Jungen" wurden zurĂŒckgewiesen. Irgendwo naheliegend, wenn man an den Perversen Schmuddelkram denkt, der damit möglich ist. Aber da das Buch vom Kindergarten und seinen "Bewohnern" handelt, schon ziemlich einschrĂ€nkend. Aber: Es gibt ja noch die Webseite von Stable Diffusion
6. Den Nightcafe-Prompt habe ich dann also einfach bei Stable direkt eingekippt. Und dann ging es ans rendern.... und rendern.... und rendern....
7. GEDULD! GEDULD! GEDULD! Etwas, das Ron auf keinen Fall hat. Aber auf jedes generierte Bild kommen ungefÀhr 10, manchmal auch 20 und mehr Versuche. Kleine Varianten des Prompt, manchmal auch einfach nur noch einmal mit dem alten. Es wurde und wurde einfach nicht fertig. Denn:
8. DIESE FEHLER! Am schlimmsten waren die Fehlbildungen der HĂ€nde, aber wenn ein Musikinstrument plötzlich ein menschliches Bein hat, ist das zwar lustig, aber nichts fĂŒr das Buch. Echt schöne Bilder wurden durch solche Fehler wertlos. Dazu kam:
9. Stable hatte mal gute und mal schlechte Tage. Es gab tage, da hat gar nichts gepasst. Der Stil war völlig missglĂŒckt und das dauerhaft! Wohlgemerkt, es handelt sich um den selben Prompt, der am Vortag noch tolle Bilder lieferte.
10. Ohne Photoshop anzuwerfen ist es schlussendlich dann doch nicht gegangen.
Fazit: KI-Render-Wahnsinn spiegelt wieder, womit sich alle Kleinverlage rumĂ€rgern: Selbstausbeutung. Ich habe zwar keinen Grafiker anheuern mĂŒssen, aber Geld gespart habe ich trotzdem nicht: Ich habe WOCHENLANG gerendert und gerendert. Und eines weiss ich: DAS mach ich nicht mehr :-) Hier ging mir die Selbstausbeutung dann doch zu weit.
Aber das Ergebnis ist toll geworden, finde ich.
DemnÀchst beim Carow Verlag: Sing mit uns - tanz mit uns
#carowverlag #ki #ai #stablediffusion #photoshop #prompt