@
Ralf S. Wohlgemerkt, der Hintergrund ist nicht Bildanalyse oder Bildinterpretation.
Der Hintergrund ist vielmehr Barrierefreiheit, wie sie auf Mastodon gefordert wird. Ich bin selbst nicht auf Mastodon, wie du sicherlich schon erkannt haben dürftest. Aber wenn meine Bildposts nach Mastodon kommen, und das tun sie, dann müssen sie schon deshalb barrierefrei sein, weil mich das ansonsten noch mehr Reichweite kosten würde als sowieso schon.
Nun bin ich allerdings niemand, der einfach nur das absolut nötige Minimum anstrebt. Statt dessen habe ich mich eingehend mit dem Thema Bildbeschreibungen und Alt-Text befaßt. Es gibt dazu ja sehr viele Publikationen online; etliche
habe ich zusammengefaßt in meinem im Aufbau befindlichen Wiki zum Thema auf meinem Hubzilla-Kanal.
Allerdings gehen die nicht auf die tatsächlichen Verhältnisse im Fediverse ein, weder auf Mastodons ganz spezielle Kultur, die es versucht, dem ganzen übrigen Fediverse aufzuzwingen, noch auf die besonderen Wünsche zumindest einiger Mastodon-Nutzer noch auf die technischen Möglichkeiten im Fediverse außerhalb von Mastodon, z. B. Posts quasi ohne Zeichenlimit.
So mußte ich zusätzlich wachsamen Auges beobachten, was insbesondere auf Mastodon passiert in puncto Alt-Texte und Bildbeschreibungen. Ich würde gern im größeren Rahmen mit möglichst vielen Angehörigen verschiedener Nutzergruppen gleichzeitig über das Thema diskutieren. Aber alle Personen, mit denen darüber zu diskutieren sinnvoll wären, sind nur auf Mastodon. Mastodon ist technisch für diese Art von Diskussion völlig ungeeignet. Und im Fediverse außerhalb von Mastodon, wo es die technischen Voraussetzungen für solche Diskussionen gäbe (Friendica, Hubzilla, (streams), Forte, Lemmy, Mbin, PieFed, NodeBB etc.), ist das Thema praktisch unbekannt.
Selbst wenn ich einfach so "in den Äther" rufe, wie es auf Mastodon üblich ist, weil es da gar nicht anders geht, kommt nichts dabei heraus. Als Nicht-Mastodon-Nutzer habe ich kurioserweise mit ca. über 700 Folgeverbindungen weitaus weniger Reichweite als so manch ein Mastodon-Nutzer mit 300 Folgenden. Abstimmungen bringen auch nichts; häufig stimmen bei mir weniger Leute ab, als ich Optionen angegeben habe.
Also muß ich beim Beschreiben meiner Bilder von sechs Annahmen ausgehen, die ich
in diesem bisher komplett ignorierten Post schon dargelegt habe:
Mein Publikum besteht nicht nur aus denen, die mir folgen, sondern das sind alle, die theoretisch meine Posts sehen können.Wenn ich erwähne, daß es auf einem meiner Bilder etwas gibt, dann muß ich auch beschreiben, wie es aussieht.Bildbeschreibungen müssen sofort alle Informationen liefern, die vielleicht irgendjemand da draußen brauchen könnte. Nach einem Detail in einem Bild oder einer Erklärung für ein Bild zu fragen, ist genauso schlimm, wie überhaupt erst nach einem Alt-Text zu fragen.Irgendjemand da draußen ist möglicherweise auch an kleinsten Details auf meinen Bildern interessiert. Und der- oder diejenige ist möglicherweise blind oder sehbehindert.Alles, was es an Text innerhalb der Grenzen eines Bildes gibt, muß immer 100% wortwörtlich transkribiert werden. Auch wenn der Text unlesbar ist oder so klein ist, daß er unsichtbar ist. Wenn ich weiß, was da geschrieben steht, dann muß ich es transkribieren.Alle Bilder brauchen einen akkuraten und hinreichend detaillierten tatsächlichen Alt-Text. Auch wenn ich ein Bild in 60.000 Zeichen im Post selbst beschreibe, kann ich dafür sanktioniert werden, daß das Bild selbst keinen akkuraten und hinreichend detaillierten Alt-Text hat. Also brauche ich den zusätzlich. Ich muß meine eigenen Bilder jeweils zweimal beschreiben.Im übrigen kann ein LLM nicht annähernd das, was ich tue. Und das weiß ich aus eigener praktischer Erfahrung: Ich habe zwei mal LLaVA damit beauftragt, ein Bild zu beschreiben, das ich schon beschrieben habe.
Das fängt schon damit an, daß keine KI auf dem Bild selbst Details sehen kann, die ich sehen kann, wenn ich vor Ort bin. Die KI würde ja das Bild beschreiben, indem sie sich das Bild von diesem Ort ansieht. Ich beschreibe meine Bilder, indem ich mir den Ort selbst vor Ort ansehe, also eben gerade nicht das Bild mit seiner stark reduzierten Auflösung. Eine KI kann das nicht.
Dann gehört zum akkuraten Beschreiben und vor allem Erklären dieser Bilder extrem obskures Nischenwissen. Keine KI könnte bei der visuellen Analyse eines meiner Bilder erkennen und erklären, was das für ein Ort ist, wie die Sim heißt, in welchem Grid sie sich befindet, daß das Ganze auf OpenSim basiert usw. usf. Schon gar nicht können das alle KIs. Diese Informationen sind ganz einfach zu obskur, und sie verändern sich auch schnell.
Ein extremer Fall ist wahrscheinlich die Beschreibung in
diesem Bildpost: Die Sim war zu dem Zeitpunkt erst wenige Tage oder vielleicht ein paar Wochen alt. Ich habe innerhalb der Bildbeschreibung eine sehr detaillierte Beschreibung eines Bildes auf diesem Bild, das nur wenige hundert Pixel groß ist. Ich habe die Sim nicht nur korrekt identifiziert, sondern auch den populärkulturellen Bogen von dieser Sim über Edgar Wallace bis hin zum Frühstyxradio auf ffn und daraus abgeleiteten Kinofilmen geschlagen. Das Objekt zur rechten Seite hin habe ich alleine in etwa 1.000 Zeichen beschrieben und in noch einmal 4.000 Zeichen eingehend erläutert.
Dasselbe Bild habe ich
LLaVA zum Beschreiben angeboten und anschließend die Beschreibung von LLaVA eingehend analysiert. Sie ist
weit von meiner Beschreibung entfernt und davon, akkurat und detailliert zu sein. Dieses besagte Objekt, dem ich über 5.000 Zeichen gewidmet habe, hat LLaVA gänzlich ignoriert.
Mir kann niemand erzählen, ein anderes LLM könnte es wesentlich besser oder sogar noch besser, noch detaillierter, noch informativer, noch kompetenter und noch akkurater als ich.
CC: @
wolf#
Long #
LongPost #
CWLong #
CWLongPost #
LangerPost #
CWLangerPost #
FediMeta #
FediverseMeta #
CWFediMeta #
CWFediverseMeta #
Hubzilla #
Streams #
(streams) #
AltText #
AltTextMeta #
CWAltTextMeta #
Bildbeschreibung #
Bildbeschreibungen #
BildbeschreibungenMeta #
CWBildbeschreibungenMeta #
KI #
LLM #
KIGegenMensch #
MenschGegenKI #
LLaVA