@Woochancho @Diego Martínez (Kaeza) 🇺🇾 @🅰🅻🅸🅲🅴  (🌈🦄) Especially whenever humans have advantages over LLMs.

When I describe my own original images, I have two advantages.

One, I know much more about the contents of the image than any AI. That's because my original images always show something from extremely obscure 3-D virtual worlds. On top of that, I may add some extra insider knowledge or explain pop-cultural references in the long description in the post if it helps understand the image and its descriptions.

Two, the LLM can only look at the image with its limited resolution. That's all it has. In contrast, when I describe my images, I don't just look at the images. I look at the real deal in-world with a nearly infinite resolution.

For example, an LLM can only generate a description from a picture of a virtual building. But when I describe it, my avatar is in-world, standing right in front of the building whose picture I'm describing. I can move the avatar around, I can move the camera around, I can zoom in on anything. I can correctly identify that four-pixel blob as a strawberry cocktail wheras the LLM doesn't even notice it's there.

I've actually done two tests using LLaVA. I've fed it two images I had described myself previously to see what happens. It was abysmal. LLaVA hallucinated, it interpreted stuff wrongly and so forth, not to mention that LLaVA's description, even after being prompted to write a detailed description, wasn't nearly as detailed as mine.

In one image, there's an OpenSimWorld beacon placed rather prominently in the scenery. LLaVA completely ignored it. I described what it looks like in about 1,000 characters, and then I explained what it is, what OpenSimWorld is and how it works in another 4,000 characters or so.

It's an illusion that AI will soon catch up with any of this.

Oh, by the way: How is an AI supposed to pinpoint exactly where an image was made if the image shows a place of which multiple absolutely identical copies exist? Or if the image has a neutral background that doesn't even hint at where it was made? I can do that with no problem because I remember where I've made the image.

#Long #LongPost #CWLong #CWLongPost #AltText #AltTextMeta #CWAltTextMeta #ImageDescription #ImageDescriptions #ImageDescriptionMeta #CWImageDescriptionMeta #AI #LLaVA #AIVsHuman #HumanVsAI
Netzgemeinde/Hubzilla

RTX 3090 + 64GB RAM có đủ mạnh để chạy mô hình LLM 34B như LLaVA-Next (Q4_K_M) và dùng đa nhiệm hàng ngày? Cấu hình: Ryzen 5 5600X, 24GB VRAM, SSD 980 Pro 1TB. Dự định dùng cho inference, xử lý hình ảnh + văn bản, tự động hóa Home Assistant. Có cần chuyển GPU giữa các tác vụ? Có lo ngại về VRAM khi dùng desktop bình thường? #LocalLLM #AIInference #LLaVA #AI #MultimodalAI #MôHìnhNgônNgữ #TríTuệNhânTạo #HệThốngLocalAI

https://www.reddit.com/r/LocalLLaMA/comments/1q5y8qd/advice_rtx_3090_64gb_ram_f

RTX 3090 + 64GB RAM có đủ mạnh để chạy LLM 34B như LLaVA-Next (Q4_K_M) không? Cấu hình Ryzen 5 5600X + 24GB VRAM phù hợp cho suy luận cục bộ, xử lý hình ảnh + văn bản, tự động hóa Home Assistant. GPU có thể tạm ngừng để chơi game rồi tải lại. Không có vấn đề lớn với VRAM khi sử dụng máy tính thông thường. Lưu ý: CPU có thể là điểm nghẽn nhẹ. #LocalLLM #AIInference #LLaVA #AI #MáyTínhAI #HọcMáy #TríTuệNhânTạo

https://www.reddit.com/r/LocalLLaMA/comments/1q5y8qd/advice_rtx_3090_64gb_ram_for_local

@iolaire This is my personal analysis of the AI-generated image description, quote-posted from my original comment in the thread linked in my first comment:

RE: https://hub.netzgemeinde.eu/display/451d2f06-7746-4227-a043-76a959420c29

(6/6)

#Long #LongPost #CWLong #CWLongPost #QuotePost #QuoteTweet #QuoteToot #QuoteBoost #ImageDescription #ImageDescriptions #ImageDescriptionMeta #CWImageDescriptionMeta #AI #LLaVA #AIVsHuman #HumanVsAI
Universal Campus: The mother of all mega-regions -

@iolaire After I have written the long description, distilled the short description from it and posted the image with both, I have asked a LLM AI for a description.

The AI of my choice was LLaVA 1.6: https://llava.hliu.cc/

The prompt was, "Describe the image in detail."

LLaVA took about half a minute to generate this image description:

The image depicts a modern architectural structure with a distinctive design. The building features a large, curved roof that appears to be made of a reflective material, possibly glass or polished metal. The roof is supported by several tall, slender columns that are evenly spaced and rise from the ground to the roof's edge. The structure has a circular emblem on the front, which includes a stylized letter 'M' and a series of concentric circles, suggesting it might be a logo or emblem of some sort.

The building is situated on a landscaped area with a well-maintained lawn and a few trees. There is a paved walkway leading up to the entrance of the building, which is not visible in the image. The sky is clear with a few scattered clouds, indicating fair weather conditions. The overall style of the image is a digital rendering or a photograph of a 3D model, as indicated by the smooth surfaces and the absence of any visible texture or imperfections that would be present in a real-world photograph. There are no visible texts or brands that provide additional context about the building's purpose or location.

(5/6)

#Long #LongPost #CWLong #CWLongPost #ImageDescription #ImageDescriptions #ImageDescriptionMeta #CWImageDescriptionMeta #AI #LLaVA #AIVsHuman #HumanVsAI
LLaVA

Разбираю свой фотоархив

Сделал поиск по личному архиву фотографий с применением трех нейросетей, векторного расширения к PostgreSQL и Django

https://habr.com/ru/articles/963874/

#python #django #torch #pgvector #transformers #gigaembeddings #mistral #llava

Разбираю свой фотоархив

TL;DR: Сделал поиск по личному архиву фотографий с применением трех нейросетей, векторного расширения к PostgreSQL и Django. Красивое. Начиная с перехода на цифру у меня накопилось больше 20 тысяч...

Хабр
@Ralf S. Wohlgemerkt, der Hintergrund ist nicht Bildanalyse oder Bildinterpretation.

Der Hintergrund ist vielmehr Barrierefreiheit, wie sie auf Mastodon gefordert wird. Ich bin selbst nicht auf Mastodon, wie du sicherlich schon erkannt haben dürftest. Aber wenn meine Bildposts nach Mastodon kommen, und das tun sie, dann müssen sie schon deshalb barrierefrei sein, weil mich das ansonsten noch mehr Reichweite kosten würde als sowieso schon.

Nun bin ich allerdings niemand, der einfach nur das absolut nötige Minimum anstrebt. Statt dessen habe ich mich eingehend mit dem Thema Bildbeschreibungen und Alt-Text befaßt. Es gibt dazu ja sehr viele Publikationen online; etliche habe ich zusammengefaßt in meinem im Aufbau befindlichen Wiki zum Thema auf meinem Hubzilla-Kanal.

Allerdings gehen die nicht auf die tatsächlichen Verhältnisse im Fediverse ein, weder auf Mastodons ganz spezielle Kultur, die es versucht, dem ganzen übrigen Fediverse aufzuzwingen, noch auf die besonderen Wünsche zumindest einiger Mastodon-Nutzer noch auf die technischen Möglichkeiten im Fediverse außerhalb von Mastodon, z. B. Posts quasi ohne Zeichenlimit.

So mußte ich zusätzlich wachsamen Auges beobachten, was insbesondere auf Mastodon passiert in puncto Alt-Texte und Bildbeschreibungen. Ich würde gern im größeren Rahmen mit möglichst vielen Angehörigen verschiedener Nutzergruppen gleichzeitig über das Thema diskutieren. Aber alle Personen, mit denen darüber zu diskutieren sinnvoll wären, sind nur auf Mastodon. Mastodon ist technisch für diese Art von Diskussion völlig ungeeignet. Und im Fediverse außerhalb von Mastodon, wo es die technischen Voraussetzungen für solche Diskussionen gäbe (Friendica, Hubzilla, (streams), Forte, Lemmy, Mbin, PieFed, NodeBB etc.), ist das Thema praktisch unbekannt.

Selbst wenn ich einfach so "in den Äther" rufe, wie es auf Mastodon üblich ist, weil es da gar nicht anders geht, kommt nichts dabei heraus. Als Nicht-Mastodon-Nutzer habe ich kurioserweise mit ca. über 700 Folgeverbindungen weitaus weniger Reichweite als so manch ein Mastodon-Nutzer mit 300 Folgenden. Abstimmungen bringen auch nichts; häufig stimmen bei mir weniger Leute ab, als ich Optionen angegeben habe.

Also muß ich beim Beschreiben meiner Bilder von sechs Annahmen ausgehen, die ich in diesem bisher komplett ignorierten Post schon dargelegt habe:

  • Mein Publikum besteht nicht nur aus denen, die mir folgen, sondern das sind alle, die theoretisch meine Posts sehen können.
  • Wenn ich erwähne, daß es auf einem meiner Bilder etwas gibt, dann muß ich auch beschreiben, wie es aussieht.
  • Bildbeschreibungen müssen sofort alle Informationen liefern, die vielleicht irgendjemand da draußen brauchen könnte. Nach einem Detail in einem Bild oder einer Erklärung für ein Bild zu fragen, ist genauso schlimm, wie überhaupt erst nach einem Alt-Text zu fragen.
  • Irgendjemand da draußen ist möglicherweise auch an kleinsten Details auf meinen Bildern interessiert. Und der- oder diejenige ist möglicherweise blind oder sehbehindert.
  • Alles, was es an Text innerhalb der Grenzen eines Bildes gibt, muß immer 100% wortwörtlich transkribiert werden. Auch wenn der Text unlesbar ist oder so klein ist, daß er unsichtbar ist. Wenn ich weiß, was da geschrieben steht, dann muß ich es transkribieren.
  • Alle Bilder brauchen einen akkuraten und hinreichend detaillierten tatsächlichen Alt-Text. Auch wenn ich ein Bild in 60.000 Zeichen im Post selbst beschreibe, kann ich dafür sanktioniert werden, daß das Bild selbst keinen akkuraten und hinreichend detaillierten Alt-Text hat. Also brauche ich den zusätzlich. Ich muß meine eigenen Bilder jeweils zweimal beschreiben.

  • Im übrigen kann ein LLM nicht annähernd das, was ich tue. Und das weiß ich aus eigener praktischer Erfahrung: Ich habe zwei mal LLaVA damit beauftragt, ein Bild zu beschreiben, das ich schon beschrieben habe.

    Das fängt schon damit an, daß keine KI auf dem Bild selbst Details sehen kann, die ich sehen kann, wenn ich vor Ort bin. Die KI würde ja das Bild beschreiben, indem sie sich das Bild von diesem Ort ansieht. Ich beschreibe meine Bilder, indem ich mir den Ort selbst vor Ort ansehe, also eben gerade nicht das Bild mit seiner stark reduzierten Auflösung. Eine KI kann das nicht.

    Dann gehört zum akkuraten Beschreiben und vor allem Erklären dieser Bilder extrem obskures Nischenwissen. Keine KI könnte bei der visuellen Analyse eines meiner Bilder erkennen und erklären, was das für ein Ort ist, wie die Sim heißt, in welchem Grid sie sich befindet, daß das Ganze auf OpenSim basiert usw. usf. Schon gar nicht können das alle KIs. Diese Informationen sind ganz einfach zu obskur, und sie verändern sich auch schnell.

    Ein extremer Fall ist wahrscheinlich die Beschreibung in diesem Bildpost: Die Sim war zu dem Zeitpunkt erst wenige Tage oder vielleicht ein paar Wochen alt. Ich habe innerhalb der Bildbeschreibung eine sehr detaillierte Beschreibung eines Bildes auf diesem Bild, das nur wenige hundert Pixel groß ist. Ich habe die Sim nicht nur korrekt identifiziert, sondern auch den populärkulturellen Bogen von dieser Sim über Edgar Wallace bis hin zum Frühstyxradio auf ffn und daraus abgeleiteten Kinofilmen geschlagen. Das Objekt zur rechten Seite hin habe ich alleine in etwa 1.000 Zeichen beschrieben und in noch einmal 4.000 Zeichen eingehend erläutert.

    Dasselbe Bild habe ich LLaVA zum Beschreiben angeboten und anschließend die Beschreibung von LLaVA eingehend analysiert. Sie ist weit von meiner Beschreibung entfernt und davon, akkurat und detailliert zu sein. Dieses besagte Objekt, dem ich über 5.000 Zeichen gewidmet habe, hat LLaVA gänzlich ignoriert.

    Mir kann niemand erzählen, ein anderes LLM könnte es wesentlich besser oder sogar noch besser, noch detaillierter, noch informativer, noch kompetenter und noch akkurater als ich.

    CC: @wolf

    #Long #LongPost #CWLong #CWLongPost #LangerPost #CWLangerPost #FediMeta #FediverseMeta #CWFediMeta #CWFediverseMeta #Hubzilla #Streams #(streams) #AltText #AltTextMeta #CWAltTextMeta #Bildbeschreibung #Bildbeschreibungen #BildbeschreibungenMeta #CWBildbeschreibungenMeta #KI #LLM #KIGegenMensch #MenschGegenKI #LLaVA
    Jupiter Rowland - [email protected]

    Major update to my photography workflow. From folder to gallery in one flow.
    • Multi Set lets me queue many subjects in one go
    • Review slider makes approvals fast and consistent
    • LLaVA prefill drafts captions and keywords locally
    The result is fewer restarts, faster reviews and cleaner metadata.
    Full post with screenshots → https://www.amir2000.nl/blog/From-folder-to-gallery-in-one-flow

    #CanonR5MarkII #AMIR2000NLPhotography #Photography #Automation #Workflow #Ollama #LLaVA #Python

    @mast4sc Danke, coding mache ich nicht so viel (wenn, in #Cursor ) und #Llava kannte ich noch nicht 🤗