Mastodawn

RTX 3090 + 64GB RAM có đủ mạnh để chạy mô hình LLM 34B như LLaVA-Next (Q4_K_M) và dùng đa nhiệm hàng ngày? Cấu hình: Ryzen 5 5600X, 24GB VRAM, SSD 980 Pro 1TB. Dự định dùng cho inference, xử lý hình ảnh + văn bản, tự động hóa Home Assistant. Có cần chuyển GPU giữa các tác vụ? Có lo ngại về VRAM khi dùng desktop bình thường? #LocalLLM #AIInference #LLaVA #AI #MultimodalAI #MôHìnhNgônNgữ #TríTuệNhânTạo #HệThốngLocalAI

https://www.reddit.com/r/LocalLLaMA/comments/1q5y8qd/advice_rtx_3090_64gb_ram_f

Reddit Tech VN Bot Jan 6

RTX 3090 + 64GB RAM có đủ mạnh để chạy LLM 34B như LLaVA-Next (Q4_K_M) không? Cấu hình Ryzen 5 5600X + 24GB VRAM phù hợp cho suy luận cục bộ, xử lý hình ảnh + văn bản, tự động hóa Home Assistant. GPU có thể tạm ngừng để chơi game rồi tải lại. Không có vấn đề lớn với VRAM khi sử dụng máy tính thông thường. Lưu ý: CPU có thể là điểm nghẽn nhẹ. #LocalLLM #AIInference #LLaVA #AI #MáyTínhAI #HọcMáy #TríTuệNhânTạo

https://www.reddit.com/r/LocalLLaMA/comments/1q5y8qd/advice_rtx_3090_64gb_ram_for_local

Pivot to AI Dec 22

AI image generators have just 12 generic templates

https://fed.brid.gy/r/https://pivot-to-ai.com/2025/12/22/ai-image-generators-have-just-12-generic-templates/

Show thread

Jupiter Rowland Jan 2

@iolaire This is my personal analysis of the AI-generated image description, quote-posted from my original comment in the thread linked in my first comment:

RE: https://hub.netzgemeinde.eu/display/451d2f06-7746-4227-a043-76a959420c29

(6/6)

#Long #LongPost #CWLong #CWLongPost #QuotePost #QuoteTweet #QuoteToot #QuoteBoost #ImageDescription #ImageDescriptions #ImageDescriptionMeta #CWImageDescriptionMeta #AI #LLaVA #AIVsHuman #HumanVsAI

Universal Campus: The mother of all mega-regions -

Show thread

Jupiter Rowland Jan 2

@iolaire After I have written the long description, distilled the short description from it and posted the image with both, I have asked a LLM AI for a description.

The AI of my choice was LLaVA 1.6: https://llava.hliu.cc/

The prompt was, "Describe the image in detail."

LLaVA took about half a minute to generate this image description:

The image depicts a modern architectural structure with a distinctive design. The building features a large, curved roof that appears to be made of a reflective material, possibly glass or polished metal. The roof is supported by several tall, slender columns that are evenly spaced and rise from the ground to the roof's edge. The structure has a circular emblem on the front, which includes a stylized letter 'M' and a series of concentric circles, suggesting it might be a logo or emblem of some sort.

The building is situated on a landscaped area with a well-maintained lawn and a few trees. There is a paved walkway leading up to the entrance of the building, which is not visible in the image. The sky is clear with a few scattered clouds, indicating fair weather conditions. The overall style of the image is a digital rendering or a photograph of a 3D model, as indicated by the smooth surfaces and the absence of any visible texture or imperfections that would be present in a real-world photograph. There are no visible texts or brands that provide additional context about the building's purpose or location.

(5/6)

#Long #LongPost #CWLong #CWLongPost #ImageDescription #ImageDescriptions #ImageDescriptionMeta #CWImageDescriptionMeta #AI #LLaVA #AIVsHuman #HumanVsAI

LLaVA

Habr Nov 10

Разбираю свой фотоархив

Сделал поиск по личному архиву фотографий с применением трех нейросетей, векторного расширения к PostgreSQL и Django

https://habr.com/ru/articles/963874/

#python #django #torch #pgvector #transformers #gigaembeddings #mistral #llava

Разбираю свой фотоархив

TL;DR: Сделал поиск по личному архиву фотографий с применением трех нейросетей, векторного расширения к PostgreSQL и Django. Красивое. Начиная с перехода на цифру у меня накопилось больше 20 тысяч...

Хабр

Show thread

Jupiter Rowland Oct 31

@Ralf S. Wohlgemerkt, der Hintergrund ist nicht Bildanalyse oder Bildinterpretation.

Der Hintergrund ist vielmehr Barrierefreiheit, wie sie auf Mastodon gefordert wird. Ich bin selbst nicht auf Mastodon, wie du sicherlich schon erkannt haben dürftest. Aber wenn meine Bildposts nach Mastodon kommen, und das tun sie, dann müssen sie schon deshalb barrierefrei sein, weil mich das ansonsten noch mehr Reichweite kosten würde als sowieso schon.

Nun bin ich allerdings niemand, der einfach nur das absolut nötige Minimum anstrebt. Statt dessen habe ich mich eingehend mit dem Thema Bildbeschreibungen und Alt-Text befaßt. Es gibt dazu ja sehr viele Publikationen online; etliche habe ich zusammengefaßt in meinem im Aufbau befindlichen Wiki zum Thema auf meinem Hubzilla-Kanal.

Allerdings gehen die nicht auf die tatsächlichen Verhältnisse im Fediverse ein, weder auf Mastodons ganz spezielle Kultur, die es versucht, dem ganzen übrigen Fediverse aufzuzwingen, noch auf die besonderen Wünsche zumindest einiger Mastodon-Nutzer noch auf die technischen Möglichkeiten im Fediverse außerhalb von Mastodon, z. B. Posts quasi ohne Zeichenlimit.

So mußte ich zusätzlich wachsamen Auges beobachten, was insbesondere auf Mastodon passiert in puncto Alt-Texte und Bildbeschreibungen. Ich würde gern im größeren Rahmen mit möglichst vielen Angehörigen verschiedener Nutzergruppen gleichzeitig über das Thema diskutieren. Aber alle Personen, mit denen darüber zu diskutieren sinnvoll wären, sind nur auf Mastodon. Mastodon ist technisch für diese Art von Diskussion völlig ungeeignet. Und im Fediverse außerhalb von Mastodon, wo es die technischen Voraussetzungen für solche Diskussionen gäbe (Friendica, Hubzilla, (streams), Forte, Lemmy, Mbin, PieFed, NodeBB etc.), ist das Thema praktisch unbekannt.

Selbst wenn ich einfach so "in den Äther" rufe, wie es auf Mastodon üblich ist, weil es da gar nicht anders geht, kommt nichts dabei heraus. Als Nicht-Mastodon-Nutzer habe ich kurioserweise mit ca. über 700 Folgeverbindungen weitaus weniger Reichweite als so manch ein Mastodon-Nutzer mit 300 Folgenden. Abstimmungen bringen auch nichts; häufig stimmen bei mir weniger Leute ab, als ich Optionen angegeben habe.

Also muß ich beim Beschreiben meiner Bilder von sechs Annahmen ausgehen, die ich in diesem bisher komplett ignorierten Post schon dargelegt habe:

Mein Publikum besteht nicht nur aus denen, die mir folgen, sondern das sind alle, die theoretisch meine Posts sehen können.

Wenn ich erwähne, daß es auf einem meiner Bilder etwas gibt, dann muß ich auch beschreiben, wie es aussieht.

Bildbeschreibungen müssen sofort alle Informationen liefern, die vielleicht irgendjemand da draußen brauchen könnte. Nach einem Detail in einem Bild oder einer Erklärung für ein Bild zu fragen, ist genauso schlimm, wie überhaupt erst nach einem Alt-Text zu fragen.

Irgendjemand da draußen ist möglicherweise auch an kleinsten Details auf meinen Bildern interessiert. Und der- oder diejenige ist möglicherweise blind oder sehbehindert.

Alles, was es an Text innerhalb der Grenzen eines Bildes gibt, muß immer 100% wortwörtlich transkribiert werden. Auch wenn der Text unlesbar ist oder so klein ist, daß er unsichtbar ist. Wenn ich weiß, was da geschrieben steht, dann muß ich es transkribieren.

Alle Bilder brauchen einen akkuraten und hinreichend detaillierten tatsächlichen Alt-Text. Auch wenn ich ein Bild in 60.000 Zeichen im Post selbst beschreibe, kann ich dafür sanktioniert werden, daß das Bild selbst keinen akkuraten und hinreichend detaillierten Alt-Text hat. Also brauche ich den zusätzlich. Ich muß meine eigenen Bilder jeweils zweimal beschreiben.

Im übrigen kann ein LLM nicht annähernd das, was ich tue. Und das weiß ich aus eigener praktischer Erfahrung: Ich habe zwei mal LLaVA damit beauftragt, ein Bild zu beschreiben, das ich schon beschrieben habe.

Das fängt schon damit an, daß keine KI auf dem Bild selbst Details sehen kann, die ich sehen kann, wenn ich vor Ort bin. Die KI würde ja das Bild beschreiben, indem sie sich das Bild von diesem Ort ansieht. Ich beschreibe meine Bilder, indem ich mir den Ort selbst vor Ort ansehe, also eben gerade nicht das Bild mit seiner stark reduzierten Auflösung. Eine KI kann das nicht.

Dann gehört zum akkuraten Beschreiben und vor allem Erklären dieser Bilder extrem obskures Nischenwissen. Keine KI könnte bei der visuellen Analyse eines meiner Bilder erkennen und erklären, was das für ein Ort ist, wie die Sim heißt, in welchem Grid sie sich befindet, daß das Ganze auf OpenSim basiert usw. usf. Schon gar nicht können das alle KIs. Diese Informationen sind ganz einfach zu obskur, und sie verändern sich auch schnell.

Ein extremer Fall ist wahrscheinlich die Beschreibung in diesem Bildpost: Die Sim war zu dem Zeitpunkt erst wenige Tage oder vielleicht ein paar Wochen alt. Ich habe innerhalb der Bildbeschreibung eine sehr detaillierte Beschreibung eines Bildes auf diesem Bild, das nur wenige hundert Pixel groß ist. Ich habe die Sim nicht nur korrekt identifiziert, sondern auch den populärkulturellen Bogen von dieser Sim über Edgar Wallace bis hin zum Frühstyxradio auf ffn und daraus abgeleiteten Kinofilmen geschlagen. Das Objekt zur rechten Seite hin habe ich alleine in etwa 1.000 Zeichen beschrieben und in noch einmal 4.000 Zeichen eingehend erläutert.

Dasselbe Bild habe ich LLaVA zum Beschreiben angeboten und anschließend die Beschreibung von LLaVA eingehend analysiert. Sie ist weit von meiner Beschreibung entfernt und davon, akkurat und detailliert zu sein. Dieses besagte Objekt, dem ich über 5.000 Zeichen gewidmet habe, hat LLaVA gänzlich ignoriert.

Mir kann niemand erzählen, ein anderes LLM könnte es wesentlich besser oder sogar noch besser, noch detaillierter, noch informativer, noch kompetenter und noch akkurater als ich.

CC: @wolf

#Long #LongPost #CWLong #CWLongPost #LangerPost #CWLangerPost #FediMeta #FediverseMeta #CWFediMeta #CWFediverseMeta #Hubzilla #Streams #(streams) #AltText #AltTextMeta #CWAltTextMeta #Bildbeschreibung #Bildbeschreibungen #BildbeschreibungenMeta #CWBildbeschreibungenMeta #KI #LLM #KIGegenMensch #MenschGegenKI #LLaVA

Jupiter Rowland - [email protected]

amir2000.nl 🇮🇱Aug 19, 2025

Major update to my photography workflow. From folder to gallery in one flow.
• Multi Set lets me queue many subjects in one go
• Review slider makes approvals fast and consistent
• LLaVA prefill drafts captions and keywords locally
The result is fewer restarts, faster reviews and cleaner metadata.
Full post with screenshots → https://www.amir2000.nl/blog/From-folder-to-gallery-in-one-flow

#CanonR5MarkII #AMIR2000NLPhotography #Photography #Automation #Workflow #Ollama #LLaVA #Python

Show thread

Simon Dückert Jul 29, 2025

@mast4sc Danke, coding mache ich nicht so viel (wenn, in #Cursor ) und #Llava kannte ich noch nicht 🤗

Agnieszka Serafinowicz Jul 16, 2025

Nowe badanie Apple: AI, która rozumie interfejsy aplikacji jak człowiek

Naukowcy z Apple, we współpracy z fińskim Uniwersytetem Aalto, zaprezentowali nowy model sztucznej inteligencji o nazwie ILuvUI.

Jest to model wizualno-językowy (VLM), który został specjalnie wytrenowany, aby rozumieć i logicznie analizować interfejsy użytkownika (UI) aplikacji mobilnych na podstawie zrzutów ekranu i rozmów w języku naturalnym. W testach porównawczych nowy model okazał się lepszy od otwartego oprogramowania, na którym bazował.

Większość obecnych modeli wizualno-językowych jest trenowana na tzw. obrazach naturalnych, takich jak zdjęcia psów czy znaków drogowych. W rezultacie radzą sobie one znacznie gorzej, gdy mają do czynienia ze zorganizowanymi środowiskami, jakimi są interfejsy aplikacji. Jak wyjaśniają badacze, samo analizowanie tekstu w UI nie wystarcza, ponieważ pomija bogatą informację wizualną, a to właśnie połączenie obu tych warstw jest kluczowe dla pełnego zrozumienia kontekstu, podobnie jak u ludzi.

Aby rozwiązać ten problem, zespół naukowców wziął istniejący, otwarty model VLM o nazwie LLaVA i dostroił go specjalnie do analizy interfejsów użytkownika. Kluczowe było wytrenowanie go na syntetycznie wygenerowanym zbiorze danych, który zawierał pary obrazów (zrzutów ekranu) i powiązanych z nimi tekstów. W skład tego zbioru wchodziły m.in. interakcje w formie pytań i odpowiedzi, szczegółowe opisy ekranów, przewidywane wyniki działań, a nawet wieloetapowe plany (np. „jak posłuchać najnowszego odcinka podcastu” lub „jak zmienić ustawienia jasności”). Co istotne, ILuvUI potrafi analizować cały ekran na podstawie prostej komendy tekstowej, bez potrzeby wskazywania przez użytkownika konkretnego obszaru zainteresowania.

Według badaczy Apple, ich podejście może okazać się niezwykle przydatne w dwóch głównych obszarach: dostępności (ułatwienia dostępu dla osób z niepełnosprawnościami) oraz zautomatyzowanego testowania interfejsów aplikacji. W przyszłości prace mogą objąć wykorzystanie większych koderów obrazu i obsługę wyższych rozdzielczości, a także generowanie wyników w formatach (np. JSON), które będą mogły płynnie współpracować z istniejącymi frameworkami UI.

#AI #Apple #badaniaNaukowe #dostępność #ILuvUI #interfejsUżytkownika #LLaVA #news #sztucznaInteligencja #uczenieMaszynowe #UI