Brie Wensleydale (@SlipperyGem)

어떤 이미지→텍스트 모델이 작성자에게 있어 Microsoft의 Florence 2를 대체했다고 평가하는 트윗입니다. 또한 해당 모델은 프롬프트 향상(prompt enhancing) 기능도 제공해 다음에 사용해볼 예정이라고 밝혔습니다(멀티모달/이미지 캡셔닝 관련 활용 사례).

https://x.com/SlipperyGem/status/2013289757821067686

#imagetotext #multimodal #florence2 #captioning

Brie Wensleydale🧀🐭 (@SlipperyGem) on X

This is amazing for image to text, basically replaced Florence 2 for a me a while back. Found out that it also has just run-of-the-mill prompt enhancing as well, so I'm gonna give that a roll tomorrow. https://t.co/UqJMx4SFzB

X (formerly Twitter)

I’m actively building an iPad version of CreatorCaps.
Not sure I’ll ship it yet.
Would this fit your captioning workflow?

#indiedev #buildinpublic #captioning #creatortools

Instagram Is Generating Inaccurate SEO Bait for Your Posts

Instagram is generating headlines for Instagram posts that appear on Google Search results. Users say they are misrepresenting them.

404 Media

im like if a professional offline captioner, transcriber, and editor were broke and their comms were open.

i can caption both short- and long-form videos!

catch me on https://ko-fi.com/MelodyWisp/commissions, https://Vgen.co/melodywisp, and via e-mail at melody.wispen@gmail.com

Proofreading: $1.50 per audio minute
Closed Captioning: $2 per A/M
Open Captioning: $2.50 per A/M

Please boost when you see this! And refer me to others! Thanks!

#CommsOpen #Captioning #Stenography
#Accessibility #youtube

Melody Wisp (vTuber/Captioner)'s Commissions

Commissions Open! Click to see Melody Wisp (vTuber/Captioner)'s commission menu.

Ko-fi

@ZenHeathen
Totally agree - and I found a free tool that makes it easy to do the fancy captions - Aegisub.

Here's a quick tutorial: https://idwerkz.com/blog/accessibility/editing-subtitles-with-aegisub/

#captioning #subtitles #aegisub

Editing Subtitles with Aegisub – IDWerdz

At DjangoCon US 2025 in Chicago, more than one person shared the workflow of dictating their articles or slide notes to a template using mobile apps 🎙️

I was experimenting with https://huggingface.co/Mozilla/whisperfile, and it seems to work well on my PC 🔴

It occurred to me that it could be used to add live captioning to meetups or small conferences that can't afford live captioners as good as the one we had at DjangoCon 💡

Have any of you done any experiments?

#Captioning #Conference #Whisper #llamafile

Mozilla/whisperfile · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Как рёбра графа 3D-сцены помогают LLM отвечать на вопросы?

Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и младший научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Областью моих научных интересов является компьютерное зрение для робототехники. Я изучаю, в частности, то, каким образом робот может использовать различные модальности (текст, 3D‑облака точек) для лучшего понимания 3D‑сцены. Сегодня мы поговорим о понимании 3D‑сцены в контексте задач, где требуется одновременно и трёхмерное компьютерное зрение, и обработка естественного языка, а также о том, как представление 3D‑сцены в виде графа с рёбрами помогает в их решении. Главной особенностью графового представления 3D‑сцены является его компактность, поэтому граф можно использовать для сжатого описания 3D‑сцены, подающегося на вход в LLM. Это позволяет получать качественные ответы на вопросы о 3D‑сцене до 5 раз быстрее по сравнению с методами, использующими последовательности изображений для LVLM. Это мы показали вместе с моим научным руководителем Дмитрием Юдиным в недавней работе 3DGraphLLM: Сombining Semantic Graphs and Large Language Models for 3D Scene Understanding , принятой на ведущую конференцию по компьютерному зрению ICCV 2025. Мы предоставляем открытый исходный код метода 3DGraphLLM с инструкциями по запуску, а также публикуем предварительно обученные веса модели на Hugging Face . Это позволяет каждому желающему легко воспроизвести результаты и опробовать все описанные методы на собственных данных. Здесь же хочется подробнее рассказать о новом методе и пути, по которому мы к нему пришли.

https://habr.com/ru/companies/airi/articles/926076/

#графы #llmмодели #scene_understanding #graphs #question_answering #detection #captioning #детекция_объектов

Как рёбра графа 3D-сцены помогают LLM отвечать на вопросы?

Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и младший научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Областью моих научных интересов является...

Хабр

Annotating Arcane Screenshots using Azure OpenAI, The Hard Way

To make a long story short, Arcane ended yesterday, and during some idle browsing I came across a pretty amazing set of wallpapers that someone generated by taking 4K frames and up(...)

#aiohttp #arcane #azure #captioning #classification #gpt4o #image #labeling #openai #python #rest #tagging

https://taoofmac.com/space/notes/2024/11/24/1520

Annotating Arcane Screenshots using Azure OpenAI, The Hard Way

To make a long story short, Arcane ended yesterday, and during some idle browsing I came across a pretty amazing set of wallpapers that some...

Tao of Mac

“Classically it would be a visualisation, where people see subtitles in their mind’s eye, but there is a lot of variation in how this appears”

Mark Price,
professor in psychology
University of Bergen

.. joskus sitä saattais tarvita tuollaista tekstitystä ihan normaali-ihminenkin vuorovaikutustilanteissa

- https://www.theguardian.com/science/2024/nov/02/ticker-tape-synaesthesia-when-real-life-comes-with-subtitles

#synaesthesia
#Captioning #Subtitling

Ticker-tape synaesthesia – when real life comes with subtitles

A rare variation of the phenomenon in which people’s senses are intermingled involves the mind’s eye seeing speech in captions. Scientists believe the condition arises from excessive neural connectivity and stimulation

The Guardian
How To Caption Videos In Different Languages: Learn How with Kamala Harris’ Border Speech
https://thedemlabs.org/2024/09/28/how-to-caption-videos-in-different-languages-learn-how-with-kamala-harris-border-speech/
#captioning
How to caption your video in different languages

Caption your videos with AI to reach more people. It's fast and easy.

The Democracy Labs