CreatorCaps update: just shipped a small maintenance release focused on stability and a few refinements across the app to keep the caption editing workflow smooth.

If you create captions on iPhone or iPad, give it a try.

#IndieDev #BuildInPublic #iOS #Captioning

Anyone out there know what's up with #aegisub? It was abandoned for years, I was very happy to see development get picked up again last year sometime, but now the website just says "This deployment is temporarily paused". It's the tool I usually recommend for better subtitle editing, but it's hard to recommend something that's disappeared.

Website: https://aegisub.org

#accessibility #a11y #captioning #subtitles #video

Advanced Subtitle Editor

Aegisub is a free, cross-platform open source tool for creating and modifying subtitles. Aegisub makes it quick and easy to time subtitles to audio, and features many powerful tools for styling them, including a built-in real-time video preview.

Aegisub

Brie Wensleydale (@SlipperyGem)

어떤 이미지→텍스트 모델이 작성자에게 있어 Microsoft의 Florence 2를 대체했다고 평가하는 트윗입니다. 또한 해당 모델은 프롬프트 향상(prompt enhancing) 기능도 제공해 다음에 사용해볼 예정이라고 밝혔습니다(멀티모달/이미지 캡셔닝 관련 활용 사례).

https://x.com/SlipperyGem/status/2013289757821067686

#imagetotext #multimodal #florence2 #captioning

Brie Wensleydale🧀🐭 (@SlipperyGem) on X

This is amazing for image to text, basically replaced Florence 2 for a me a while back. Found out that it also has just run-of-the-mill prompt enhancing as well, so I'm gonna give that a roll tomorrow. https://t.co/UqJMx4SFzB

X (formerly Twitter)

I’m actively building an iPad version of CreatorCaps.
Not sure I’ll ship it yet.
Would this fit your captioning workflow?

#indiedev #buildinpublic #captioning #creatortools

Instagram Is Generating Inaccurate SEO Bait for Your Posts

Instagram is generating headlines for Instagram posts that appear on Google Search results. Users say they are misrepresenting them.

404 Media

im like if a professional offline captioner, transcriber, and editor were broke and their comms were open.

i can caption both short- and long-form videos!

catch me on https://ko-fi.com/MelodyWisp/commissions, https://Vgen.co/melodywisp, and via e-mail at [email protected]

Proofreading: $1.50 per audio minute
Closed Captioning: $2 per A/M
Open Captioning: $2.50 per A/M

Please boost when you see this! And refer me to others! Thanks!

#CommsOpen #Captioning #Stenography
#Accessibility #youtube

Melody Wisp (vTuber/Captioner)'s Commissions

Commissions Open! Click to see Melody Wisp (vTuber/Captioner)'s commission menu.

Ko-fi

@ZenHeathen
Totally agree - and I found a free tool that makes it easy to do the fancy captions - Aegisub.

Here's a quick tutorial: https://idwerkz.com/blog/accessibility/editing-subtitles-with-aegisub/

#captioning #subtitles #aegisub

Editing Subtitles with Aegisub – IDWerdz

At DjangoCon US 2025 in Chicago, more than one person shared the workflow of dictating their articles or slide notes to a template using mobile apps 🎙️

I was experimenting with https://huggingface.co/Mozilla/whisperfile, and it seems to work well on my PC 🔴

It occurred to me that it could be used to add live captioning to meetups or small conferences that can't afford live captioners as good as the one we had at DjangoCon 💡

Have any of you done any experiments?

#Captioning #Conference #Whisper #llamafile

Mozilla/whisperfile · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Как рёбра графа 3D-сцены помогают LLM отвечать на вопросы?

Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и младший научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Областью моих научных интересов является компьютерное зрение для робототехники. Я изучаю, в частности, то, каким образом робот может использовать различные модальности (текст, 3D‑облака точек) для лучшего понимания 3D‑сцены. Сегодня мы поговорим о понимании 3D‑сцены в контексте задач, где требуется одновременно и трёхмерное компьютерное зрение, и обработка естественного языка, а также о том, как представление 3D‑сцены в виде графа с рёбрами помогает в их решении. Главной особенностью графового представления 3D‑сцены является его компактность, поэтому граф можно использовать для сжатого описания 3D‑сцены, подающегося на вход в LLM. Это позволяет получать качественные ответы на вопросы о 3D‑сцене до 5 раз быстрее по сравнению с методами, использующими последовательности изображений для LVLM. Это мы показали вместе с моим научным руководителем Дмитрием Юдиным в недавней работе 3DGraphLLM: Сombining Semantic Graphs and Large Language Models for 3D Scene Understanding , принятой на ведущую конференцию по компьютерному зрению ICCV 2025. Мы предоставляем открытый исходный код метода 3DGraphLLM с инструкциями по запуску, а также публикуем предварительно обученные веса модели на Hugging Face . Это позволяет каждому желающему легко воспроизвести результаты и опробовать все описанные методы на собственных данных. Здесь же хочется подробнее рассказать о новом методе и пути, по которому мы к нему пришли.

https://habr.com/ru/companies/airi/articles/926076/

#графы #llmмодели #scene_understanding #graphs #question_answering #detection #captioning #детекция_объектов

Как рёбра графа 3D-сцены помогают LLM отвечать на вопросы?

Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и младший научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Областью моих научных интересов является...

Хабр