Brie Wensleydale (@SlipperyGem)
어떤 이미지→텍스트 모델이 작성자에게 있어 Microsoft의 Florence 2를 대체했다고 평가하는 트윗입니다. 또한 해당 모델은 프롬프트 향상(prompt enhancing) 기능도 제공해 다음에 사용해볼 예정이라고 밝혔습니다(멀티모달/이미지 캡셔닝 관련 활용 사례).
Brie Wensleydale (@SlipperyGem)
어떤 이미지→텍스트 모델이 작성자에게 있어 Microsoft의 Florence 2를 대체했다고 평가하는 트윗입니다. 또한 해당 모델은 프롬프트 향상(prompt enhancing) 기능도 제공해 다음에 사용해볼 예정이라고 밝혔습니다(멀티모달/이미지 캡셔닝 관련 활용 사례).
Frog: Extract text from any image, video, QR Code and etc.
https://github.com/tenderowl/frog
Ótimo app que extrai texto de imagens, como prints.
Está quebrando um galhão para pegar questões de simulados que estão em vídeos ou PDFs sem texto selecionável.
Janus Pro от DeepSeek: стоит ли она внимания? Сравнение генерации и объяснений с Dalle-3 и SD3
Появились первые тесты новой нейросети Janus — эта модель не только генерирует изображения, но и анализирует их, объясняя детали и делая осмысленные комментарии. В этой статье мы разберёмся, как Janus Pro (7B) справляется с генерацией изображений по сравнению с Stable Diffusion 3 (Medium) и Dall-3 , а также кто лучше анализирует и комментирует изображения — Janus Pro или Dalle-3 . Ну что, готовы? Тогда погнали!
https://habr.com/ru/companies/bothub/articles/877704/
#ai #ии #janus #deepseek #генерация_изображений #анализ_изображений #texttoimage #imagetotext
Can't Ctrl+C something because it's baked to pixels? Now you can!
NormCap is an unusual screen capture tool. It doesn't capture images, but extracts *text* from a selected area of your screen.
https://dynobo.github.io/normcap/
#Productivity #OCR #ScreenCapture #Screenshot #TextCapture #NormCap #ImageToText
Обучение ИИ на синтетических данных: исследователи из MIT меняют правила игры
Как известно, данные - это новая почва в мире AI. И товарищи-исследователи из MIT CSAIL нашли оригинальный способ вырастить на этой плодородной земле нечто большее, чем просто пиксели. В своем новом исследовании , они использовали синтетические изображения для обучения моделей машинного зрения и значительно превзошли результаты традиционных подходов с "реальными" картинками. Такое обучение оказалось более эффективным и свободным от предубеждений машинного обучения. В основе описываемого подхода лежит система StableRep. Это не просто очередной софт для генерации синтетических картинок. StableRep использует самые популярные в последнее время модели вроде Stable Diffusion, которые создают изображения на основе текста. Приглашаем узнать больше об этом проекте!
https://habr.com/ru/companies/bothub/articles/776130/
#ии #ии_и_машинное_обучение #машинное_обучение #stable_diffusion #imagetotext
Apps that Convert Pictures and Documents to Text using AI #ImageToText
Hashtags: #chatGPT #AIImageToTextConverter #ConvertPicturesAndDocuments Summary: An image-to-text converter online is a tool that uses Optical Character Recognition (OCR) technology to extract text from an image or paper document. These converters are available for both Android and iOS users and offer various features to choose from. One important feature to consider is whether the converter is…
https://webappia.com/apps-that-convert-pictures-and-documents-to-text-using-ai-imagetotext/
"Detect text from picture" in the "Edit media" dialog of the Mastodon PWA is not a bad way to extract code from screenshots. It has some predicable issues such as mistaking digit 1 for letter l and 0 for @, but not too bad for short code segments.
Recommend 8/10
"Midjourney now offers a clever twist on its #AI image software, using its powerful machine-learning algorithms to generate text descriptions of already-existing images. This makes detailed image captions trivially easy to make and could totally change the game for blind people when it comes to pictures. "
Why #Midjourney’s New #ImageToText Generator Is an #Accessibility Home Run | #AI #GenerativeAI
https://www.lifewire.com/why-midjourneys-new-image-to-text-generator-is-an-accessibility-home-run-7377344
The trade-free app of the day:
Normcap
https://www.tromjaro.com/normcap/
OCR-powered screenshot tool to capture text instead of images.