OCR в кармане: как HunyuanOCR на 1B параметров потеснил гигантов в задачах парсинга документов

Всем привет! Меня зовут Артем, я Data Scientist в компании Raft Digital Solutions . В этой статье расскажу про свой опыт работы с HunyuanOCR end-to-end моделью от Tencent для распознавания текста на 1B параметров. Несмотря на громкие заявления о «SOTA-результатах» и компактности, в публичных обзорах практически не описано, как эта модель ведет себя в реальных задачах: с чем приходится столкнуться при настройке окружения, почему она может уйти в бесконечное зацикливание и как заставить её эффективно парсить сложные таблицы на обычном «железе». Поделюсь результатами своих экспериментов, покажу боевые промпты и объясню, в каких сценариях этот OCR-инструмент реально помогает экономить время, а где лучше даже не пытаться его использовать.

https://habr.com/ru/companies/raft/articles/1031684/

#ocr #document #ocrтехнологии #ocr_распознавание_документов #document_parsing #распознавание_текста #обработка_документов #таблицы #сканы #imagetotext

OCR в кармане: как HunyuanOCR на 1B параметров потеснил гигантов в задачах парсинга документов

Всем привет! Меня зовут Артем, я Data Scientist в компании Raft Digital Solutions . В этой статье расскажу про свой опыт работы с HunyuanOCR end-to-end моделью от Tencent для распознавания текста на...

Хабр

Frog: Extract text from any image, video, QR Code and etc.

https://github.com/tenderowl/frog

Ótimo app que extrai texto de imagens, como prints.

Está quebrando um galhão para pegar questões de simulados que estão em vídeos ou PDFs sem texto selecionável.

#Frog #ImageToText #app #Linux #FOSS

GitHub - TenderOwl/Frog: Extract text from any image, video, QR Code and etc.

Extract text from any image, video, QR Code and etc. - TenderOwl/Frog

GitHub

Janus Pro от DeepSeek: стоит ли она внимания? Сравнение генерации и объяснений с Dalle-3 и SD3

Появились первые тесты новой нейросети Janus — эта модель не только генерирует изображения, но и анализирует их, объясняя детали и делая осмысленные комментарии. В этой статье мы разберёмся, как Janus Pro (7B) справляется с генерацией изображений по сравнению с Stable Diffusion 3 (Medium) и Dall-3 , а также кто лучше анализирует и комментирует изображения — Janus Pro или Dalle-3 . Ну что, готовы? Тогда погнали!

https://habr.com/ru/companies/bothub/articles/877704/

#ai #ии #janus #deepseek #генерация_изображений #анализ_изображений #texttoimage #imagetotext

Janus Pro от DeepSeek: стоит ли она внимания? Сравнение генерации и объяснений с Dalle-3 и SD3

Появились первые тесты новой нейросети Janus  — эта модель не только генерирует изображения, но и анализирует их, объясняя детали и делая осмысленные комментарии. В этой статье мы...

Хабр

Can't Ctrl+C something because it's baked to pixels? Now you can!

NormCap is an unusual screen capture tool. It doesn't capture images, but extracts *text* from a selected area of your screen.

https://dynobo.github.io/normcap/

#Productivity #OCR #ScreenCapture #Screenshot #TextCapture #NormCap #ImageToText

NormCap

Обучение ИИ на синтетических данных: исследователи из MIT меняют правила игры

Как известно, данные - это новая почва в мире AI. И товарищи-исследователи из MIT CSAIL нашли оригинальный способ вырастить на этой плодородной земле нечто большее, чем просто пиксели. В своем новом исследовании , они использовали синтетические изображения для обучения моделей машинного зрения и значительно превзошли результаты традиционных подходов с "реальными" картинками. Такое обучение оказалось более эффективным и свободным от предубеждений машинного обучения. В основе описываемого подхода лежит система StableRep. Это не просто очередной софт для генерации синтетических картинок. StableRep использует самые популярные в последнее время модели вроде Stable Diffusion, которые создают изображения на основе текста. Приглашаем узнать больше об этом проекте!

https://habr.com/ru/companies/bothub/articles/776130/

#ии #ии_и_машинное_обучение #машинное_обучение #stable_diffusion #imagetotext

Обучение ИИ на синтетических данных: исследователи из MIT меняют правила игры

Как известно, данные - это новая почва в мире AI. И товарищи-исследователи из MIT CSAIL нашли оригинальный способ вырастить на этой плодородной земле нечто большее, чем просто пиксели. В своем новом...

Хабр

Apps that Convert Pictures and Documents to Text using AI #ImageToText

Hashtags: #chatGPT #AIImageToTextConverter #ConvertPicturesAndDocuments Summary: An image-to-text converter online is a tool that uses Optical Character Recognition (OCR) technology to extract text from an image or paper document. These converters are available for both Android and iOS users and offer various features to choose from. One important feature to consider is whether the converter is…

https://webappia.com/apps-that-convert-pictures-and-documents-to-text-using-ai-imagetotext/

Apps that Convert Pictures and Documents to Text using AI #ImageToText

Check out the best image-to-text converters to streamline your workflow with advanced OCR technology. Make information retrieval a breeze with these apps.

Webappia

"Detect text from picture" in the "Edit media" dialog of the Mastodon PWA is not a bad way to extract code from screenshots. It has some predicable issues such as mistaking digit 1 for letter l and 0 for @, but not too bad for short code segments.

Recommend 8/10

#mastodon #pwa #imageToText #image #text

"Midjourney now offers a clever twist on its #AI image software, using its powerful machine-learning algorithms to generate text descriptions of already-existing images. This makes detailed image captions trivially easy to make and could totally change the game for blind people when it comes to pictures. "

Why #Midjourney’s New #ImageToText Generator Is an #Accessibility Home Run | #AI #GenerativeAI
https://www.lifewire.com/why-midjourneys-new-image-to-text-generator-is-an-accessibility-home-run-7377344

Why Midjourney’s New Image-to-Text Generator Is an Accessibility Home Run

Instead of turning a text prompt into an image, AI image-creation company Midjourney can now turn an image into text, which experts say could be an accessibility win.

Lifewire

The trade-free app of the day:

Normcap

https://www.tromjaro.com/normcap/

OCR-powered screenshot tool to capture text instead of images.

Normcap

OCR-powered screenshot tool to capture text instead of images. … Continue readingNormcap

TROM-Jaro

Few corrections from the text scrape that I missed.

READY SPREADY GO -is the one on the far left I'm pretty sure.

Which of course leaves SALT DISNEY making much more sense!

#winter #snow #ice #WordPlay #Puns #Puntastic

#GoogleLens #ImageToText #Whoa #NearlyGotIt #Blimey #Nerdy