NormCap

app que copia textos de imagens utilizando OCR.

Curadoria da Internet
@alsternerd Grandios! Das hat wunderbar geklappt! Vielen Dank! #Fedora #Tesseract_OCR #PaperWork #OpenPaperWork

For reference, I'm running #tesseract_ocr on the subtitles of an episode of SG-1.

(For those unaware, because Unicode wasn't really a widely-deployed thing when the DVD format was standardized, but the people standardizing it still wanted DVDs to be able do display subtitles in every language, the subtitles on a DVD aren't encoded as text, they're encoded as images. This is why different DVDs have subtitles in different fonts. Blu-Rays kept this decision, because I guess they didn't want to ship a font with 100% Unicode coverage on every Blu-Ray player. I wrote a script that takes an MKV file with PGS subtitles and spits out a folder full of PNGs.)

Here are the files it's looking at. They're bright white font-rendered text on a transparent background.

Why does #OCR struggle with this?

I've blogged before about how I use #Python with #tesseract_ocr to get health data from my #Fitdays app.

But now I'm taking it to a new level. I OCR the images that Fitdays produces, get username, date and data out of it and store it in a #sqlite db. Pretty happy about this.

Pdf-extract-API

Проект предлагает инструмент для конвертации изображений и PDF-файлов в текст форматов Markdown и JSON с высокой точностью, включая поддержку табличных данных и математических формул.

Он основан на FastAPI, использует Celery для асинхронной обработки и Redis для кэширования результатов OCR, предоставляя различные стратегии для конвертации, такие как Marker, Surya-OCR и Tesseract, а также возможность удаления персонально идентифицируемой информации.

src: https://github.com/CatchTheTornado/pdf-extract-api

#blacktriangle #opensorce #github #OCR #tesseract_ocr #tesseract #markdown #pdf #fastapi #json #marker #Surya-OCR #Celery

GitHub - CatchTheTornado/pdf-extract-api: Document (PDF) extraction and parse API using state of the art modern OCRs + Ollama supported models. Anonymize documents. Remove PII. Convert any document or picture to structured JSON or Markdown

Document (PDF) extraction and parse API using state of the art modern OCRs + Ollama supported models. Anonymize documents. Remove PII. Convert any document or picture to structured JSON or Markdown...

GitHub

Создание плагина для распознавания текста на иврите: мой опыт и решения

Всем привет! Хочу поделиться недавним проектом, в котором я разрабатывал плагин для распознавания текста на иврите. Задача была непростая, особенно учитывая, что клиент уже пытался использовать Tesseract OCR, но точность распознавания оставляла желать лучшего. В этой статье расскажу о том, с какими трудностями я столкнулся и как их преодолел.

https://habr.com/ru/articles/836714/

#искусственный_интеллект #ocrтехнологии #распознавание_текста #paddleocr #tesseract_ocr #python #датасет #аугментация #easyocr

Создание плагина для распознавания текста на иврите: мой опыт и решения

Всем привет! Хочу поделиться недавним проектом, в котором я разрабатывал плагин для распознавания текста на иврите. Задача была непростая, особенно учитывая, что клиент уже пытался использовать...

Хабр
OCRで画像から文字列を抽出 - Qiita

sampleimport cv2import base64import numpy as npfrom PIL import Imageimport pyocrclass SampleC…

Qiita