Old fuzzy pages, still tricky at 1600 dpi with #XSane and #OCRmyPDF on unix.
=
Hooper Ranch Bookkeeper ............... cobhebgeneaneen Lisa Salkov, Mana Diaz (alt.)
=
1. Mana should have been Maria.

2. And a bunch of dots got halluncinated into random letters. Same as it ever was, back to encoded Bacon wrote Shakespeare gibberish.

Otherwise, damned decent!

@WorziArmin Ein Kollege hatte schon mal Tools fürs #Dokumentenmanagement vorgestellt. Aber ich fürchte: Das erfordert noch mehr Disziplin. #OCRmyPDF kann das Problem nicht lösen, das scannt ja nur ein und macht die Texterkennung. Für alle, die keine Lust haben zu sortieren, empfehle ich tatsächlich #Recoll. Festplatte indizieren, dann findet das fast alles. Aber mich würde das Chaos auf der Festplatte irre machen.

¯\_(ツ)_/¯ *meh
Homebrew pillow 12.0.0 Upgrade macht meinen PDF Workflow kaputt :(
Aber ich kann nicht downgraden auf die 11.3.0 weil dependencies
Und weil homebrew die alte Version nicht gelistet hat?

Hmpf

#homebrew #python #ocrmypdf

Ich bin ja sonst nicht so der Typ für #Software und Empfehlungen....

Aber das hier ist ein absolutes Muss, wenn Du massenhaft pdf-Dateien nachträglich mit einem Text-Layer versehen willst.

Massenhaft scannen in eine Datei und während der Texterkennung automatisch trennen lassen mit ist nur ein Highlight...

Muss man haben!
Github:
https://github.com/digidigital/OCRthyPDF-Essentials

#ocrthypdf #ocr #ocrmypdf #ubuntu #foss

@Martin Seeger Ah, Benamung ist echt ein Thema. Und dann auch wieder nicht. Mein Benamungsschema für Dateien ist Datum-Typ-Ersteller.

Ich benutze allerdings kein #paperless sondern mache das händisch mit #ocrmypdf. Die Dateien sortiere ich in eine Verzeichnisstruktur. Und dank OCR findet bei mir #Recoll dann alles wieder. @Bastian
The Hubzilla @ tschlotfeldt.de

@D_J_Nathanson

#pdftk for terminal
@libreoffice draw
#masterpdf v4 is free; current version is paid
#ocrmypdf
#pdfunite etc

I can send you various aliases I have created. Also, see various pdf posts at linuxatty.wordpress.com.

Editing or redacting a #PDF using #LibreOffice Draw is far superior to the commonly used method of converting the PDF's pages into images and editing the images, because the latter results in a PDF that is many times larger and doesn't render as well. Also, text copy and paste is lost, which you can recover from to some extent with a tool like #OCRmyPDF, but you'll never get the text quality back to as high as it was before you converted the PDF to images.
#FOSS

Have you ever needed to extract text from images embedded in a #PDF? I can highly recommend the open source #CLI tool #OCRmyPDF which is easy to automate in for example a #DataPipeline.

It uses #Tesseract #OCR under the hood and has many options to experiment with to get the best possible accuracy for your language and PDF content.

You can get started with just a few commands:

https://samuelplumppu.se/blog/automated-text-extraction-from-pdf-images-with-ocrmypdf

Automated Text Extraction from PDF Images with OCRmyPDF

Experienced fullstack developer, curious about how tech, systems thinking and Doughnut design for business can be combined to create a positive impact.

Добавление OCR-слоя и другие преобразования PDF

При сканировании и сохранении в формате PDF зачастую документы сохраняются в виде графических изображений. Это неудобно, потому что делает невозможным полнотекстовый поиск по содержанию. Утилита OCRmyPDF решает эту проблему: она одной командой из консоли добавляет к PDF-документу слой OCR с распознанным текстом. Ниже упомянуты ещё несколько полезных инструментов для парсинга PDF, в том числе для преобразования сложных математических PDF-документов в текстовый формат Markdown.

https://habr.com/ru/companies/globalsign/articles/940286/

#pdf #syntax #markitdown #конвертация #ocrmypdf #ocr

Добавление OCR-слоя и другие преобразования PDF

OCRmyPDF выравнивает и оптимизирует PDF-файлы вместе с распознаванием текста При сканировании и сохранении в формате PDF зачастую документы сохраняются в виде графических изображений. Это неудобно,...

Хабр

2/2 re #OCR

All three were set to #rotate and #deskew. None rotated the page that was sideways, but they all #deskewed pages that needed it. Kofax was the speediest of the bunch, then #OCRmyPDF not far behind and #Foxit was by far the slowest.

File size Foxit produced the smallest file size, #Kofax created files double the original. OCRmyPDF struggled here, ballooning the original size by at least 6 times larger.