🩺 Fixed broken #PDF s in seconds? Yes, you can!
Check out pdf-healer:
https://github.com/kevinveenbirkenbach/pdf-healer

I built this tool after running into mysterious "#Ascii85 decode errors" in bank statements and official PDFs – especially when using Python tools like pdfminer, pdfplumber, or #moneymonitor.
With pdf-healer you can detect and batch-fix these corrupted files with a single command. Perfect for anyone who archives, processes, or automates PDFs!

#opensource #python #pdfplumber #pdfminer #qpdf 🛠️📄

GitHub - kevinveenbirkenbach/pdf-healer: A command-line tool for batch-repairing PDF files with Ascii85 decode errors using qpdf. Scans folders or single files, supports preview, overwrite, and copy modes.

A command-line tool for batch-repairing PDF files with Ascii85 decode errors using qpdf. Scans folders or single files, supports preview, overwrite, and copy modes. - kevinveenbirkenbach/pdf-healer

GitHub

Проверка содержимого PDF-файлов средствами Python и pdfminer. Часть 2

В предыдущей части статьи мы рассмотрели общие подходы к тестированию PDF и познакомились с тем, как библиотеки pdfminer и PDFQuery помогают нам получать детальную информацию об объектах. Достаточно ли нам этой информации? Далеко не всегда. В этой статье мы расскажем о решении некоторых интересных технических проблем.

https://habr.com/ru/companies/auriga/articles/845926/

#python #pdf #pdfminer #pdftest #qa #qa_automation #qa_testing #pdf_par #PDFQuery #page_object

Проверка содержимого PDF-файлов средствами Python и pdfminer. Часть 2

В предыдущей части статьи мы рассмотрели общие подходы к тестированию PDF и познакомились с тем, как библиотеки pdfminer и PDFQuery помогают нам получать детальную информацию об объектах. Достаточно...

Хабр

Проверка содержимого PDF-файлов средствами Python и pdfminer. Часть 1

Некоторое время назад у нас появился интересный проект по созданию сервиса, генерирующего документы в формате PDF. И появилась задача — написать тесты, которые проверят документ в мельчайших деталях, включая и содержимое, и вёрстку. В данной статье мы расскажем, каким образом справились с этой задачей.

https://habr.com/ru/companies/auriga/articles/843774/

#python #pdf #pdfminer #PDFUnit #pdftest #qa_automation #qa #qa_testing #pdf_parser #camelot

Проверка содержимого PDF-файлов средствами Python и pdfminer. Часть 1

Некоторое время назад у нас появился интересный проект по созданию сервиса, генерирующего документы в формате PDF. И появилась задача — написать тесты, которые проверят документ в мельчайших деталях,...

Хабр

PDFをLLMで解析する前処理のパーサーは何が良いのか?(pdfminer, PyMuPDF, pypdf, Unstructured)
https://qiita.com/cyberBOSE/items/142cdf91e0ee20b3114f?utm_campaign=popular_items&utm_medium=feed&utm_source=popular_items

#qiita #Python #pdfminer #PyMuPDF #pyPDF #Unstructured

PDFをLLMで解析する前処理のパーサーは何が良いのか?(pdfminer, PyMuPDF, pypdf, Unstructured) - Qiita

現状の LLM は PDF ファイルを直接処理出来ない為、予めなんらかのプレーンテキスト形式に変換する必要があります。(PDFを読める各チャットアプリも内部的には何らかの手段でプレーンテキスト形式…

Qiita
Vor einiger Zeit twittert ich zumscrappen von in PDF gefangenen Texten. Inzwischen si d wir ein Stück weiter. Für uns hat es im Test das #Python-tool #PDFminer getan. Hat sehr sauber gearbeitet. Wir hatten dazu allerdings auch sehr sauber gesetzte PDFs, die bereits mit OCR vorliegen. Mehr, wenn wir durch sind und dann auch mit Doku auf Github.
#digitalhumanities #newbie #textscraping