Vor einiger Zeit twittert ich zumscrappen von in PDF gefangenen Texten. Inzwischen si d wir ein Stück weiter. Für uns hat es im Test das #Python-tool #PDFminer getan. Hat sehr sauber gearbeitet. Wir hatten dazu allerdings auch sehr sauber gesetzte PDFs, die bereits mit OCR vorliegen. Mehr, wenn wir durch sind und dann auch mit Doku auf Github.
#digitalhumanities #newbie #textscraping