#Tutorial #Selbstlernressource #OER

Trends in historischen Zeitungen untersuchen mit Python: OCR, Textaufbereitung und quantitative Analyse am Beispiel der Spanischen Grippe-Pandemie

https://quadriga-dk.github.io/Text-Fallstudie-1/front_page/intro.html

#Qualitätssicherung #Erhebung #Validierung #Aufbereitung #Datenanalyse

Quantitative Analyse der Medienwellen der Spanischen Grippe (1918/19). Eine Fallstudie

Dieses interaktive Lehrbuch vermittelt Methoden für die automatische Erstellung, Aufbereitung und Analyse eines Textkorpus. Im Zentrum steht die Frage, wie sich die mediale Aufmerksamkeit auf die Spanische Grippe in zeitgenössischen Berliner Zeitungen verändert. Der Fokus des Lehrbuchs liegt auf der Korpuserstellung mittels Optical Character Recognition (OCR) mit pytesseract. Das Lehrbuch ist in sechs Kapitel aufgeteilt. Es wird zuerst in die Fragestellung und deren Operationalisierung eingeführt, dann werden Methoden des Korpusaufbaus beschrieben. Danach wird in die Methode der OCR sowie in die Nachbereichtung des Outputs eingeführt. Das Textkorpus wird dann mit spacy lemmatisiert und schlussendlich wird eine diachrone Frequenzanalyse auf dem annotierten Korpus ausgeführt.

Quantitative Analyse der Medienwellen der Spanischen Grippe (1918/19). Eine Fallstudie