Mastodawn

OCR historischer Handschriften wird brauchbar

Ein kleiner Hinweis für alle Historiker: Einige der neusten KI-Modelle sind anscheinend in der Lage Handschriften und auch historische Handschriften in brauchbarer Qualität zu transkribieren. Gerade die neusten Gemini-Modelle von Google erreichen eine beeindruckende Qualität – und das gilt nicht nur für moderne Handschriften, sondern auch für historische Handschriften. Weitere Infos und viele Beispiele gibt es in diesem Beitrag oder diesem oder diesem.

Wer sich damit beschäftigen will, kann verschiedene Modelle in der OCR Arena vergleichen. Die in den Artikeln angesprochenen neueren Gemini 3-Modelle werden von Google gerade ausgerollt, ihr könnt sie hier mit euren Archivfotos testen.

Hier das Ergebnis des oben abgebildeten Briefes:

Hier ist die Transkription des handschriftlichen Briefes. Ich habe die originale Rechtschreibung, Zeichensetzung und Grammatik (einschließlich Fehler wie „marriagge“ oder „umble“) exakt so übernommen, wie sie im Dokument stehen.
Sister Superioress
I am a poor woman and
I have been deceived under the
Promis of marriagge; I am at
Present with no means and with-
out any relations to nurse my
babe; Therefore I beg you for god
sake to take my child until
I can find a situation and ^have enough
means so I can bring up myself
I hope that you will so kind
to accept my child and I wile
pray God for you
I remain umble servant
Teresa Gavazzo
New york Dec. 3rd 1874
Anmerkungen zur Handschrift:

In der Zeile „I can find a situation and enough“ wurde das Wort „have“ nachträglich über der Zeile eingefügt.
Das Wort „will“ in „I wile pray“ sieht optisch aus wie „wile“.
In der Phrase „will so kind“ fehlt grammatikalisch das Wort „be“ (will be so kind).
Das Wort „humble“ wurde phonetisch als „umble“ geschrieben (was darauf hindeutet, dass das ‚h‘ im Dialekt der Schreiberin stumm war).

Da kann man echt nicht meckern, das ist absolut beeindruckend.

Nächster Versuch: Ich habe vor Jahren bereits einen dieser während der Kolonialzeit so häufig geschlossenen ungleichen Verträge gebloggt. Dieser ist in Kurrent verfasst, was auch für normale Menschen ein Endgegner ist, für OCR-Software bisher aber völlig ungreifbar war. Hier der Output:

Vertrag.

In Anbetracht daß King Koto von Abo den Wunsch zu erkennen gegeben, friedliche und freundschaftliche Beziehungen zwischen ihm und seinem Lande und dem Deutschen Reiche herzustellen und zu kräftigen, haben Der Kaiserliche Konter-Admiral und Chef des West-Afrikanischen Kreuzergeschwaders Herr E. H. Knorr mit der gehörigen Vollmacht versehen, einerseits und King Koto von Abo für sich, seine Häuptlinge und sein ganzes Land anderseits nachfolgende Vertrags-Artikel beschlossen und fest- gestellt:

Art. I. Seine Majestät der Deutsche Kaiser nimmt hier- durch, in Gewährung des Wunsches des King Koto von Abo die Oberhoheit über King Koto, seine Häuptlinge und das unter ihrer Herrschaft stehen- de Land huldvollst entgegen und will ihnen den Schutz ihrer Rechte und ihres Besitzes, sowie alle anderen den deutschen Unterthanen gebührende politische und kriegerische Vortheile angedeihen lassen.

Art. II. King Koto von Abo verspricht für sich und seine Häuptlinge, daß sie mit allen benachbarten Häupt- lingen dauernd Frieden halten, zur Niederhal- tung jedes Aufruhrs jeden Beistand leisten und

Auch hier: Respekt. Das ist ein mehr als brauchbares Ergebnis. Ich bin ehrlich gesagt extrem überrascht, wie gut das funktioniert. Das sind Ergebnisse, die noch vor wenigen Monaten völlig undenkbar waren.

Wir wissen alle, wie mühsam der Umgang mit alten Handschriften ist. Natürlich lernt man das im Studium, aber man muss es erstmal lernen und benötigt dann die regelmäßige Praxis. Gerade große Textmengen sind so nur schwierig zu erschließen, aber es sieht so aus, als könnte das nun möglich werden. Archive und Historiker, die einen passenden Quellenkorpus haben, könnten hier ein wirklich höchst spannendes Werkzeug bekommen. Alles einmal digitalisieren, durch die Maschine jagen und dann per Volltextsuche erschließen. Entsprechende Projekte gibt es ja bereits wie z.B. Every name counts der Arolsen Archives, wo historische Akten aus dem Nationalsozialismus über seine Opfer per Crowdsourcing erschlossen werden. Wir könnten also auf eine Zukunft hinauslaufen, in der wir nicht nur Zeitungsdatenbanken im Volltext durchsuchen können, sondern auch ganze Archivbestände voller handschriftlicher Akten. Ich bin gespannt, wie das die historische Erkenntnisfindung verändern wird.