Numéro 12 - focus 🔎
Simon Gabay, Ariane Pinche, Peter Nahon, Alix Chagué, Pauline Jacsont, Élodie Paupe, Jean-Claude Rebetez, Maxime Humeau, Christine Payot, Thibault Maillard, Yvan Jauregui, Elina Leblanc et Loraine Chappuis :
Lire avant de faire lire. Réflexions philologiques sur la reconnaissance automatique de texte pour les manuscrits modernes français
https://doi.org/10.4000/15ick
Dans le domaine francophone, le manuscrit écrit après le Moyen Âge reste le dernier type de document qui n’est pas correctement traité par les outils de reconnaissance automatique de texte. Si des modèles ont déjà été publiés, leur efficacité et leur documentation restent insatisfaisantes, en grande partie à cause des difficultés que suscite l’importante évolution des documents eux-mêmes au cours des siècles, et donc la diversité des formes à traiter. Après avoir décrit le problème d’un point de vue philologique, nous proposons ici quelques réflexions préliminaires sur la transcription des documents modernes, ainsi qu’un nouveau modèle visant à améliorer les conditions de travail des chercheurs et chercheuses, en attendant de concevoir une solution pleinement satisfaisante.
[#veille] Journée d'étude sur le projet SocFace le 24 mars 2026 aux Archives nationales ou à distance
https://francearchives.gouv.fr/fr/actualite/1136744969
#histoire #population #HTR #donnéesnominatives #FranceArchives #archives #généalogie #19esiecle #20esiecle
you go on and off for years to improve your reading skills of #Kurrent / #Sütterlin, even trying to adopt the latter as your "secret" handwriting and then: first comes #AI and seems to make all of it redundant as #HTR improves incredibly; then you go to an exhibition at #DHMBerlin and discover that to read #OttovonBismarck (or his secretary) it was all useless in the first place as he seems to have written in a nice, simple #Lateinschrift
Today is *definitely* one of those days where I feel a strong kinship with crime drama authors as a pen & paper RPG storyteller.
Because my last couple search engine queries would *definitely* seem suspicious without context. 🥴
"What's the all-cause mortality rate in Northern Ireland?"
"How long after death does a body get cold?"
"How long after death do people still bleed?"
"Can you buy blood in the UK?"
"Can you sell blood in the UK?"
...

Transcribing thousands of medieval manuscripts by hand would be a monumental undertaking. Fortunately, researchers in computational humanities at the Inria Paris Centre have been able to automate the task through the use of generative AI. Their creation is CoMMA, a giant, one-of-a-kind corpus that will now be available to specialists in the humanities, revolutionising the exploration of writing from the Middle Ages.