Pierre Beauguitte und @osma haben gerade auf der #swib24 demonstriert, dass automatische Formalerschließung von grauer Literatur mit einem ressourcenschonenden #SLM (Small Language Model) auf lokalen Geräten (Qwen2 0.5B, nur auf CPU) bis zu 85% akkurate Ergebnisse liefern und dabei auch Katalogisierungskonventionen berücksichtigen kann. Mit einem #LLM (Mistral Nemo 12B, mit GPU) konnten sie bis zu 92% erreichen. Dabei wichtiges Take-Away: Bibliotheken müssen ihre Trainingsdaten zusammenführen, damit guten Resulate erzielt werden können. Die beiden Nationalbibliotheken Norwegen und Finnland haben das in diesem Fall vorbildhaft gezeigt. Das Trainingsdatenset FinGreyLit ist schon unter CC0 veröffentlicht und wurde auf englischen, finnischen und schwedischen Dokumenten trainiert, die mit Dublin Core erschlossen wurden: https://github.com/NatLibFi/FinGreyLit
#KIinBibliotheken #Bibliotheken #GenerativeKI #LLMs #KI #Erschliessung #Katalogisierung
GitHub - NatLibFi/FinGreyLit: Data set of Finnish grey literature, containing curated Dublin Core style metadata and links to original PDF publications

Data set of Finnish grey literature, containing curated Dublin Core style metadata and links to original PDF publications - NatLibFi/FinGreyLit

GitHub
Zoe Tucker und Kristian Allen von der UCLA Library haben auf der Code4Lib 2024 eine #OpenSource #Metadaten-Extraktions-Pipeline zur automatischen #Erschließung von Digitalisaten mit komplexen Layouts vorgestellt.
https://yewtu.be/watch?v=tujc_9nVg3o&t=10445
In einer zweiten Iteration haben sie sich für die Kombination folgender Komponenten entschieden, um bessere Ergebnisse zu erzielen: PaddleOCR (statt #Tesseract) für #OCR, Amazon Science ReFinED (statt #spaCy) für #NER und Ollama (statt #ChatGPT und #Gemini) für die Metadaten-Generierung in Dublin Core oder MODS.
Das experimentelle Toolkit steht auf GitHub als Docker-Container mit Jupyter Lab Umgebung bereit und wurde in Python umgesetzt: https://github.com/UCLALibrary/metadata-extraction-lab
#KIinBibliotheken #Bibliotheken #GenerativeKI #LLMs #KI #Erschliessung #Katalogisierung #c4l24

Das Zusammenführen von Information - PROJECT CONSULT Blog | Das Erfassen aus unterschiedlichen Eingangskanälen, die Erschliessung und Klassifikation, Methoden zur Informationsbereitstellung - dies sind alles Kernaufgaben eines ganzheitlichen Informationsmanagements
http://bit.ly/3sa1oTP

#Informationsmanagement #Zusammenführen #Informationskanal #Konsolidierung #Information #Erschliessung #DMS #ECM #Capture #ContentServices #IIM #PCHH #PROJECTCONSULT

Das Zusammenführen von Information – PROJECT CONSULT

Das Zusammenführen von Information - PROJECT CONSULT Blog | Das Erfassen aus unterschiedlichen Eingangskanälen, die Erschliessung und Klassifikation, Methoden zur Informationsbereitstellung - dies sind alles Kernaufgaben eines ganzheitlichen Informationsmanagements
http://bit.ly/3sa1oTP

#Informationsmanagement #Zusammenführen #Informationskanal #Konsolidierung #Information #Erschliessung #DMS #ECM #Capture #ContentServices #IIM #PCHH #PROJECTCONSULT

Das Zusammenführen von Information – PROJECT CONSULT

Das Zusammenführen von Information - PROJECT CONSULT Blog | Das Erfassen aus unterschiedlichen Eingangskanälen, die Erschliessung und Klassifikation, Methoden zur Informationsbereitstellung - dies sind alles Kernaufgaben eines ganzheitlichen Informationsmanagements
http://bit.ly/3sa1oTP

#Informationsmanagement #Zusammenführen #Informationskanal #Konsolidierung #Information #Erschliessung #DMS #ECM #Capture #ContentServices #IIM #PCHH #PROJECTCONSULT

Das Zusammenführen von Information – PROJECT CONSULT

Das Zusammenführen von Information - PROJECT CONSULT Blog | Das Erfassen aus unterschiedlichen Eingangskanälen, die Erschliessung und Klassifikation, Methoden zur Informationsbereitstellung - dies sind alles Kernaufgaben eines ganzheitlichen Informationsmanagements
http://bit.ly/3sa1oTP

#Informationsmanagement #Zusammenführen #Informationskanal #Konsolidierung #Information #Erschliessung #DMS #ECM #Capture #ContentServices #IIM #PCHH #PROJECTCONSULT

Das Zusammenführen von Information – PROJECT CONSULT

Das Zusammenführen von Information - PROJECT CONSULT Blog | Das Erfassen aus unterschiedlichen Eingangskanälen, die Erschliessung und Klassifikation, Methoden zur Informationsbereitstellung - dies sind alles Kernaufgaben eines ganzheitlichen Informationsmanagements
http://bit.ly/3sa1oTP

#Informationsmanagement #Zusammenführen #Informationskanal #Konsolidierung #Information #Erschliessung #DMS #ECM #Capture #ContentServices #IIM #PCHH #PROJECTCONSULT

Das Zusammenführen von Information – PROJECT CONSULT

Übrigens haben wir direkt am 2.2.23 um 17.15 Uhr unseren nächsten Vortrag. Philipp Hegel berichtet uns über semantische Erschließung in historisch-philologischen Kommentaren.
Anmeldung über eine Direktnachricht oder per Mail an kevin.wunsch(at)tu-darmstadt.de
#InFoDiTex #Wissenschaft #Vortrag #Erschliessung #LOD