Mastodawn

BASE Search Aug 14, 2024

Full details of our new subject classifier can be found in Christoph Broschinski's Master's thesis: https://nbn-resolving.org/urn:nbn:de:hbz:79pbc-opus-25138

#subjectClassifier #BASEsearch #academicSearch

OPUS 4 | Implementierung einer automatischen DDC-Klassifikation für die Suchmaschine BASE auf Basis von Annif

In der wissenschaftliche Suchmaschine BASE werden bereits seit Jahren Dokumente maschinell nach der Dewey Decimal Classification (DDC) erschlossen. Die vorliegende Arbeit beschreibt die Erstellung eines Systems des maschinellen Lernens mit dem Ziel, das mittlerweile veraltete Klassifikationssystem in BASE zu ersetzen. Zu diesem Zweck ist es erforderlich, Daten aus BASE zu gewinnen, die als Trainingsmenge eines maschinellen Lernverfahrens dienen können. Es wird gezeigt, wie mithilfe einer explorativen Analyse aus einem Korpus von über 220 Mio. Dokumenten geeignete Daten extrahiert, kuratiert und zu sprachspezifischen Lernkorpora umgearbeitet werden können, die hierzu entwickelte Software ist ein integraler Bestandteil dieser Arbeit. Auf dieser Grundlage werden mithilfe des Toolkits Annif eine Reihe von Klassifikatoren erstellt, deren Leistungsfähigkeit anschließend evaluiert und ein geeigneter Kandidat ausgewählt wird. Ein finaler Vergleich zeigt, dass das in dieser Ausarbeitung erstellte System dem zur Zeit im Einsatz befindlichen BASE-Klassifikator weit überlegen ist. Abschließende Betrachtungen zeigen allerdings auch verschiedene Schwächen des Ansatzes auf, die zugleich einen Bogen zu allgemeinen Erwägungen im Rahmen des derzeitigen „Frühlings“ der künstlichen Intelligenz schlagen.