Bessere KI-Antworten â auch ohne Hochleistungsrechner
KI-Systeme, die Texte nicht nur generieren, sondern gezielt in Dokumenten recherchieren, sind mittlerweile etablierter Stand der Technik. Einer dieser AnsĂ€tze heiĂt Retrieval-Augmented Generation (RAG): Stellt ein Benutzer eine Frage, sucht das System relevante Informationen in einer Wissensbasis â zum Beispiel in einem Wiki â und nutzt diese als Grundlage, um relevante Inhalte bzw. Quellen aufzulisten oder mittels KI Antworten daraus zu generieren.
Das Problem: Damit ein solches System gut funktioniert, mĂŒssen viele Stellschrauben richtig eingestellt werden. Diese sogenannte Hyperparameter-Optimierung ist normalerweise entweder zeitaufwĂ€ndig oder rechenintensiv und in jedem Fall technisch anspruchsvoll. Unsere aktuelle Untersuchung zeigt jedoch: Eine automatisierte Optimierung ist möglich â sogar auf einem normalen Laptop.
Ausgangslage
Grundlage unserer Untersuchung im Open Science Lab war die Weiterentwicklung unseres RAG-Moduls fĂŒr Wikibase4Research. Mit dem zuvor bestehenden System war es bereits sehr einfach möglich, eine Mediawiki Installation zu erhalten, deren Inhalte KI-gestĂŒtzt via RAG durchsuchbar sind. Egal ob es nun um Artikelseiten in einem einfachen Mediawiki, strukturierte Wissensdaten in einer Wikibase oder eine Kombination aus beidem wie zum Beispiel Semantic Mediawiki oder Semantic Wikibase geht.
Eine EinfĂŒhrung in die grundlegende Funktionsweise von RAG und Wikibase4Research liefert das folgende Video:
Um eine hohe QualitĂ€t der KI-basierten Suchergebnisse und Antworten zu erhalten, ist es aber nötig, das System entsprechend der verwendeten Daten zu konfigurieren. FĂŒr diese Einstellungen gibt es keine StandardfĂ€lle, es gehört in das Arbeitsfeld eines Data Scientist die Systemparameter zu testen und zu verbessern. In diesem Prozess wird daher klassisch ein hohes MaĂ an Erfahrung und Fachwissen benötigt, um optimale Ergebnisse zu erhalten.
Die Alternative ist der nun in Wikibase4Research integrierte AutoRAG Ansatz, der die Parameter vollautomatisch optimiert. Dieser Prozess wird im Farchjargon âHyperparameter Tuningâ oder auch âHyperparameter Optimierungâ genannt.
Anforderungen
Die Rahmenbedingungen fĂŒr ein Hyperparameter Tuning können sehr unterschiedlich sein. In unserem Fall ergeben sich die Anforderungen vor allem aus der Nutzergruppe von Wikibase4Research.
Forscher/Innen
Im Forschungskontext haben wir es mit fÀcherspezifischen Daten zu tun. Die beteiligten Wissenschaftler sind Experten in ihrer jeweiligen FachdomÀne. Expertise im Bereich spezieller Data-Science-Anwendungen ist in den Projektteams meist nicht vorhanden. Dies ist durchaus sinnvoll, denn das Projektteam ist somit auf die im Projekt zu bearbeitenden Forschungsfragen spezialisiert.
Daten
FĂŒr die Optimierung wird ein Test-Datensatz benötigt, der mögliche Fragen (Suchanfragen) mit den optimalen Quellen in den Daten verknĂŒpft. Dieser Datensatz wird mit den Suchergebnissen des Systems verglichen, um die QualitĂ€t der Systemeinstellung bewerten zu können (Idealdaten). Solche Testdaten liegen in den ĂŒberwiegenden FĂ€llen nicht vor.
Endnutzer/Innen
Wer nutzt die Daten letztendlich und welche Art von Anfragen werden gestellt? Diese Frage ist entscheidend bei der Optimierung. Werden die Endnutzer spezifische Fakten aus den Daten abfragen wie zum Beispiel Jahreszahlen bestimmter Ereignisse oder eher Zusammenfassungen ganzer AbsĂ€tze oder Artikel erwarten? Zu welchen Themen werden voraussichtlich Fragen gestellt? Erwarte ich eher Fragen zum Inhalt der Daten oder Fragen auf der Metaebene wie zum Beispiel zur Anzahl von Quellen, der Struktur und LĂ€nge von Texten, des Schreibstils oder zur Medienart? Werden Suchanfragen von Wissenschaftlern im Fachjargon gestellt oder eher in Umgangssprache formuliert? Die frĂŒhzeitige Definition grundlegender Personas fĂŒr die zu erwartende Nutzergruppe hilft nicht nur bei der Optimierung von RAG, sondern ist auch ein wichtiger Schritt bei der Erstellung von Design und BenutzeroberflĂ€chen in der PrĂ€sentation der Forschungsergebnisse.
Infrastruktur
Hohe RechenkapazitĂ€ten, Zugang zu GPU-Processing und Budget fĂŒr industrielle KI-Services ist in vielen Projekten nicht vorhanden. Wikibase4Research bietet die Option, externe Schnittstellen wie Huggingface, OpenAI oder die SAIA-Umgebung der GWDG zur AusfĂŒhrung von KI-Modellen zu nutzen. Die dort bestehenden Limits fĂŒr kostenlose Nutzung reichen aber meist nicht aus, um die Vielzahl an Parameter-Konfigurationen zu testen, die zur Optimierung eines RAG-Systems notwendig ist. Ideal wĂ€re also, die AusfĂŒhrung lokal auf allgemein verfĂŒgbarer Hardware durchfĂŒhren zu können, was auch unter dem Aspekt der ressourcenschonenden Nutzung von KI ein erstrebenswertes Ziel ist.
Es ergibt sich fĂŒr unseren Ansatz daher folgender Anforderungskatalog:
- Anpassung auf die verwendeten Daten
- vollautomatische Optimierung
- keine technischen Vorkenntnisse nötig
- Test-Datensatz wird generiert
- User-Persona-Profile berĂŒcksichtigen
- möglichst effizient, mit geringem Ressourcenbedarf
Methodik
Daten
Als Datengrundlage dienten jeweils 50 zufÀllige Artikel aus drei MediaWiki-basierten Wissenssammlungen:
Um die QualitĂ€t der Suche zu bewerten, wurden automatisch Frage-Kontext-Antwort-Tripel erzeugt. Zum Einsatz kam dafĂŒr das mehrsprachige Sprachmodell IBM Granite 4 350M Nano, das speziell fĂŒr Umgebungen mit geringer Rechenleistung wie zum Beispiel fĂŒr On-Device-AnwendungsfĂ€lle entwickelt wurde.
LLM-Prompt
Um hinsichtlich der erwarteten Nutzung realistische Fragen zu generieren, wurde der an das Modell gelieferte Prompt (âErstelle Fragen aus dem Seiteninhaltâ) um speziell angepasste Rollenbeschreibungen (Personas) ergĂ€nzt, die per Konfigurationsdatei individualisiert werden können. Eine solche Persona-Definition könnte zum Beispiel lauten: âYou are a scientist who wants to learn about historic manorhouses in Europeâ.
Parameter
In einem RAG-Prozess werden die zu durchsuchenden Daten in einer speziellen Datenbank indiziert, um spÀter schnell und effizient relevante Inhalte zu finden.
Information Extraction und Indizierung von Daten in einem RAG-Prozess
Die meisten von uns verwendeten Parameter optimieren diesen Prozess der Informations Extraktion (IE). Dabei wird bestimmt, in welcher Form die Daten gespeichert werden und ob diese ggf. vor dem Speichern um Metadaten wie Schlagworte, Titel oder Zusammenfassungen ergĂ€nzt werden. FĂŒr die Vektorisierung verwendeten wir das Modell Qwen3-embedding:0.6B. Die mittels AutoRAG optimierten Parameter sind im Folgenden aufgelistet:
- Chunk_Size: Wie groà sind die Informationsabschnitte, die spÀter zugreifbar sein sollen?
- Chunk_Overlap: Wie stark ĂŒberlappen sich die Informationsabschnitte?
- Extractors: Welche Datenanreicherungen sollen erfolgen (zum Beispiel Zusammenfassung erstellen, Fragen generieren)?
- Top_K: Wieviele Chunks werden als Suchergebnis geliefert?
Sind die Daten eingelesen und wird eine Suchanfrage gestellt, wird das System nach relevanten Informationsabschnitten durchsucht. Dieser Prozess wird âInformation Retrievalâ genannt. Man kann es mit den Ergebnissen einer Google-Suche vergleichen, bei der die relevantesten Ergebnisse nicht zwangslĂ€ufig an erster Stelle der Liste stehen.
Information Retrieval in einem RAG Prozess
Information Retrieval bedeutet, zur Frage des Nutzers relevante Informationen zu finden. In diesem Prozessschritt optimieren wir den Parameter âTop_Kâ, der definiert, wie viele der Suchergebnisse im weiteren Prozess berĂŒcksichtigt werden. Ist Top_K zu klein, sind wichtige Quellen eventuell nicht enthalten. Ist Top_K zu groĂ, verarbeitet man eventuell eine groĂe Menge wenig relevanter Inhalte.
Optimierungsverfahren
Statt alle möglichen Kombinationen auszuprobieren (was sehr lange dauern wĂŒrde), kommt ein Suchalgorithmus zum Einsatz, der die verschiedenen Parameter stufenweise verbessert. Dieses als Greedy (âgierigâ) benannte Verfahren optimiert zunĂ€chst nur einen einzigen Parameter, dann den nĂ€chsten usw. Wir verzichten damit auf optimale Lösungen, erreichen aber hinreichend gute Ergebnisse mit akzeptablem Aufwand.
Als BewertungsmaĂ fĂŒr die Optimierung dient dabei der sogenannte Mean Reciprocal Rank (MRR) â ein MaĂ dafĂŒr, an welcher Position relevante Inhalte in der Trefferliste platziert sind. Ein entscheidender Vorteil:
Die Bewertung erfolgt vollstÀndig ohne KI-Antwortgenerierung. Es wird also nur getestet, wie gut das System relevante Inhalte findet, nicht wie gut eine KI daraus spÀter Antworten generiert. Dadurch wird erheblich Rechenzeit gespart.
Antwort Generierung in einem RAG Prozess. Diese Phase wurde in der Optimierung NICHT berĂŒcksichtigt
Technische Umsetzung
Die Implementierung erfolgte vollstÀndig im MediaWiki-Umfeld mit:
- Wikibase4Research
- einer Docker-basierten Python-API
- dem RAG-Framework LlamaIndex
- lokaler Modellbereitstellung ĂŒber Ollama
Die Experimente liefen auf einem handelsĂŒblichen Laptop aus dem Jahr 2022 (Dell Latitude 5421, Intel Core i7-11850H mit 8 Kernen, 16 GB RAM) â ohne GPU-Beschleunigung.
Ergebnisse
Trotz der bewusst schlanken Hardware-Ausstattung konnte die Optimierung meist bereits innerhalb einer Stunde abgeschlossen werden. Dabei wurde bei allen DatensÀtzen eine starke Verbesserungen der Abfrageergebnisse erzielt.
FĂŒr unser QualitĂ€stmaĂ, den Mean Reciprocal Rank (MRR), ergab sich eine Steigerung von durchschnittlich 12 bis 25 Prozent gegenĂŒber den voreingestellten Parametern. Das bedeutet, in den Ergebnissen der Suchanfrage waren mehr relevante Quellen aufgefĂŒhrt und relevante Quellen standen in der Ergebnisliste an höherer Stelle als zuvor. In einzelnen DatensĂ€tzen ergaben sich sogar Verbesserungen von bis zu 50 Prozent. Dabei lieĂen sich vergleichbare Ergebnisse auch mit Artikeln erreichen, die nicht Teil der Optimierungsschleife waren (Cross-Validation).
Warum ist das relevant?
FĂŒr wissenschaftliche Infrastrukturen wie digitale Bibliotheken, Fachrepositorien oder Forschungsdatenplattformen ist es entscheidend, KI-Systeme effizient und ressourcenschonend betreiben zu können. Die Ergebnisse zeigen: Sinnvolle RAG-Optimierung ist auch ohne Rechenzentrum machbar.
Das senkt technische HĂŒrden, reduziert Kosten und macht den Einsatz moderner KI-Technologien auch in kleineren Projekten realistisch.
Ausblick
Die fĂŒr die Suche verwendeten Embedding-Vector-Modelle haben einen erheblichen Einfluss auf die Ergebnisse (vgl. Orbach et al. (2025)) und zwar sowohl auf die Rechenzeit als auch auf die ErgebnisqualitĂ€t. Dabei zeigen Modelle nicht auf allen DatensĂ€tzen die gleichen Ergebnisse.
Es ist auch nur begrenzt möglich, die Optimierung mit extrem kleinen oder schnellen Embedding-Modellen auszufĂŒhren und die optimierten Parameter dann zusammen mit einem anderen, leistungsfĂ€higen Modell im Live-Betrieb einzusetzen. Sind die eingesetzten Embedding-Modelle nicht angepasst genug an die verwendete WissensdomĂ€ne, liefert auch die Optimierung nur suboptimale Ergebnisse.
Genau an diesem Punkt wird unsere Arbeit im Open Science Lab in der nÀchsten Zeit ansetzen. Gemeinsam mit den Fachinformationsdiensten FID Material Science, FID Move, FID Pyhsik und FID Philosophie evaluieren wir die Möglichkeit einer stÀrkeren Vernetzung von NFDI und FIDs mit dem Ziel, die einzelnen WissendomÀnen mit fachspezifischen Embedding-Modellen zu versorgen. Zielsetzung ist es, damit den Zugang zu dieser Technologie noch weiter zu vereinfachen sowie die QualitÀt der Ergebnisse von KI-Anwendungen im Forschungs- und Bibliotheksumfeld gezielt zu erhöhen.
Prof. Dr. Ina BlĂŒmel, Open Science Lab // Foto: TIB/C. Bierwagen
âAutoRAG ist fĂŒr uns ein wichtiger Innovationsschritt: Es macht RAG in offenen WissensrĂ€umen wie Wikibase messbar, wiederholbar und mit ĂŒberschaubaren Ressourcen betreibbar. FĂŒr Projekte wie NFDI4Culture und weitere Vorhaben im Open Science Lab bedeutet das spĂŒrbar bessere, nachvollziehbare KI-gestĂŒtzte Suche ĂŒber heterogene BestĂ€nde â ohne dass tiefes Spezial-Know-how aufgebaut werden muss. NĂ€chster Schritt ist der Ausbau fachspezifischer Embeddings, kuratierter Testsets und transparenter Workflows, damit die QualitĂ€t und Nachnutzbarkeit langfristig steigt.â
Relevante Links
#SemanticMediawiki #FIDMaterialsScience #LizenzCCBY40INT #Wikibase #FIDPhysik #Projekte #RAG #KI #NFDI4Culture #FID #FIDMove