Das TIB AV-Portal im Jahr 2025: neue Infrastruktur, KI-gestützte Medienanalyse und Audio-Only
read this article in EnglishWie in den vergangenen Jahren möchten wir auch diesmal einen Überblick über die wichtigsten technischen und funktionalen Erweiterungen des TIB AV-Portals geben. Das Scrum-Team hat 2025 erneut zahlreiche Verbesserungen umgesetzt, die sowohl die infrastrukturelle Basis als auch die Nutzungsmöglichkeiten des Portals ausgebaut haben.
Einige dieser Entwicklungen gehen direkt auf Rückmeldungen und konkrete Anforderungen aus der Nutzerschaft zurück. Für manche Leserinnen und Leser dürfte dieser Rückblick daher nicht nur informativ, sondern auch persönlich interessant sein – vielleicht entdecken Sie an der einen oder anderen Stelle eine Funktion, deren Umsetzung Sie selbst angeregt haben.
Vom externen Hosting zur eigenen Infrastruktur
Mit der vollständigen Migration der Video- und Audioauslieferung auf Server der TIB im Januar 2025 hat das AV-Portal einen bedeutenden infrastrukturellen Entwicklungsschritt vollzogen. Wo zuvor einzelne Komponenten für Streaming, Download und Bereitstellung über externe Drittsysteme liefen, erfolgen diese Prozesse nun vollständig über die Infrastruktur der TIB. Auch die Begleitmaterialien – etwa Präsentationen, Skripte, Forschungsdaten oder zusätzliches Lehrmaterial – werden mittlerweile direkt an der TIB gehostet.
Durch den Betrieb auf eigenen Servern kontrolliert die TIB nicht nur die technischen Abläufe, sondern auch die damit verbundenen Datenflüsse, Speicherorte und Sicherheitsstandards. Externe Abhängigkeiten, etwa in Bezug auf Verfügbarkeiten oder Service Levels, konnten damit weiter reduziert werden. Frei nach der Devise: Wissenschaftliche Daten gehören in wissenschaftliche Infrastruktur – und zwar unter Bedingungen, die den Anforderungen von Forschung, Lehre und Open Science gerecht werden.
Adaptives Streaming mit MPEG-DASH
Ebenfalls seit Januar 2025 erzeugen wir adaptive Derivate im MPEG-DASH-Format. Dadurch lässt sich die Qualität eines Videos während der Wiedergabe dynamisch an die verfügbare Internetbandbreite der Nutzerin anpassen. Statt ein einziges, statisch kodiertes Video auszuliefern, stellt das AV-Portal mehrere Qualitätsstufen bereit, zwischen denen der Player automatisch wechselt.
Das Ergebnis ist ein deutlich stabileres Streaming-Erlebnis: Verzögerungen, Ruckler oder Bildabbrüche werden reduziert, während gleichzeitig stets die bestmögliche Auflösung genutzt wird. Zugleich sinkt die Datenlast, da nicht mehr unnötig große Dateien übertragen werden, wenn die individuelle Verbindung dies gar nicht zulässt. MPEG-DASH bildet damit einen wichtigen Schritt in Richtung einer modernen, skalierbaren Streaming-Infrastruktur.
Diverse Qualitätsstufen für adaptives StreamingHöhere Auflösungen für wissenschaftliche Inhalte
Seit April 2025 erzeugen wir auch Auflösungen jenseits von Full HD. Dazu gehören unter anderem hochwertige Neuabtastungen aus einem Digitalisierungsprojekt, die mit einer Auflösung von 2048×1536 Pixeln vorliegen und damit sichtbar mehr Details bieten als herkömmliche HD-Formate.
Darüber hinaus stehen inzwischen zahlreiche Videos in 4K-Qualität zur Verfügung, die besonders bei visuellen Darstellungen, Animationen und komplexen wissenschaftlichen Inhalten ihre Stärken ausspielen.
Unterstützung für reine Audiodateien
Seit der Live-Schaltung von MPEG-DASH können im AV-Portal nicht nur Audiostreams als Teil von Video-Derivaten erzeugt werden, sondern erstmals auch echte Audioformate. Damit erweitert sich das Nutzungsspektrum des Portals deutlich: Neben klassischen Videoinhalten lassen sich nun auch reine Audioquellen – etwa Interviews, Podcasts, Vorträge oder Tonaufzeichnungen aus Forschungsprojekten – hochladen, analysieren und als separate Medienressourcen bereitstellen.
Audiobeitrag mit durchsuchbarem TranskriptUm reine Audiodateien zuverlässig verarbeiten zu können, nutzt das AV-Portal ein einheitliches technisches Verfahren. Dabei wird aus einer hochgeladenen Datei der Audioteil automatisch extrahiert und in das Format M4A umgewandelt – ein weit verbreiteter Standard, der auf vielen Geräten problemlos abgespielt werden kann.
Mit dieser Erweiterung unterstützt das AV-Portal nun nicht mehr nur Videos, sondern auch Audioformate – und wird damit zu einer Plattform für wissenschaftliche Ton- und Bildinhalte.
Flexibler und erweiterter Upload-Prozess
Mit der jüngsten Weiterentwicklung der Upload-Funktion können nun deutlich größere Dateien direkt über das Upload-Formular des AV-Portals hochgeladen werden. Möglich wird dies durch einen neuen Übertragungsprozess, der große Dateien automatisch in kleinere Datenpakete aufteilt und schrittweise überträgt. Dank dieses sogenannten „Chunked-Uploads“ lassen sich Videodateien mit einer Größe von bis zu 10 GB zuverlässig hochladen.
Zudem wurde der Ablauf flexibler gestaltet: Nutzer können nun zunächst ihre Videodatei auswählen und parallel dazu die Metadaten im Formular eintragen. Auf diese Weise lassen sich mögliche Wartezeiten während des Upload-Prozesses sinnvoll nutzen.
Abgerundet wird die Erweiterung durch zusätzliche Upload-Optionen: Neben dem Video oder Audio können jetzt auch eigene Transkripte sowie Vorschaubilder mitgeliefert werden.
OpenCLIP für präzise Bildinhaltsanalyse
Um visuelle Inhalte in wissenschaftlichen Videos gezielter auffinden zu können, haben wir im TIB AV-Portal eine neue Generation der bildbasierten Suche implementiert. Als technologisches Fundament dienen OpenCLIP-Vektoren, die wir für sämtliche Videoframes berechnet haben.
Auf dieser Basis entstand ein Prototyp für Zero-Shot-Suchanfragen, der beliebige Texteingaben – auch in verschiedenen Sprachen – direkt mit den Bildinhalten abgleicht. Bereits dieser erste Prototyp zeigte eindrucksvoll, dass selbst komplex formulierte Suchbegriffe geeignete Bildinhalte zurückliefern können.
Im Anschluss daran haben wir das VCD-Labelling grundlegend erneuert. Hierfür wurde eine kuratierte Liste visueller Konzepte erstellt, die sowohl bestehende als auch neu definierte Kategorien umfasst – etwa „chemisches Experiment“, „Mikrophotographie“ oder „Roboter“. Für jedes der derzeit 86 Konzepte formulierten wir spezifische Prompts und generierten daraus Textvektoren. Anhand von Schwellwerten, die mit Hilfe einer manuellen Ground Truth festgelegt wurden, ließ sich bestimmen, ab wann ein Konzept im Bildmaterial als erkannt gilt. Zusätzlich wurden die visuellen Konzepte mit Sachbegriffen aus der Gemeinsamen Normdatei (GND) verknüpft.
Für die Nutzung des Portals bedeutet dies: Der gesamte Videobestand kann mithilfe dieser visuellen Konzepte gefiltert werden. Außerdem lassen sich auf den Detailseiten die erkannten Konzepte über Sprungmarken punktgenau ansteuern.
Suche im Bildinhalt mit SprungmarkenDer vielleicht größte Fortschritt besteht jedoch darin, dass das Scrum-Team nun selbst jederzeit neue VCD-Konzepte bestimmen und unmittelbar ins Portal integrieren kann. Da die zugrunde liegende Open-Source-Software OpenCLIP vollständig auf TIB-Servern betrieben wird, verbleiben sämtliche Daten und Prozesse unter unserer Kontrolle. Damit ist ein erster Meilenstein erreicht; weitere OpenCLIP-basierte Funktionen sind bereits in Vorbereitung.
Verbesserte Anzeige der GND-Annotationen
Im AV-Portal werden Sprache, eingeblendete Texte und visuelle Inhalte automatisch mit Sachbegriffen der GND angereichert. Diese Annotationen präsentieren wir auf den Detailseiten nun deutlich übersichtlicher: Statt einer verstreuten Darstellung erscheint dort eine alphabetisch sortierte Liste aller erkannten Entitäten, die sich zudem gezielt durchsuchen und nach Sprache, Text oder Bild filtern lässt.
Annotationen von Sprache, Text und BildMit einem Klick auf einen Eintrag lässt sich direkt nachvollziehen, an welchen Stellen im Video der entsprechende Begriff vorkommt – die Treffer werden übersichtlich in der Zeitleiste hervorgehoben. Auf diese Weise können Nutzer unmittelbar zu den relevanten Szenen springen, ohne mühsam durch das gesamte Video navigieren zu müssen.
Neue Untertitel-Segmentierung für bessere Lesbarkeit
Um die Qualität der Untertitel im AV-Portal weiter zu verbessern, haben wir eine neue Segmentierung der Whisper-Transkripte eingeführt. Diese basiert auf OpenNLP, einem Open-Source-Toolkit für die automatische Verarbeitung natürlicher Sprache, und berücksichtigt nicht nur Satzzeichen, sondern auch Wortarten und natürliche Sprachpausen.
Ergänzend dazu kommt ein Look-Ahead-Algorithmus zum Einsatz, der innerhalb eines Vorschaufensters von 150 Zeichen den optimalen Trennpunkt für den nächsten Cue, eine zeitlich abgegrenzte Untertitel-Einheit, ermittelt.
Im Unterschied zu einfachen heuristischen Verfahren bewertet der Algorithmus nicht nur die aktuelle, sondern alle nachfolgenden möglichen Trennstellen und maximiert so die Gesamtqualität des Untertitelumbruchs. Auf diese Weise lassen sich unnatürlich kurze Segmente – etwa einzelne Wörter am Ende einer Untertitelzeile – zuverlässig vermeiden. Damit verbessern wir die Lesbarkeit der Untertitel für eine barrierefreie Nutzung und schaffen zugleich die Grundlage für eine mögliche Text-to-Speech-Funktionalität.
Präziseres Teilen und Zitieren von Videoinhalten
Mit den jüngsten Releases haben wir die Funktionen zum Teilen und Zitieren von Videos erweitert und flexibler gestaltet. Im Teilen-Dialog lässt sich nun ein optionaler Startzeitstempel hinzufügen, sodass sich Videoinhalte gezielt ab einer bestimmten Stelle wiedergeben lassen; dieselbe Möglichkeit steht auch für den Embed-Code zur Verfügung. Zudem wurde der Zitieren-Dialog erweitert: Der Zeitstempel eines Segments kann dort je nach Bedarf ein- oder ausgeblendet werden. Im Zuge dieser Neuerungen haben wir den Teilen-Dialog überarbeitet und seine Struktur so angepasst, dass sich die Funktionen insgesamt intuitiver nutzen lassen.
Teilendialog mit Startzeitstempel für den Embed CodeBereitstellung von Metadaten als Open Data
Die TIB fördert die Nutzung und Sichtbarkeit ihrer audiovisuellen Bestände, indem sie die Metadaten des AV-Portals als Open Data veröffentlicht. Einmal pro Woche werden die Metadaten und Vorschaubilder all jener Videos automatisch bereitgestellt, für die dies rechtlich möglich ist. Auf unserer Open-Data-Seite stehen die Daten in zwei Formaten zur Verfügung: JSONL für die performante Verarbeitung großer Datenmengen sowie Turtle als RDF-Format für den Einsatz in semantischen Anwendungen und Linked-Data-Umgebungen.
Integration ausgewählter Metadaten in die MP4-Datei
Metadaten wie Titel, Autor und der Link zur Detailseite wurden in die herunterladbare MP4-Datei integriert. Die Informationen bleiben damit auch dann erhalten, wenn das Video lokal gespeichert, weitergegeben oder in anderen Anwendungen geöffnet wird. So lässt sich jederzeit nachvollziehen, woher das Video stammt und welche Quelle zitiert werden sollte – ganz ohne zusätzliche Notizen oder manuelle Recherche.
Einblendung der in den Download integrierten Metadaten im VLC-PlayerAusblick für 2026
Stella als Evaluierungsrahmen für Videoempfehlungen
Stella ist eine Living-Lab-Infrastruktur zur Evaluation experimenteller Retrieval- und Empfehlungssysteme mit echten Nutzern; das TIB AV-Portal dient in diesem Projekt als Produktpartner. 2025 haben wir die technischen Grundlagen für den Einsatz von Stella im Portal geschaffen, die Liveschaltung ist für das kommende Jahr geplant.
Mit Hilfe von Stella können verschiedene Empfehlungsalgorithmen per Interleaved-A/B-Tests direkt im Portal verglichen werden: Nutzer sehen abwechselnd Videoempfehlungen aus unserem bisherigen Ansatz (Solr MoreLikeThis) und aus experimentellen Recommendern. Die daraus resultierenden Klicks dienen als anonymisiertes Feedback. So lässt sich empirisch ermitteln, welcher Algorithmus im realen Nutzungskontext bessere Empfehlungen liefert.
Die Forschungsgruppe Visual Analytics der TIB wird in Zukunft weitere Recommender-Experimente entwickeln und bereitstellen, sodass wir alle notwendigen Komponenten im Haus haben, um das Empfehlungssystem kontinuierlich zu evaluieren und weiterzuentwickeln.
Promptbasierte Bildsuche im AV-Portal
Aufbauend auf den OpenCLIP-Entwicklungen des Jahres 2025 arbeiten wir daran, 2026 eine vollwertige Bildsuche im AV-Portal zu realisieren. Künftig sollen Nutzer nicht mehr nur nach vordefinierten visuellen Konzepten filtern, sondern mit frei formulierten Texteingaben (Zero-Shot-Suchen) direkt im Bildinhalt unserer Videos recherchieren können. Unsere aktuellen Überlegungen zielen darauf ab, diese promptbasierte Suche sowohl portalweit als auch auf den Detailseiten der Videos anzubieten. Auf diese Weise würde ein neuartiger Zugang zu wissenschaftlichen Videos entstehen, bei dem visuelle Inhalte ebenso intuitiv und präzise durchsuchbar wären wie Text.
#AVMedien #AVPortal #LizenzCCBY40INT #wissenschaftlicheFilme #wissenschaftlicheVideos




















