Kostenlose Spracherkennung für Windows, Mac und Linux
Die Spracherkennung gehört heute selbstverständlich dazu. Sie im Alltag verwenden, ist kein Aufwand mehr: sei es fürs Brainstorming, fürs Sitzungsprotokoll oder um Briefe und (meinetwegen) Blogposts und Artikel zu diktieren. Das ist das Verdienst von OpenAI und vor allem des Prinzips der freien Software. Denn die vielen Transkriptionsprogramme, die uns heute zur Verfügung stehen, basieren zum Grossteil auf Whisper. Das ist das Modell, das Sam Altman und seine Leute im September 2022 öffentlich bereitstellten.
Es kommt bei mehreren Apps zum Zug, die ich gern nutze: Mit Whisper Notes sammle ich Ideen und Macwhisper ist ein Allrounder, der vor allem für Podcasts zum Zug kommt. Seit meinem ersten Test vor zwei Jahren hat sich die Software gemacht: Inzwischen kann sie Audio nicht nur aus Aufnahmen, sondern ab Mikrofon transkribieren, live untertiteln, Sprecherinnen und Sprecher erkennen und sich bei Teams- und Zoom-Konferenzen einklinken. Alles in allem praktisch. Und ein exemplarisches Beispiel, wie freie Software die Innovation befeuert.
Eine Frage stellt sich: Es gibt Whisper für den Mac, fürs iPhone und iPad – wo bleibt Windows¹? Und in der Tat, ich fand keine Anwendung, die einen ähnlich ausgereiften Eindruck macht wie Macwhisper. Aber immerhin existiert eine Anwendung, die die Kernfunktionalität beherrscht: die Verschriftlichung von Audioaufnahmen mit einem lokalen Sprachmodell. Das erlaubt es uns, Aufnahmen mit sensiblen Inhalten zu verarbeiten.
Die Open-Source-Software fürs Open-Source-Modell
Buzz – und ja, über den Namen kann man sich streiten. Die Dokumentation und der Quellcode finden sich auf Github, die ausführbaren Dateien auf Sourceforge. Nebst der Windows-Version ist Transkriptionssoftware ebenso für Mac und Linux erhältlich – sodass man sich als Apple-Nutzerin oder -Nutzer entscheiden kann, ob man die Gratisvariante nutzt oder für mehr Komfort den Kaufpreis von (inzwischen) 64 Euro in Kauf nimmt.
Die Oberfläche verströmt Retro-Charme, hat jedoch verborgene Talente. Hier die Möglichkeit, Transkripte zu bearbeiten und zu korrigieren.
Vorab ein Wort der Warnung: Buzz ist ein Schwergewicht. Auf meinem Laptop macht sich die Software (mit zwei installierten Modellen) mit 8,6 GB und mehr als 22’000 Dateien breit – für ältere Rechner ist das eine Überforderung. Und die Transkription ist langsam. Die Verarbeitung einer Aufnahme von fünf Minuten dauert mit dem Modell Large-v3 (2,9 GB) auf meinem HP-Laptop knapp die doppelte Laufzeit (10:07 Minuten). Im Vergleich ist das Macbook Pro M3 deutlich schneller. Es braucht im Schnitt etwas weniger als die Hälfte der Laufzeit.
Die Balance zwischen Qualität und Tempo finden
Falls Zeit eine entscheidende Rolle spielt, lohnt es sich, vorab anhand von kurzen, repräsentativen Beispiel-Clips herauszufinden, welches Modell die beste Balance aus Qualität und Tempo bietet. Das Modell Tiny (72 MB) benötigt für die gleiche 5-Minuten-Datei 41 Sekunden, doch bei einer Aufnahme in Schweizerdeutsch ist das Resultat annähernd unbrauchbar.
Die Einstellungen, mit denen Buzz transkribiert.
Buzz verschriftlicht nebst lokalen Dateien Aufnahmen aus dem Web (Datei > URL importieren) und arbeitet «live» per Mikrofon. Die Software kann standardmässig mit mehreren Dateien auf einmal «gefüttert» werden. Dazu ziehen wir die Audiodateien aufs Programmfenster und geben die Parameter vor. Zur Auswahl stehen Modell², Aufgabe mit Transkribieren und Ins Englische übersetzen, eine Sprachauswahl (Sprache erkennen funktioniert bestens) und Erweitert. Letzteres führt die Aufgabe mittels ChatGPT, also in der Cloud, durch, ermöglicht dafür die Verwendung eines individuellen Prompts.
Schliesslich wählen wir das Ausgabeformat: Zur Auswahl stehen die beiden Untertitel-Formate Subrip (.srt) und WebVTT (.vtt), sowie reiner Text (.txt).
Eine (nicht offensichtliche) Stärke besteht in der Möglichkeit, die Transkripte zu durchsuchen und anhand der Originalaufnahme zu bearbeiten. Dazu doppelklicken wir im Hauptfenster auf den Eintrag eines abgearbeiteten Jobs. Es erscheint ein Fenster, das das Transkript in verschiedenen Darstellungen zeigt und Befehle für den Export, Übersetzung und die Identifizierung der Sprecher (Identify Speakers) aufweist. Der Befehl Grösse ändern (Resize) erlaubt es, die Längen der einzelnen Textzeilen anzupassen, d. h., sie zu verkürzen oder zu verlängern.
Die Live-Transkription mit dem Modell «Small» ist nicht über alle Zweifel erhaben (Buzz anstelle des Worts «was» und Bildschirm statt «Beecher» wären richtig).
Dateien im Rutsch transkribieren und korrigieren
Der weitere Pluspunkt ist die Batch-Bearbeitung: Wir können per Drag&Drop eine beliebige Anzahl an Dateien übergeben. Es ist ebenso möglich, einen Ordner zu überwachen, sodass die dort auftauchenden Dateien automatisch abgearbeitet werden. Dazu betätigen wir im Menü Hilfe den Befehl Einstellungen und setzen die gewünschte Option in der Rubrik Ordner überwachen.
Wo wir bei den Einstellungen sind: Hier finden sich einige interessante Möglichkeiten:
- Wir schalten die Benutzeroberfläche in der Rubrik Allgemein bzw. General auf Deutsch um.
- An gleicher Stelle lässt sich auch der Ordner für die fertigen Transkripte angeben. Standardmässig wird der Output im gleichen Ordner wie die Input-Datei abgelegt.
- Die Verwaltung der Modelle erfolgt im gleichnamigen Reiter; hier werden Modelle geladen und gelöscht.
- Buzz lässt sich weitgehend über Tastaturkürzel steuern, die obendrein unter Tastenkombinationen nach Gutdünken angepasst werden dürfen.
Fazit: Die Benutzeroberfläche strahlt die Ästhetik einer PC-Software aus dem Jahr 1996 aus. Aber ihren Zweck erfüllt Buzz ausgezeichnet.
Fussnoten
1) Und wo bleibt Android? Für Googles Smartphone-Betriebssystem fand ich keine App, die ich ernsthaft würde empfehlen wollen. Falls jemand einen Tipp hat, bin ich ein dankbarer Abnehmer! ↩
2) Nebst Whisper stehen als Modellanbieter auch Hugging Face, Faster Whisper und OpenAI via API zur Verfügung. Bei der Grösse wählen wir Tiny, Tiny.En (für Englisch), Base, Base.En, Small, Small.En, Medium, Medium.En, Large, Large-V2, Large-V3 oder Large-V3-Turbo. ↩
Beitragsbild: Das macht nichts, Texte halt einfach mit der Transkriptionssoftware Buzz erfassen (Evan Yang, Unsplash-Lizenz).
#CiaoZurCloud #Datenschutz #FreieSoftwareFOSS #Gemini #Linux #Transkription