Frage an die #Podcast-Experten hier. Gibt es eine gute Transkriptionssoftware für Audio-Interviews ohne generative KI oder zumindest ohne Anbindung an bösartige Konzerne wie OpenAI? Und mit einigermaßen guter Datensicherung? Was nutzt ihr was könnt ihr empfehlen?

#noai #transkription #journalismus #podcast #audio #radio #datenschutz

Ich suche eine ordentliche MP3 to Text Lösung. Mit was habt ihr gute Erfahrungen? Gerne Open Source oder Online #mp3 #transkription #software #Lösung
TYPO3-Fachbegriffe korrekt transkribieren: Warum ich mir ein eigenes Tool gebaut habe

Warum ich mir eine eigene Transkriptions-App gebaut habe und was TYPO3-Profis daraus für ihren Content-Workflow mitnehmen können.

Kann jemand bei dieser Sterbeurkunde (1935) helfen? Inhaltlich hat wohl jemand aus einem Altersheim den Sterbefall gemeldet, aber was genau steht da?

#Kurrentschrift #sutterlinschrift #transkription

So fliessen die Ideen ungehindert

Es ist ein bittersüsses Happy End: Heute, im Jahr 2026, sind wir in der Lage, unsere Eingaben am Computer per Stimme vorzunehmen. Das ist eindrücklich: Als vor fast dreissig Jahren die ersten Spracherkennungsprogramme auf den Markt kamen, waren die weder benutzerfreundlich noch wirklich alltagstauglich. Die Entwicklung verlief anfänglich harzig. Doch in den letzten Jahren mehrten sich die Anzeichen für einen Durchbruch.

Und als ich neulich zwei Programme testete, mit denen sich Texte am Computer einsprechen lassen, lautete das schnörkellose Fazit: Es funktioniert. Die Transkription mag zwar nicht hundertprozentig perfekt sein. Doch wenn wir sie von einem Sprachmodell wie ChatGPT oder Gemini bereinigen lassen, ist das Resultat so gut wie selbst getippt.

Transkribieren mit dem iPhone, aber ohne Cloud

Das Experiment, über das ich heute berichte, bestätigt diesen Befund. Und es steuert drei weitere Erkenntnisse bei:

  • Die getestete App, Whisper Notes (vier Franken), ermöglicht die Transkription auf dem iPhone. Sie arbeitet ohne Cloud und eignet sich für sensible Inhalte.
  • Diese Methode funktioniert nicht nur für kurze Sprachnotizen, sondern auch für ein langes Diktat.
  • Und apropos bittersüss: Falls wir uns erhofft haben, aufgrund des Fortschritts nie wieder Texte tippen zu müssen, dann müssen wir heute feststellen, dass das nicht der Fall ist. Aber für die passenden Anwendungsfälle ist die Diktatmethode unschlagbar.
  • Lasst mich diese Aspekte im Detail ausführen und mit dem letzten Punkt beginnen:

    Wie neulich beim Test von Macwhisper und Audiopen festgestellt, ist (zumindest für mich) das Diktieren von Artikeln und Blogposts nicht praktikabel: Die Arbeit mit dem Text – das Umformulieren, Verändern, Löschen, Umstellen und Verdichten und Verfeinern – ist integraler Bestandteil des kreativen Prozesses. Er ist zwingend und inkompatibel zur Eingabe per Sprache. Eine Malerin muss die Farben auch selbst mischen und auftragen. Dem Assistenten zu erklären, wie er das tun sollte, führt nicht zum Ziel.

    Das heisst aber nicht, dass der ganze schöne technische Fortschritt umsonst gewesen wäre. Denn in anderen Bereichen funktioniert die Methode des Diktats perfekt. Mein ideales Betätigungsfeld ist das Brainstorming.

    1) Die Ideen einsprechen

    Das Transkript ist nicht über alle Zweifel erhaben. (Mit «Catchi Pity» wäre ChatGPT gemeint.)

    Ich werde am 30. Mai 2026 an der Fachtagung «KI trifft Autismus» des Vereins Autismus Schweiz eine Einführung halten. Ich hatte eine grobe Vorstellung im Kopf, wie ich das Referat würde gliedern wollen. Statt die in einer Text-App, einem Outliner oder einem für Mindmaps geeigneten Zeichnungsprogramm auszuarbeiten, kam ich auf die Idee, mein Konzept sprechenderweise auszuarbeiten.

    Das funktionierte maximal einfach: Whisper Notes-App aufstarten, den Aufnahmeknopf drücken und loslegen. Ich sprach meine Ideen in Hochdeutsch ein und hatte zuvor in den Einstellungen bei Modus auf Genau (1,6× langsamer) umgeschaltet. Dann legte ich los und umriss meine Ideen während einer guten Viertelstunde. Die Transkription erfolgte zügig – und wie erwähnt direkt auf dem Gerät.

    2) Die Rohfassung korrigieren und bereinigen

    Die Rohfassung wirkt auf den ersten Blick wenig brauchbar: Der ganze Text wird durch eingestreute Zeitmarken willkürlich unterbrochen, wird ansonsten als einziger Bandwurm (ein langer Absatz) abgeliefert, und einige der technischen Begriffe sind falsch. Doch dieses Problem lässt sich per KI korrigieren. Mit einem simplen Prompt¹ liefert ein aktuelles Sprachmodell ein einwandfreies Transkript.

    Nebenbei erlaubt es die Whisper Notes-App, das Transkript anhand der Originalaufnahme zu überprüfen: Tippen wir einen Satz in der Verschriftlichung an, wird die korrespondierende Stelle der Aufnahme wiedergegeben – das ist auch praktisch, um sich längere Aufnahmen zu erschliessen.

    3) Struktur und Ordnung in die Gedanken bringen

    In einem zweiten Schritt bitte ich die KI, aus der Rohfassung einen strukturierten Ablauf für den Vortrag zu stricken². Für diese Aufgabe kommen ChatGPT und Gemini zum Zug. Beide meistern sie mit Bravour – die Variante von Gemini gefällt mir ein μ besser. Die Gliederung ist jeweils nach Themen geordnet, in denen wiederum die wesentlichen Punkte aufgeführt sind. Die Tools, die ich ansprechen will, listet Gemini tabellarisch. Und sogar die bloss angedeuteten Konzepte sind fertig ausformuliert.

    Gemini gab der Abfolge der Gedanken eine Struktur – inklusive Übersichtstabelle.

    Daraus eine Präsentation zu fertigen, ist (dank dieser Tricks hier) ein Klacks!

    Fazit: Das werde ich garantiert demnächst wieder so machen. Brainstorming per Diktat funktioniert aus folgenden Gründen:

    • Es gibt keine Ablenkung.
      Selbst mit einer maximal einfachen Software sind wir gezwungen, einen Teil der Hirnkapazität für die Bedienung zu nutzen. Beim Diktat gibt es keine Benutzerschnittstelle. Wir können das Smartphone oder den Computer komplett unsichtbar machen, indem wir das Gerät ausser Sicht deponieren.
    • Es entsteht eine echte Trennung zwischen Form und Inhalt.
      Wir müssen uns nicht damit aufhalten, in welcher Reihenfolge wir die Bullet Points aufführen wollen – und ob eine verschachtelte Liste oder doch hierarchische Unterpunkte besser geegnet sind. (Und ja, für mich sind derlei Fragen notorisch.)
    • Wir haben die Hände frei.
      Das muss nicht, aber es kann beim Denken helfen.
    Die beliebte Methode des Brainstormings mittels Zettelwirtschaft geht bei mir meist ins Leere (Fortytwo, Unsplash-Lizenz).

    Fazit: Es funktioniert – unter den richtigen Voraussetzungen

    Der Unterschied zum Bloggen oder Schreiben besteht darin, dass beim Brainstorming kein Endprodukt angepeilt wird. Statt eines ausgearbeiteten und gut lesbaren Textes peilen wir Rohmaterial an. Aus dem könnten wir natürlich auch einen schönen Artikel oder einen prägnanten Blogpost erstellen. Aber die Stärke der KI ist, wie sich zeigt, eine Ansammlung von Gedanken zu gliedern und zu strukturieren – es wäre schade, diese Möglichkeit ungenutzt zu lassen.

    Natürlich funktioniert das Brainstorming per Diktat, wenn die Angelegenheit in unserem Kopf bereits ausreichend ausgereift ist, um monologisch beschrieben zu werden. Was mich angeht, habe ich ein feines Gespür dafür, wann die Zeit reif ist, solche Gedanken zu konkretisieren.

    Deswegen ist für mich die App am iPhone besonders praktisch. Es passiert mir häufig, dass der passende Moment genau dann eintritt, wenn ich Gelegenheit habe, meine Gedanken mäandern zu lassen – beim Warten am Bahnhof, beim Joggen oder während der Hausarbeit. Wenn ich dann bloss den Aufnahmeknopf zu drücken brauche, um das Ergebnis eines kreativen Anfalls einzufangen, dann erleichtert mir das mein Leben enorm.

    Ein Hinweis: Achtet darauf, ob die Transkription vollständig ist. Aus nicht ersichtlichen Gründen wurde bei einer Transkription nur der Anfang kopiert. Nichts ging verloren; sowohl das vollständige Audio als auch der ganze Text waren vorhanden. Aber nicht alles landete in der Zwischenablage.

    Fussnoten

    1) Das ist der Prompt, um die Rohfassung zu korrigieren:

    Das folgende ist ein Transkript einer Brainstorming-Session. Ich benötige davon eine 1:1-Wiedergabe. Bitte behalte den Text im Original-Wortlaut bei, aber korrigiere Transkriptionsfehler (wie «Zweiterteil» und «Dritterteil», GROC statt Grok und ähnliche Dinge) und teile das Transkript thematisch in Abschnitte (Absätze) ein. ↩

    2) Der Prompt für den Ablauf:

    Bitte bereinige mir das folgende Transkript einer Brainstorming-Sitzung von sprachlichen Redundanzen und Transkriptionsfehlern. Behalte alle Konzepte und Ideen bei und gliedere sie sinnvoll. ↩

    Beitragsbild: Bald werden die Füsse auf dem Pult ein Anzeichen dafür sein, dass jemand besonders kreative Arbeit leistet (www.kaboompics.com, Pexels-Lizenz).

    #CiaoZurCloud #KI #Transkription

    Texte diktieren, statt sie zu tippen?

    Das ist ein Versuch. Ich will ausprobieren, ob ich einen ganzen Blogpost nur per Diktat erfassen kann. Anlass ist die Software Audiopen. Sie verspricht, gesprochene «Ideen direkt in klaren Text zu verwandeln».

    Ich habe Audiopen getestet. Das Resultat war nicht schlecht, aber wegen einer Zeitbeschränkung von zwanzig oder dreissig Sekunden¹ konnte ich keinen ganzen Blogpost einsprechen fertigstellen. Deshalb probiere ich es hier anders, mit Macwhisper. Wieso sollte ich für eine zusätzliche Software bezahlen, wenn ich bereits eine kostenlose Lösung besitze?

    Der Kurztest von Audiopen ergibt ein einwandfreies Resultat.

    Die Spielregeln für diesen Artikel: Änderungen, die über Details hinausgehen, mache ich im Text kenntlich. So seht ihr, ob ich alles eingesprochen diktiert oder ob ich nachträglich doch zur Tastatur gegriffen habe.

    Die Kunst, die Gedanken zu bändigen

    Grundsätzlich habe ich ein Problem damit, Ideen einzusprechen, statt sie zu schreiben. Ich denke langsamer, als ich spreche. Wenn ich die Aufnahme starte, fühle ich mich unter Druck, möglichst flüssig zu reden – wie ich es vom Radio gewohnt bin. Dabei verhädere ich mich manchmal oder gerate auf Nebengleise.

    Beim Schreiben ist das kein Problem. Man kann zurückgehen, löschen, neu ansetzen, Sätze so lange überarbeiten, bis sie sitzen, und sich von einem gut formulierten Satz zum nächsten hangeln. Beim Diktieren geht das nicht. Ich kann nicht zwei Zeilen zurückspringen und etwas einfügen. Die Gedanken müssen geordnet sein, während ich sie ausspreche.

    Meine Erfahrung ist jedoch: Die Gedanken ordnen sich oft erst beim Schreiben. Denken und Schreiben sind keine seriellen Prozesse – erst denken, dann aufschreiben –, sondern stehen in Wechselwirkung. Häufig baue ich Texte nachträglich stark um. Deshalb bin ich skeptisch, ob diese Methode für mich funktioniert.

    Ein Mittel, um Zeit zu sparen?

    Vielleicht werde ich positiv überrascht und spare beim Bloggen viel Zeit, indem ich alles ins Unreine spreche und mich nicht darum kümmere, ob es am Schluss perfekt rund ist. Vielleicht lasse ich die KI den Text noch straffen – und gut ist. Ich probiere es aus und bin gespannt auf das Resultat.

    [youtube https://www.youtube.com/watch?v=tbGWU5pzhlo?version=3&rel=1&showsearch=0&showinfo=1&iv_load_policy=1&fs=1&hl=de-DE&autohide=2&wmode=transparent&w=640&h=360]

    Es gibt sicher Leute, für die diese Methode besser geeignet ist. Ziel muss ja nicht sein, sofort einen fixfertigen Text zu produzieren. Diktieren eignet sich möglicherweise fürs Brainstorming: nicht für einen schön formulierten Endtext, sondern für ein grobes Konstrukt, einen Arbeitstext.

    Perfekt für Protokolle, Gesprächsnotizen und das Brainstorming

    In gewissen Bereichen ist das ohnehin üblich: Protokolle einsprechen, Gesprächsnotizen nach einem Interview festhalten oder Gedächtnisstützen aufnehmen. Da geht es weniger um wohlgeformte Sätze als darum, möglichst schnell alles festzuhalten, bevor Erinnerungen verblassen.

    Nach diesem ersten eingesprochenen Blogpost würde ich sagen: Es ist falsch, das als Entweder-oder – Tastatur oder Diktat – zu sehen. Eher als Ergänzung, als zusätzliche Möglichkeit. Früher war das vielleicht nur «Herr Direktor» mit privater Sekretärin vorbehalten. Ich gendere hier bewusst nicht, weil diese Rollenverteilung damals tatsächlich so war.

    Heute können wir uns daran gewöhnen, dass wir nicht tippen müssen, um einen Text zu bekommen. Wir können sprechen – und die Technik erledigt den Rest.

    Das war das Fazit. Mal schauen, was die Software daraus macht.

    Hier einige Ergänzungen, ganz altmodisch getippt – zuerst mit zwei Hinweisen zu den verwendeten Apps:

    Das Voice Memo liefert den rohen Text zurück, ohne Abschnitte oder Gliederung. Ich habe diese Variante von ChatGPT straffen lassen². Die Änderungen, die ich selbst vorgenommen habe, sind oben entsprechend markiert.

    Auf das Denken kommt es an

    Anhand dieses Resultats lässt sich das vorläufige Fazit differenzieren: Trotz der Überarbeitung ist mir der diktierte Text zu platt und eindimensional. Es mag Leute geben, die besser in der Lage sind, druckreif zu formulieren. Aber selbst bei denen würde sich zeigen, dass die gesprochene und die geschriebene Sprache zwei verschiedene Paar Stiefel sind. Es geht nicht bloss um die unterschiedliche Methode der Texterfassung. Der entscheidende Punkt ist die andere Art des Denkens: spontan und linear versus reflektiert, verdichtet und stärker gestaltet.

    Macwhisper liefert eine Rohfassung, ohne Gliederung durch Absätze.

    Das ist einerseits grossartig: Vor 28 Jahren testete ich Viavoice von IBM. Sie forderte nicht nur der Hardware einiges ab, sondern ebenso den Nutzerinnen und Nutzern: Die mussten weniger bekannte Wörter buchstabieren und auch Satzzeichen wie das Komma oder den Punkt als solche benennen. Dass das vom Denken ablenkt, versteht sich von selbst. Ich hatte schon damals die Idee, einen Teil des Artikels zu diktieren. Im Vergleich zu dem schwer verständlichen Resultat erhalten wir vom Gespann aus Whisper und ChatGPT heute eine einwandfreie, nahezu perfekte Transkription. Der Traum von damals ist wahr geworden.

    Toll fürs Brainstorming – kaum eine Hilfe fürs Schreiben

    Und dass das noch einmal deutlich gesagt sei: Fürs Brainstorming ist diese Methode grossartig. Ich exerzierte sie letztens anhand eines Vortrags durch, den ich demnächst halten soll: Ich sprach meine Ideen ins Unreine und erhielt innert einer Viertelstunde ein brauchbares Konzept, das sich per KI wunderbar strukturieren liess. Mehr dazu – und zu der verwendeten iPhone-App – Whisper Notes erkläre ich im Beitrag So fliessen die Ideen ungehindert.

    Was den eigentlichen Zweck – die Zeitersparnis beim Schreiben oder Bloggen – angeht, lässt sich die Ernüchterung nicht verstecken: Trotz dieses Fortschritts wandern Ideen nicht wie von Zauberhand aus unseren Köpfen auf den Bildschirm. Das Mikrofon macht die Tastatur nicht überflüssig. Die Haupterkenntnis ist, dass nicht das Tippen der anstrengende Teil der Arbeit ist, sondern das Denken. Wer hätte das gedacht?

    Fussnoten

    1) Die Beschränkung lag daran, dass ich die Software ohne Log-in testete. Mit Anmeldung können wir bis zu zwei Minuten gratis transkribieren. Für den ganzen Blogpost hätte das dennoch nicht gereicht – der war knapp sechs Minuten lang. ↩

    2) Das war der Prompt:

    Hier habe ich einen Blogpost eingesprochen. Bitte bearbeite dieses Transkript für bessere Lesbarkeit, indem du Absätze hinzufügst. Redigiere bzw. verdichte Passagen, die sich nach gesprochener Sprache anhören, aber behalte die Abfolge der Gedanken und sämtliche Aussagen bei.

    Das Resultat: Aus der Aufnahme von 6:53 Minuten entstand ein Rohtext von 5125 Zeichen. Die bereinigte Version, die ich oben eingefügt habe, ist 3267 Zeichen lang. Ein Beispiel für KI-redigierte Fassung. Im Original heisst es:

    Anlass für diesen Versuch ist die Software AudioPen. Sie verspricht genau das. Man soll nicht seine Ideen irgendwie notieren oder sondern einfach indem man sie ausspricht, quasi in einen klaren Text verwandeln. Ich habe das ausprobiert, AudioPen, und das Resultat war nicht schlecht, aber da es eine Zeitbeschränkung gibt von 20 oder 30 Sekunden, konnte ich nicht meinen ganzen Blogpost einsprechen.

    Die von ChatGPT bereinigte Passage liest sich wie folgt:

    Anlass ist die Software Audiopen. Sie verspricht, gesprochene «Ideen direkt in klaren Text zu verwandeln».

    Ich habe Audiopen getestet. Das Resultat war nicht schlecht, aber wegen einer Zeitbeschränkung von zwanzig oder dreissig Sekunden konnte ich keinen ganzen Blogpost einsprechen.

    Das ist einwandfrei. ↩

    Beitragsbild: Die Transkription aus einer Zeit der sexistischen und rassistischen Rollenverteilungen (Mart Production, Pexels-Lizenz).

    #KI #Retro #Transkription

    Transkription und künstliche Intelligenz

    Im Rahmen eines Vortrags bei meinem Ahnenforscherkreis Schorndorf habe ich mich vor fast einem halben Jahr mit dem Thema »Genealogie und KI« beschäftigt und auch einige Tests hierzu durchgeführt. Die Ergebnisse und Resultate dazu können in der entsprechenden Präsentation nachvollzogen werden und sind meiner Meinung nach gut dargestellt. Leider muss man aber sagen …

    https://geiger-zaehler.de/blog/273-transkription-und-kuenstliche-intelligenz

    #blog #genealogie #transkription #ki #ai

    Wenn KI mithört: Was Unternehmen bei der Transkription von Gesprächen beachten müssen

    Die automatische Transkription von Telefongesprächen und Videokonferenzen durch KI-Systeme verspricht Effizienzgewinne im Berufsalltag, bspw. auch im Kundenservice. Doch die rechtlichen Anforderungen sind komplex und werden von Unternehmen oft unterschätzt. Im Folgenden erhalten Sie einen Überblick

    datenschutz notizen | News-Blog der DSN GROUP

    RE: https://fedihum.org/@Owiwibea/116250447239077193

    Wie ich die #DHd2026 verpasst? (Fast) kein Problem, dank der fleißig bloggenden Stipendiat:innen und Kolleg:innen.
    👇hier der Beitrag von @Owiwibea , die jetzt Praktikantin bei uns am @dhiparis ist, und deren brandneuem Mastodon-Account Ihr bei der Gelegenheit gleich mal folgen könnt 🥳

    #neuhier #digitalhumanities #transkription

    Ein paar Wochen nach der #DHd2026 in Wien habe ich meine Workshop-Notizen zu einem Blogpost ausgearbeitet: https://dhd-blog.org/?p=23426

    Es geht um Modellierung jenseits von Named Entities, Transkription mit #Whisper und darum, wie Daten überhaupt erst durch Tools und Entscheidungen entstehen.

    #Modellierung #Transkription #Forschungsdaten #DigitalMethods #TEI #RDF

    From Modelling to Transcription: Workshop Notes from DHd2026 | DHd-Blog