Is anyone working on a German ParlaMint corpus? Or are there any other large corpora of Bundestag debates out there in open access?
Is anyone working on a German ParlaMint corpus? Or are there any other large corpora of Bundestag debates out there in open access?

Attached: 1 image 🔔 Update Januar 2026 🔔 Alle 4566 Plenarprotokolle des Deutschen Bundestages von 1949 bis Anfang 2026 (Stichtag: 17. Januar 2026) ab sofort im 'Corpus der Plenarprotokolle des Deutschen Bundestages' (CPP-BT) abrufbar. 🔶 Features 🔶 + Insgesamt bis zu 35 Variablen in der CSV-Variante + Plenarprotokolle von der 1. Wahlperiode bis zur neuesten 21. Wahlperiode am Stichtag + Aufteilung in Einzelreden u.a. mit ID, Name, Fraktion und Amt der Redner:in (ab 18. Wahlperiode) + Aufteilung in Protokollbestandteile: Inhaltsverzeichnis, Sitzungsverlauf, Anlagen, Rednerliste (ab 18. Wahlperiode) + Fortlaufende Aktualisierung (Datensatz kann zusätzlich via Pipeline täglich aktualisiert werden) + Urheberrechtsfreiheit + Offene und plattformunabhängige Formate (PDF, TXT, CSV, XML, Parquet) + Linguistische Kennzahlen + Umfangreiches Codebook + Compilation Report, um den Erstellungs-Prozess zu erläutern + Dutzende Diagramme und Tabellen für alle Zwecke (im ZIP-Archiv 'ANALYSE') + Diagramme liegen jeweils in einem für den Druck (PDF) und das Web (PNG) optimierten Format vor + Kryptographische Signaturen + Veröffentlichung des Source Codes (Open Source) 🔶 Download 🔶 💾 Datensatz: https://doi.org/10.5281/zenodo.4542661 📒 Codebook: https://zenodo.org/records/15462956/files/CPP-BT_2025-05-24_Codebook.pdf?download=1 💻 Source Code: https://doi.org/10.5281/zenodo.4542665 #Bundestag #Plenarprotokoll #Rede #Debatte #Legislative #Gesetzgebung #Parlament #Gesetz #Verordnung #Politik #Rechtsstaat #OpenData #OpenScience #OpenSource #RStats #Law @[email protected] @[email protected] @[email protected]
@ElenLeFoll das vielleicht interessant?