Johann-Mattis List

158 Followers
106 Following
65 Posts
I lead the chair of Multilingual Computational Linguistics at the University of Passau. In my research, I try to find computational solutions for various tasks in which languages are compared, thereby investigating questions on language evolution, linguistic typology, and human cognition.
Homepagehttps://lingulist.de
GitHubhttps://github.com/lingulist
Labhttps://calclab.org
Chair Websitehttps://www.geku.uni-passau.de/en/mcl/

Ich habe gerade das Skript zu meiner Vorlesung "Praktische Einführung in das wissenschaftliche Arbeiten" im Wintersemester 2025/2026 über Humanities Commons online gestellt, so dass es als Open Educational Resource frei zur Verfügung steht.

https://doi.org/10.17613/b1bfg-eek69

Ich habe gerade das Skript zu meiner Vorlesung "Sprachmodelle und Sprachverarbeitung" im Wintersemester 2025/2026 über Humanities Commons online gestellt, so dass es als Open Educational Resource frei zur Verfügung steht.

https://doi.org/10.17613/mxvmz-kwe54

New contribution to our Blog / Journal on Computer-Assisted Language Comparison in Practice, this time by our doctoral student David Snee and myself:

Computing Detailed Colexifications with Missing Data Information from the CLICS⁴ Collection

https://doi.org/10.15475/calcip.2026.1.2

https://calc.hypotheses.org/9164

Computing Detailed Colexifications with Missing Data Information from the CLICS⁴ Collection | Computer-Assisted Language Comparison in Practice: Tutorials on Computational Approaches to the History and Diversity of Languages

I just released EvoBib 1.11, my quote and reference collection that offers a bibliography for historical linguistics, linguistic typology, and beyond.

Browse online at: https://evobib.digling.org

Get data at: https://doi.org/10.5281/zenodo.18668178

EvoBib

Mein Blogbeitrag im Februar via @dehypotheses beschäftigt sich mit der Etymologie von Tabuwörtern, die häufig lautmalerisch motiviert werden.

Vom Winden vor Winden

https://wub.hypotheses.org/3348

Vom Winden vor Winden

Mit viel linguistischem Interesse habe ich vor kurzem einen populärwissenschaftlichen Artikel von Schubert (2026) gelesen, der von einer Forschungsgruppe handelt, der es gelungen war, die täglichen Blähungen von Menschen viel genauer als zuvor zu messen (Botasini et al. 2025). Dieser Gruppe war es gelungen, einen spezifischen Unterhoseneinsatz zu konstruieren, welcher sich als smart wearable via […]

Von Wörtern und Bäumen

A review article on the interesting technique of Object Naming by our doctoral student Alžběta Kučerová (and to a small degree myself) just appeared in Language and Linguistics Compass.

https://doi.org/10.1111/lnc3.70034

New preprint by @fblum (major idea and implementation) and me (the one who criticized and commented), introducing a new approach on regularity assessment.

"Using correspondence patterns to identify irregular words in cognate sets through leave-one-out-validation"

https://arxiv.org/abs/2602.02221

Using Correspondence Patterns to Identify Irregular Words in Cognate sets Through Leave-One-Out Validation

Regular sound correspondences constitute the principal evidence in historical language comparison. Despite the heuristic focus on regularity, it is often more an intuitive judgement than a quantified evaluation, and irregularity is more common than expected from the Neogrammarian model. Given the recent progress of computational methods in historical linguistics and the increased availability of standardized lexical data, we are now able to improve our workflows and provide such a quantitative evaluation. Here, we present the balanced average recurrence of correspondence patterns as a new measure of regularity. We also present a new computational method that uses this measure to identify cognate sets that lack regularity with respect to their correspondence patterns. We validate the method through two experiments, using simulated and real data. In the experiments, we employ leave-one-out validation to measure the regularity of cognate sets in which one word form has been replaced by an irregular one, checking how well our method identifies the forms causing the irregularity. Our method achieves an overall accuracy of 85\% with the datasets based on real data. We also show the benefits of working with subsamples of large datasets and how increasing irregularity in the data influences our results. Reflecting on the broader potential of our new regularity measure and the irregular cognate identification method based on it, we conclude that they could play an important role in improving the quality of existing and future datasets in computer-assisted language comparison.

arXiv.org

First contribution in this year to our blog / journal on Computer-Assisted Language Comparison in Practice.

"Transparent Application of Text Generation Tools in Scientific Research"

https://calc.hypotheses.org/9138

Transparent Application of Text Generation Tools in Scientific Research

In this opinion piece, I share my view on the application of language models and text generation services in scientific research. In my opinion, scientific research that lives up to the promises of open science must provide full documentation of all prompts and exchanges that were used to create a given study. A mere mention […]

Computer-Assisted Language Comparison in Practice

Erfundene Bücher, ausgedachte Geburtsdaten etc.: Für Äußerungen von ChatGPT & Co., die keinen Bezug zur Wahrheit haben, hat sich der Begriff "Halluzinationen" etabliert. Das kritisieren nicht nur Psycholog:innen - die stattdessen den Begriff "Konfabulation" vorschlagen -, es macht auch aus linguistischer Perspektive keinen Sinn, schreibt @lingulist 👇

https://wub.hypotheses.org/3313

#ChatGPT #LLM #Chatbot #Halluzinationen

Vom Fabulieren und Halluzinieren

In der letzten Zeit wird sehr oft vom Halluzinieren gesprochen. Allerdings nicht in Bezug auf Menschen, die ja auch selten von Halluzinationen heimgesucht werden, als vielmehr in Bezug auf Sprachmodelle, die komische Antworten liefern, die keinen Sinn ergeben oder sich angebliche Fakten zusammenfabulieren, für die es keine Belege gibt. Dass es problematisch ist, dieses nicht […]

Von Wörtern und Bäumen

Mein Blogbeitrag im Januar via @dehypotheses beschäftigt sich mit dem Begriff der "Halluzinationen" von Sprachmodellen, einen Ausdruck, den ich kritisch sehe.

https://wub.hypotheses.org/3313

Vom Fabulieren und Halluzinieren

In der letzten Zeit wird sehr oft vom Halluzinieren gesprochen. Allerdings nicht in Bezug auf Menschen, die ja auch selten von Halluzinationen heimgesucht werden, als vielmehr in Bezug auf Sprachmodelle, die komische Antworten liefern, die keinen Sinn ergeben oder sich angebliche Fakten zusammenfabulieren, für die es keine Belege gibt. Dass es problematisch ist, dieses nicht […]

Von Wörtern und Bäumen