Eine neue Studie, in der 740000 Stunden menschlicher Sprache analysiert wurden, findet Belege dafür, dass wir anfangen, wie #LLMs (hauptsächlich #ChatPGT) zu sprechen. Nicht nur in E-Mails. Auch in mündlicher Sprache: https://arxiv.org/abs/2409.01754
Schon bekannt ist, warum LLM-generierte Texte bestimmte Wörter häufiger verwenden. Wer das Wort „delve” in einer E-Mail sieht, kann vermuten, dass sie von einem Bot geschrieben wurde. Hiromu Yakura, Ezequiel Lopez-Lopez, Levin Brinkmann, Ignacio Serna, Prateek Gupta, Ivan Soraperra und Iyad Rahwan fragten aber darüberhinaus: Hat unser Einsatz von LLMs zum Schreiben von Texten einen Einfluss auf die Art, wie wir spontan sprechen?
Die Antwort lautet Ja.
Um das zu beweisen, haben die Forscher*innen nicht Texte untersucht (die leicht zu fälschen sind). Stattdessen verwendeten sie gesprochene Audioaufnahmen. Sie transkribierten:
• 360445 akademische Vorträge auf YouTube
• 771591 Podcast-Episoden
Das sind über 740000 Stunden, in denen menschliche Personen zu anderen sprechen.
Zuerst mussten sie einen „KI-Sprachstil” identifizieren. Sie verglichen menschliche Texte mit ChatGPT-Bearbeitungen, um Wörter zu finden, die vorrangig von LLMs verwendet werden. Wo diese Wörter vorkommen, ist der „GPT-Score” hoch. Die häufigsten:
• Delve (vertiefen)
• Meticulous (akribisch)
• Swift (flink)
• Comprehend (verstehen)
• Boast (prahlen)
Dann haben sie sich die Zeitachse angesehen. Die verwendete Methode heißt „Synthetic Control”: Damit wird mathematisch vorhergesagt, wie oft Menschen „delve” gesagt hätten, wenn ChatGPT nie existiert hätte. Das haben sie mit der Realität verglichen.
Das Ergebnis ist eindeutig: Gerade, als ChatGPT veröffentlicht wurde (November 2022), stieg die Verwendung von „delve” in gesprochenen Audioaufnahmen sprunghaft an. Und das geschah in spontanen Podcast-Gesprächen, nicht nur in vorab geschriebenen akademischen Vorträgen.
Das belegt, dass wir nicht nur LLM-Texte copypasten. Wir verinnerlichen. Die Forscher*innen nennen das die „geschlossene kulturelle Rückkopplungsschleife”. LLMs trainieren mit menschlichen Daten. LLMs entwickeln einen „Stil” (höflich, wortreich). Menschliche Sprecher*innen übernehmen diesen Stil. Zukünftige LLMs trainieren anhand dieser neuen Äußerungen.
Nachgewiesen wurde diese Verschiebung in allen Bereichen: Wissenschaft, Wirtschaft, Bildung – sogar spontanes Plaudern tendiert zum bevorzugten Vokabular großer Sprachmodelle. Wir homogenisieren langsam und unbewusst unsere Sprache passend zu maschinellen Textgeneratoren.
Damit muss der Modellkollaps noch einmal größer gedacht werden. Wenn Leute anfangen, wie LLMs zu klingen, und LLMs auf diesen Äußerungen trainiert werden, verlieren wir unsere sprachliche Vielfalt. Wir werden zu einer Rückkopplungsschleife aus „meticulous delves“ und „swift comprehensions“. Die Nuancen verschiedener Kulturen werden getilgt. Die Studie bezeichnet das als „kulturelle Singularität“ – den Punkt, an dem die Grenze zwischen menschlicher Kultur und Maschinenoutputs so sehr verschwimmt, dass sie nicht mehr unterscheidbar sind.
Wenn es noch eines Arguments gegen alltäglichen LLM-Einsatz bedurft hätte: Diese Studie müsste es sein.

Empirical evidence of Large Language Model's influence on human spoken communication
From the invention of writing and the printing press, to television and social media, human history is punctuated by major innovations in communication technology, which fundamentally altered how ideas spread and reshaped our culture. Recent chatbots powered by generative artificial intelligence constitute a novel medium that encodes cultural patterns in their neural representations and disseminates them in conversations with hundreds of millions of people. Understanding whether these patterns transmit into human language, and ultimately shape human culture, is a fundamental question. While fully quantifying the causal impact of a chatbot like ChatGPT on human culture is very challenging, lexicographic shift in human spoken communication may offer an early indicator of such broad phenomenon. Here, we apply econometric causal inference techniques to 740,249 hours of human discourse from 360,445 YouTube academic talks and 771,591 conversational podcast episodes across multiple disciplines. We detect a measurable and abrupt increase in the use of words preferentially generated by ChatGPT, such as delve, comprehend, boast, swift, and meticulous, after its release. These findings suggest a scenario where machines, originally trained on human data and subsequently exhibiting their own cultural traits, can, in turn, measurably reshape human culture. This marks the beginning of a closed cultural feedback loop in which cultural traits circulate bidirectionally between humans and machines. Our results motivate further research into the evolution of human-machine culture, and raise concerns over the erosion of linguistic and cultural diversity, and the risks of scalable manipulation.

