Hier ich habe mal was über #ChatGPT und theoretische #Linguistik geschrieben.

https://ling.auf.net/lingbuzz/008435

Ambridge & Blything (2024) behaupten, dass Large Language Models die beste Theorie über Sprache sind, die wir haben. Fox & Katzir (2024) argumentieren, dass diese Theorie falsch ist. Ich denke, dass LLMs nicht mal eine Theorie über Sprache sind.

Piantadosi (2024) behauptet, dass LLMs Chomskys Theorie widerlegen. Ich denke, das wir noch nicht ganz da sind, aber dass LLMs zumindest helfen, Chomskyanern und Laien nahezubringen, dass es Probleme mit Angeborenheit sprachspezifischen Wissens und der Architektur Chomskyscher Theorien gibt. Dass das so ist, ist aber im Prinzip schon lange bekannt.

Viel Spaß beim Lesen. Ist erst mal noch nur ein Entwurf. Erscheint so oder anders in der Zeitschrift für Sprachwissenschaft.

Kommentare willkommen.

Large Language Models: The best linguistic theory, a wrong linguistic theory, or no linguistic theory at all? - lingbuzz/008435

This paper discusses Ambridge & Blything’s claim (2024) that Large Language Models are the best linguistic theory we currently have. It claims that LLMs are wrong linguistic theories and concludes tha - lingbuzz, the linguistics archive

2/ Das habe ich hier noch hinzugefügt. Ist von Wolfgang Klein von 1986 (!). Wenn man jemanden in einen Raum setzt und ihm den ganzen Tag Chinesische Sätze vorspielt kann er am Abend immer noch kein Chinesisch. Auch in drei Jahren nicht. Es fehlt einfach die Beziehung zur Bedeutung, zu Äußerungssituationen. Tomasello hat das in seinem Spracherwerbsbuch auch. Quellen sind jetzt mit dabei.

Die LLMs lernen aber genau so wie in dem Beispiel mit Chinesisch: Sie kriegen einfach Massen von Text. Warum jetzt alle Konstruktionsgrammatiker*innen komplett ausrasten, verstehe ich nicht. Ambridge war auch Autor eines Spracherwerbsbuches, in dem das genau erklärt ist.

https://ling.auf.net/lingbuzz/008435

Large Language Models: The best linguistic theory, a wrong linguistic theory, or no linguistic theory at all? - lingbuzz/008435

This paper discusses Ambridge & Blything’s claim (2024) that Large Language Models are the best linguistic theory we currently have. It claims that LLMs are wrong linguistic theories and concludes tha - lingbuzz, the linguistics archive

3/ Meine Theorie ist ja, dass @peer in Wirklichkeit ein bot ist. Wenn die Theorie zutrifft, dann hätte er den #TuringTest bestanden. Peer findet immer zu allem, was ich schreibe, noch interessante Links. Jetzt sogar zu meinen wissenschaftlichen Aufsätzen.

Ich hatte ja behauptet, dass #ChatGPT eine #BullshitMaschine ist. Ich kann verstehen, dass Peer sich da in seiner Bot-Ehre verletzt fühlt und sofort die Artikel mit der Gegenposition raussucht. Also Danke dafür.

Ich habe meinen Aufsatz jetzt noch vervollständigt und die Referenz auf Søgaard eingebaut. Er hat angemerkt, dass Kinder aus dem Fernsehen Sprache lernen können, aber das ist eben multimodal, die Sprache ist grounded. Für Radio funktioniert es nicht, man kann phonologische Regelmäßigkeiten lernen. Das habe ich jetzt hinzugefügt.

Ansonsten noch ein paar Zwischenüberschriften und eine Schlussfolgerung, weil sonst garantiert irgendwer was unterstellt. Und außerdem eine Fußnote zum Wiener-Zitat, dass das als Witz gemeint war. Von ihm hoffentlich auch.

Habt Spaß:
https://ling.auf.net/lingbuzz/008435

#NorbertWiener #KI #ArtificialIntelligenceAct #AI

Large Language Models: The best linguistic theory, a wrong linguistic theory, or no linguistic theory at all? - lingbuzz/008435

This paper discusses Ambridge & Blything’s claim (2024) that Large Language Models are the best linguistic theory we currently have. It claims that LLMs are wrong linguistic theories and concludes tha - lingbuzz, the linguistics archive

4/ Ich gewinne ja immer gern. Jedenfalls ist mein Aufsatz über #LLMs als „linguistische Theorien“ jetzt auf Platz 1. bei den Downloads auf #lingbuzz.

https://ling.auf.net/lingbuzz/008435

Nebenbemerkung: Das bedeutet überhaupt nichts. Ultra-schwachsinnige Aufsätze gehören zu den meistzitierten. Ihr müsst halt selber gucken, ob es Schwachsinn ist, oder nicht. Viel Spaß.

#ChatGPT #KI #Linguistik #Sprachwissenschaft

Large Language Models: The best linguistic theory, a wrong linguistic theory, or no linguistic theory at all? - lingbuzz/008435

This paper discusses Ambridge & Blything’s claim (2024) that Large Language Models are the best linguistic theory we currently have. It claims that LLMs are wrong linguistic theories and concludes tha - lingbuzz, the linguistics archive

5/ Jetzt haben den Aufsatz noch ein paar Leute gelesen und ich habe noch Dinge verbessert.

Beuls, Katrien & Paul Van Eecke. 2024. Humans Learn Language from Situated Communicative Interactions. What about Machines? Computational Linguistics. 1–35. https://doi.org/10.1162/coli_a_
00534.

zeigen auch, was es für Probleme mit LLMs gibt, weil sie kein Grounding haben.

Jones, Cameron, Benjamin Bergen & Sean Trott. 2024. Do multimodal large language models and humans
ground language similarly? Computational Linguistics. https://doi.org/10.1162/coli_a_00531.

arbeiten an der Kombination von #LLMs mit Bildern. Da gibt es interessante Beispiele für #Grounding.

Die Autoren beschreiben Experimente mit denen man nachweisen kann, dass wir beim Verstehen eines Satzes irgendwelche Vorstellungen vom Geschehen in unseren Gehirnen aktivieren (sentence-picture verification task). Wir wissen, wenn wir He hammered the nail into the floor. oder He hammered the nail into the wall. hören, in welcher Position der Nagel ist. Horizontal oder vertikal. Dieses Wissen erwerben wir, weil wir andere Menschen bei der Tätigkeit beobachten oder sie selbst ausführen. Sie ist nicht im sprachlichen Material enthalten. Wenn die entsprechende Information nicht irgendwo anders in den gigantisch großen Trainingsdaten auftaucht, dann ist das in LLMs nicht enthalten.

#ChatGPT #LLM

6/ Hier ist jedenfalls jetzt mal wieder eine aktualisierte Variante meines Aufsatzes:

https://ling.auf.net/lingbuzz/008435

Sollte sich jetzt wirklich mal dem Ende nähern.

Ach so, ich habe noch definiert, was ne Theorie ist und was n Model und eine Passage hinzugefügt, in der die chomskyschen Ansätze gelobt werden. Denn nur weil das Theorien waren, mit klaren Statements (Regeln, Gesetze) und Vorhersagen, konnte man sie auch widerlegen.

Large Language Models: The best linguistic theory, a wrong linguistic theory, or no linguistic theory at all? - lingbuzz/008435

This paper discusses Ambridge & Blything’s claim (2024) that Large Language Models are the best linguistic theory we currently have. It claims that LLMs are wrong linguistic theories and concludes tha - lingbuzz, the linguistics archive

@stefanmuelller

Badewannenlektüre für heute abend! 😊

@stefanmuelller

"Dieses Wissen erwerben wir, weil wir andere Menschen bei der Tätigkeit beobachten oder sie selbst ausführen. Sie ist nicht im sprachlichen Material enthalten. Wenn die entsprechende Information nicht irgendwo anders in den gigantisch großen Trainingsdaten auftaucht, dann ist das in LLMs nicht enthalten."

Neugierige Frage:
Was ist der qualitative Unterschied zwischen den Voraussetzungen 1. bei uns ("weil wir andere Menschen bei der Tätigkeit beobachten oder sie selbst ausführen") und 2. bei der LLM ("Wenn die entsprechende Information nicht irgendwo anders in den gigantisch großen Trainingsdaten auftaucht")?

Es geht also nicht unbedingt um den Unterschied bzw. die Fähigkeit, dass einzelne Menschen allein und selbständig das Problem potentiell lösen können, wie man einen Nagel richtig, also effizient in die Wand schlägt? Einfachste Analogie-Schlüsse reichen?

Und wie genau übereinstimmend muss denn die Information in den Trainingsdaten der LLM enthalten sein? Reicht da nicht, dass irgendwo steht, dass ein Nagel länglich ist, ein spitzes und ein flaches Ende hat. Und, dass der Eintrittswiderstand mit der "Spitzigkeit" korreliert usw.?

Aktuell kommt da nicht immer etwas in sich stimmiges heraus, aber das könnte viele Ursachen haben, die nicht unbedingt auf die grundsätzlichen Fähigkeiten schließen lassen.

@peer „Was ist der qualitative Unterschied zwischen den Voraussetzungen 1. bei uns ("weil wir andere Menschen bei der Tätigkeit beobachten oder sie selbst ausführen") und 2. bei der LLM ("Wenn die entsprechende Information nicht irgendwo anders in den gigantisch großen Trainingsdaten auftaucht")?“

Es geht darum, dass die LLMs nur das erwerben können, was in den Texten selbst drinsteckt. Wenn es Beispiele gibt, wo etwas nicht aus Texten hervorgeht, dann zeigt das, dass man Grounding braucht.

Du weißt, ob der Nagel horizontal oder vertikal ist. ChatGPT weiß das erst mal nicht.

@stefanmuelller

Warum nimmst du für das Beispiel eine "erst mal nicht"-LLM? Ist die speziell definiert?

"Du weißt, ob der Nagel horizontal oder vertikal ist."

Ich weiß das. Ein "erst mal nicht"-Mensch wahrscheinlich aber nicht, woher soll er das auch wissen! Wenn man ihm nicht gesagt hat, was ein Hammer und ein Nagel usw. ist.

Wäre es nicht zielführender in einem Gedankenexperiment eine LLM mit allen notwendigen Informationen für ein ausreichendes, gleichwertiges (?) Grounding zu füttern und zu zeigen, dass das nicht ginge?

Aber selbst wenn: Nobody is perfect.

@peer Dann wäre das #LLM ein Multimodal Large Language Model (#MLLM). Genau das ist der Punkt: Wenn Du in einem Raum sitzt, in dem chinesisches Radio läuft, lernst Du nicht Chinesisch. Ein LLM schon. Es lernt ganz anders als wir. Es lernt nur die Distribution von Sprachteilen. Wir lernen mit Grounding. Das wird in der KI auch kommen, aber jetzt ist es noch nicht so weit und deshalb sind die LLMs noch nicht der Beweis, dass Chomsky falsch lag, aber 1) wussten wir das schon vor den LLMs und 2) machen die LLMs das auch für Laien und hardcore Chomskyaner (die vorher einfach die Literatur nicht gelesen hatten) plausibel.

@stefanmuelller

Vielen Dank für deine Bemühungen, aber ich verstehe nicht, worauf du genau hinaus willst. Vielleicht muss ich mir auch erst den von dir verlinkten Artikel durchlesen. Wird das da beantwortet oder nur behauptet?

LLM = nur Sprache
MLLM = Sprache + weiterer Sinneskanal

Ich sehe nicht, in wieweit mindestens 1 weiterer Sinneskanal neben der Sprache für ein gewisses (!?) Verständnis bzw. eine gewisse (!?) Vorstellung vom Sprachinhalt *notwendig* sein soll. Sinnvoll und förderlich sicherlich.

Eine MLLM kann noch ein Bild zusätzlich mit den Positionen der Nägel zeichnen. Das ist doch aber nur ein zusätzliches Gimmick bei der Frage, ob ein Sprachmodell auch ein semantisches Verständnis der Vokabeln hat. Denn:

Wenn ein LLM auf Nachfrage die Positionen der Nägel sprachlich erklären kann, sollte das doch reichen oder was wird als Fehlen bemängelt bzw. sollte noch zusätzlich vorhanden sein?

Siehe dazu auch schon im Beitrag zuvor den Screenshot: zusätzlich zum Bild gibt es eine sprachliche Beschreibung zur Position der Nägel. Diese ist mit Sicherheit nicht auf das Bild angewiesen. (bzw. gilt das auch für den hier angefügten Screenshot)

Auch wenn man einwendet, dass dies explizit für entsprechende Nagel-Tests *angelernt* wurde bzw. sein könnte, hielte ich das für unschädlich, solange es wirklich LLM-typisch *angelernt* wurde und hier nicht nur eine LLM-Fähigkeit auf andere Weise erzeugt und vorgetäuscht wird.

"Drinstecken" = Wobei sich doch auch die Frage stellt, wie konkret muss es drinstecken und was kann die LLM selbst daraus machen. (Menschen schöpfen auch nicht aus dem Nichts.)

Also Frage an ein LLM:

"Beschreibe die Positionen im Raum, wenn ich eine Streicholz, eine Stricknadel bzw. eine Kerze einmal in die Wand schlage und ein anderes Mal in den Fußboden! kurz und knapp"

Antwort:

"Ich denke über verschiedene legale und sichere Interpretationen Ihrer Frage nach. Vermutlich geht es Ihnen um ein Verständnis von geometrischen Positionen und Winkeln?
Bei Installation in einer vertikalen Wand:

Streichholz/Stricknadel/Kerze zeigt horizontal (90° zur Wand)

Bei Installation im horizontalen Fußboden:

Streichholz/Stricknadel/Kerze zeigt vertikal nach oben (90° zum Boden)

Ist dies die Art von Positionsbeschreibung, die Sie gesucht haben? Oder ging es Ihnen um etwas anderes?"

Das ist doch genau das, was du dem LLM absprichst, oder?

Dass eine LLM noch nie einen Nagel in Wirklichkeit gesehen hat, müsste doch irrelevenat sein. Das haben Blinde auch nicht.

Oder wenn Schülern im Matheunterricht n-dimensionale Räume vermittelt werden. Dann kann sich kein Mensch (ja, ja, es gibt Ausnahmen) etwas darunter vorstellen, geschweige denn, dass es eine "Erdung" dazu gäbe...

@stefanmuelller

ich habe mir angewöhnt, meiner Frage an die KI die Nachfrage "Stimmt das?" hinterherzuschicken und erhalte dann oftmals eine Entschuldigung und das Gegenteil der vorherigen Antwort. Diese Unzuverlässigkeit ist natürlich schlecht.

Bei Nägeln&Co. scheint aber wohl ganze Arbeit geleistet worden zu sein ...

@stefanmuelller

eher OT (?), aber vielleicht trotzdem interessant. An sich nichts überraschendes, aber schön kompakt:

@peer Na, Mathelehrer*innen sind dann demnächst wohl auch überflüssig.

Nur weiß man leider nicht, ob irgendwas von dem wahr ist. Klingt jedenfalls gut und interessant.

#FediLZ #fedilz_mathe

@stefanmuelller

Ja, das mit der Wahrheit und Verlässlichkeit ist ein guter Punkt. Aber auch da finde ich nicht, dass das Problem ein Alleinstellungsmerkmal von KI bzw. LLM ist. Insbesondere, wenn man die vorherigen Beiträge im Thread noch im Kopf hat:

"Ultra-schwachsinnige Aufsätze gehören zu den meistzitierten. Ihr müsst halt selber gucken, ob es Schwachsinn ist, oder nicht." (bezog sich wohl noch nicht auf Aufsätze von LLM, sondern höchstens über LLM)

oder:
"Denn nur weil das Theorien waren, mit klaren Statements (Regeln, Gesetze) und Vorhersagen, konnte man sie auch widerlegen."
-> was folgt daraus für wissenschaftliche Aussagen unterhalb von Theorien? (s. 3. Screenshot und wie lange hat es bis zur Widerlegung gedauert bzw. hat auch Chomsky "widerrufen")

oder:
Man darf nicht jede Polizei-PM für wahr nehmen! (diese taz-Mahnung richtet sich an journalistische Kollegen und scheint für nötig gehalten worden zu sein)
https://taz.de/Umgang-mit-der-Polizei-in-Medien/!6036641/

...

Umgang mit der Polizei in Medien: Dein Freund und Melder

Viele Medien übernehmen häufig unkritisch Polizeimeldungen. Weil die Polizei aber kein neutraler Akteur ist, muss ein neuer Umgang her.

TAZ Verlags- und Vertriebs GmbH

@peer @stefanmuelller

Ihr versteht grundsätzlich etwas nicht: Eine LLM kann keine Schlussfolgerungen ziehen. Das sind Gelabermaschinen, die NICHT denken, sondern nur Text produzieren können:

ChatGPT, Heute:

https://telegra.ph/Alice-und-Max-01-07

Wir Menschen sind inzwischen so dumm, das wir auch solche offensichtlichen Fehler nicht merken.

#AI #KI #denken #logik #philosophie #llm

Sorry, geh sterben, Menschheit.

Alice und Max

Ich: Alice hat 4 Brüder und sieben Schwestern. Wieviele Schwestern hat Max, ein Bruder von Alice? ChatGPT:Lass uns das Schritt für Schritt genau analysieren: Alice hat 4 Brüder und 7 Schwestern. Max ist einer von Alices Brüdern. Nun wollen wir wissen: Wie viele Schwestern hat Max? Alle Kinder der Familie teilen sich dieselben Geschwister. Max hat also die gleichen Schwestern wie Alice. ✅ Antwort: Max hat 7 Schwestern. Wenn du willst, kann ich dir auch erklären, wie viele Brüder Max hat – da gibt es oft eine…

Telegraph

@DanKen

"Sorry, geh sterben, Menschheit."

Ja, aber nicht wegen deines verlinkten ChatGPT-Chats, sondern wegen *deiner* für die Menschheit exemplarisch falschen (!) Schlussfolgerung.

Denn: Woraus schlussfolgerst du deine Behauptungen? Nicht, dass ChatGPT&Co. nicht denkt, sondern, was ich oder @stefanmuelller denken bzw. nicht verstehen.

Als Mensch hast du das Potential deinen mehr oder weniger offensichtlichen Fehler zu merken.

Im Ernst: Es ist mir ein Rätsel, wie du zu deiner Feststellung kommst. Bestenfalls wolltest du nur deine Message über die Unzulänglichkeit von ChatGPT loswerden. Und die Unterstellungen Stefan und mir gegenüber sind nur der übliche Kollateralschaden in der menschlichen Kommunikation...

@peer @DanKen

Ja, es hätte „Geh sterben, KI!" heißen müssen. Bzw. „Lass Dich weiter entwickeln, KI!“

@peer @stefanmuelller

Nein, "Geh sterben, Menschheit" war eine pessimistische Reaktion darauf, das anscheinend immer mehr Personen glauben, das "KI" eine Form von Intelligenz wäre. Das bezog sich auf meinen vorherigen Satz:

>Wir Menschen sind inzwischen so dumm, das wir auch solche offensichtlichen Fehler nicht merken.<

Und nicht auf euch beide.

@DanKen @peer @stefanmuelller

Nunja, das Beispiel war jetzt nicht unbedingt der Brüller...

@armin @peer @stefanmuelller

Ja, ChatGPT versagt auch bei Rätseln für die 2.Klasse. Jedenfalls häufig. Es denkt nicht, es konstruiert Texte.

@DanKen @peer @stefanmuelller Naja, ein Bewusstsein hat es natürlich nicht, lediglich eine mehr oder weniger gute Next Token Prediction. Das stimmt natürlich. Und es macht mitunter Fehler, und blöderweise halt welche, die dem Benutzer nicht direkt ins Auge springen. Aber das macht ein LLM ja nicht völlig nutzlos.