Mastodawn

Ich weiß immer noch nicht, ob LLMs wirklich kein Reasoning können wie immer wieder behauptet und auch durch zahlreiche Studien anscheinend belegt wurde. Kann mir das mal jemand erklären?

Wenn sie kein Reasoning können wie lösen sie dann mathematische Probleme auf neue Art, finden bislang unbekannte IT-Sicherheitslücken und unterstützen bei der Lösung bislang noch gar nicht gelöster mathematischer Probleme?

Leider sehe ich zu dem Thema online sehr viel Meinung ohne Substanz.

Show thread

Stephan Dörner 4d ago

Was Gemini Pro dazu sagt:

„Reine Sprachmodelle (Base LLMs) können im menschlichen Sinne tatsächlich nicht 'denken' oder schlussfolgern. Aber die modernen KI-Systeme, in die diese LLMs eingebettet sind, führen Prozesse aus, die funktional von echtem logischen Denken kaum noch zu unterscheiden sind."

https://docs.google.com/document/d/1EkYgv5WrrYs-Vqkmc3Hvw3Ty4c2AEXmUfJASq-eugPg/edit?tab=t.0

LLMs: Mustererkennung vs. Logisches Denken

Das ist eine der spannendsten, am hitzigsten diskutierten und am meisten missverstandenen Fragen in der gesamten KI-Forschung. Deine Frustration über "Meinungen ohne Substanz" ist absolut berechtigt, denn in dieser Debatte prallen oft philosophische Überzeugungen und technisches Unverständnis auf...

Google Docs

Show thread

it me

4d ago

@doener Ich bin da bei Gemini. Hat es ganz gut ausgedrückt.
Es ist halt nicht Schwarz-Weiß, wie viele es gern abtun, sondern eine Technologie deren beständige Optimierung durchaus darin münden könnte, dass wir AGI bekommen. Wir sind halt gerade irgendwo auf der Reise von „gut zum Nächstes-Wort-Würfeln“ zu „es ist zu schlau und schnell für uns“.

Show thread

it me

4d ago

@doener Reasoning vs. Non-Reasoning ist nur ein kleiner Teil der technologischen Entwicklung, der aber ganz schön Impact hatte. Agentic-Harnesses bringen da heutzutage als Framework noch ein paar andere Sachen ins Spiel, die auch nicht unwichtig sind. (Tool-Usage & Memory/RAG)
In Summe, wenn man auf das Endergebnis des Technologieparks anschaut der da so entsteht und im schnellen Wandel ist, liegt Gemini schon richtig.

Show thread

Dr. Victoria Grinberg 4d ago

@doener "stochastic parrot" ist eventuell das Keyword, dass du brauchst. Es ist eine sehr gut gemachte Aneinanderreihung von Wahrscheinlichkeiten, im Fall der Mathe-Probleme mit ständiger Richtungskorrektur durch Gegenchecken (meist selbst durch ein ähnliches Wahrscheinlichkeitsmodell autonatisiert, da wird oft mit mehreren Agenten, die sich gegenseitig checken, gearbeitet).

Show thread

Stephan Dörner 4d ago

@vicgrinberg Diese Behauptung des stochastic parrot kenne ich aber ich bekomme sie nicht überein mit solchen Meldungen. Und LLM-Expert*innen habe auch schon gehört, dass das Bild des stochastic parrots in die Irre führe.

https://gowers.wordpress.com/2026/05/08/a-recent-experience-with-chatgpt-5-5-pro/

https://news.ycombinator.com/item?id=48071262

https://blog.calif.io/p/first-public-kernel-memory-corruption

https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-vulnerability/

A recent experience with ChatGPT 5.5 Pro

We are all having to keep revising upwards our assessments of the mathematical capabilities of large language models. I have just made a fairly large revision as a result of ChatGPT 5.5 Pro, to whi…

Gowers's Weblog

Show thread

Dr. Victoria Grinberg 4d ago

@doener dann bist du eben mitten in der (wissenschaftlichen) Diskussion drüber gelandet & es gibt die Sicherheit nicht, dass es DIE eine Meinung gibt.

Meine Erfahrunge: Ich arbeite mit an einigen (wissenschaftlichen) Projekten mit AI Methoden und habe bisher nichts gesehen, was dem stochastic parrot widersprechen würde.

In den von dir verlinkten Artikeln (habe ich kurz überflogen & nur erstes davon kommt wirklich von jemanden im Forschungsumfeld, oder?), sehe ich da ehrlich gesagt auch nichts.

Show thread

echopapa 4d ago

@doener

was ich so drüber gelesen hat arbeitet man da mit z.B. Reinforcement Learning. Plappert der Papagei Quatsch gibt's negative Bewertung, liegt er richtig gibt's eine Belohnung, also trial and error.

Zumindest für manche Problemstellungen kann man ja das was ein LLM generiert automatisiert bewerten und wieder per Feedback reinstopfen.

Ob man das Reasoning nennen will, ist eine andere Sache. Ich habe da auch Zweifel.

https://arxiv.org/abs/2501.09686

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

Language has long been conceived as an essential tool for human reasoning. The breakthrough of Large Language Models (LLMs) has sparked significant research interest in leveraging these models to tackle complex reasoning tasks. Researchers have moved beyond simple autoregressive token generation by introducing the concept of "thought" -- a sequence of tokens representing intermediate steps in the reasoning process. This innovative paradigm enables LLMs' to mimic complex human reasoning processes, such as tree search and reflective thinking. Recently, an emerging trend of learning to reason has applied reinforcement learning (RL) to train LLMs to master reasoning processes. This approach enables the automatic generation of high-quality reasoning trajectories through trial-and-error search algorithms, significantly expanding LLMs' reasoning capacity by providing substantially more training data. Furthermore, recent studies demonstrate that encouraging LLMs to "think" with more tokens during test-time inference can further significantly boost reasoning accuracy. Therefore, the train-time and test-time scaling combined to show a new research frontier -- a path toward Large Reasoning Model. The introduction of OpenAI's o1 series marks a significant milestone in this research direction. In this survey, we present a comprehensive review of recent progress in LLM reasoning. We begin by introducing the foundational background of LLMs and then explore the key technical components driving the development of large reasoning models, with a focus on automated data construction, learning-to-reason techniques, and test-time scaling. We also analyze popular open-source projects at building large reasoning models, and conclude with open challenges and future research directions.

arXiv.org

Show thread

1 Primåt 4d ago

@echopapa @doener wenn ich es richtig verstehe ist das nicht, was sie meint. also das model, wie gelernt wird. stattdessen meint „stochastic parrot“, dass sprechakte von llms nur imitiert werden und die bedeutung vom hörer*in hinzugefügt wird.

https://medium.com/@emilymenonbender/stochastic-parrots-frequently-unasked-questions-49c2e7d22d11

Stochastic Parrots 🦜: Frequently Unasked Questions

It’s been a bit over five years since the Stochastic Parrots paper (Bender, Gebru et al 2021) was published (and somewhat longer since…

Medium

Show thread

1 Primåt 4d ago

@doener mit „reasoning“ ist nach meinem verständnis letztlich logisches schließen gemeint. also zb schlüsse der form „aus A und ‚aus A folgt B‘ folgt B“. und diese schlüsse beherrschen llms nicht. was ja auch sinn macht, sie produzieren text über einen stochastischen prozess. aber das heißt ja nicht, dass sie durch diesen prozess nicht formen produzieren, die diese art schlüsse zu enthalten scheinen oder die jmd dabei helfen, solche schlüsse zu machen.

Show thread

Miron 🇪🇺4d ago

@doener This article might provide a better understanding of how LLMs work

https://towardsdatascience.com/llms-are-randomized-algorithms/

LLMs Are Randomized Algorithms | Towards Data Science

A surprising connection between the newest AI models and a 50-year old academic field

Towards Data Science

cc @ftranschel

Fabian Transchel 4d ago

@cxor @doener Ok, ich beiße an.

Da ich aber keine große Lust habe, einen ungezielt monologstischen Thread daraus zu machen, ein paar Fragen an @doener

* Was ist für Dich "Reasoning"?
* Was hast Du für Vorwissen? Was ist Dein Fachgebiet? Weißt Du, was ein Autoencoder ist, das Halteproblem oder Gödels Unvollständigkeitssätze?
* Liest Du Originalartikel oder populärwissenschaftliches Zeugs?
* Was für KIs verwendest Du? Wofür?

Show thread

chris 4d ago

@doener Sie ähneln dem menschlichen Denkprozess. Was fehlt ist die Präzision. Ich mag den Begriff von „coarse-grainings“ (grobkörnig) aus dem folgenden Text:

https://knightcolumbia.org/content/ai-as-social-technology

AI as Social Technology

Knight First Amendment Institute

Show thread

Lobster 4d ago

@doener Man kann bei Open Source Modelle zB in Ollama die Modelle mit “Reasoning” benutzen und sieht dann den “Denkprozess” ganz offen. Das ist einfach nur ein Monolog, in dem das Modell nachdenklich tut, indem es “Hmm” und “Nein, warte…” benutzt und sich oft selbst hinterfragt und korrigiert. Und weil LLMs häufiger richtig antworten, wenn sie Selbstgespräche führen, ist es für KI-Unternehmen gut genug, das als “logische Schlussfolgerung” zu verkaufen.