Sehr schöner ChatGPT Takedown an einem sehr simplen aber extrem lustigen Beispiel https://mindmatters.ai/2025/08/chatgpt-5-tries-out-rotated-tic-tac-toe-you-be-the-judge/
ChatGPT-5 Tries Out “Rotated” Tic-Tac-Toe. You Be the Judge…

It’s no mystery why LLMs aren’t intelligent in any meaningful way. The real mystery is why so many otherwise intelligent people still take the claims seriously.

Mind Matters
@343max Ja das ist hübsch. Funktioniert aber nicht mehr mit ChatGPt 5.2
@rstockm Well.
@rstockm Abgesehen davon, dass ich so eine „aber dieses 0.0.1 Update ändert alles“ Argumentstion sehr dünn finde. ChatGPT 5.2 ist kaum mehr als ein marketing Update über 5.0, es ändert nichts daran wie diese Modelle funktionieren und ändern somit auch nichts an der fundamentalen Kritik selbst wenn die neue Version bei dem konkreten Beispiel vielleicht marginal besser abschneidet.

@343max Na ja, es ist aber halt andersrum: dieses „Beispiel" funktioniert bei exakt KEINEM der aktuellen Flagship-Modelle. Getestet: Mistral (lokal!), Gemini 3 Pro, ChatGPT 5.2, Claude Sonnet 4.5.
Keines fällt darauf rein, die Antwort von Gemini mal als hübsches Beispiel.
Und so läuft das seit 2 Jahren:

10 „haha, schaut was die GPTs alles nicht können"
20 ich setze mich 1 Minute dran und exakt das funktioniert in allen neuen Modellen
30 goto 10

🤷🏻‍♂️

@rstockm Aber ich habe dir doch eben einen Screenshot geschickt wie das aktuelle ChatGPT genau darauf reinfällt.

Für mich ist es exakt andersrum wie du beschreibst. Seit Jahren:

10 du und andere AI believer: “ja, noch vor ein paar Wochen war das Modell noch strunzdumm, aber heute können sie exakt dieses eine Beispiel lösen, darum sind sie perfekt”
20 jemand findet ein neues Beispiel wie ein "Flagship-Model" haarstäubend dumme weise auf die Fresse fällt… (1/2)

30 die AI Firmen bringen neue Modelle raus die auf exakt diesen Fall nicht mehr reinfallen
40 goto 10

le sigh

Wir haben exakt die selbe Diskussion schon diverse Male geführt. Was bringt dich auf die Idee das ChatGPT 5.2.4 Code Red Edition dieses mal aber wirklich all die Versprechen einlöst, die all die anderen Versionen nicht einlösen konnten? (2/2)

@343max Ich rede nicht von ChatGPT sondern generell von den rechts unten Modellen, auch der anderen Hersteller. Bei deinen Screenshot kann ich nicht sehen, welches das ist. Das mit Abstand beste Besispiel das du bisher hattest war das Zahlenraten-Spiel, weil es so hübsch die Schwäche von LLM (will alles könne) mit den Limitierungen (unfähig, eigene Grenzen zu erkennen) exploited hat. 1/2
@343max Aber auch dort habe ich in 20 Minuten einen Weg gefunden (dank KI) um dieses Spiel auf beliebigen LLMs zu 100% perfect „ready to ship“ laufen zu lassen.
Und darum geht es mir: mir gehen wirklich die Szenarien aus, wo LLMs mit etwas Tuning, RAG Modellen etc. _nicht_ zu "ready to ship" zu bringen sind. Da ist mir dann AGI ziemlich egal.
Gemini 3 Pro kann meine Handschrift lesen, und zwar perfekt. das schaffen 99% der Menschen um mich herum nicht - was für eine Basis für Automatisierung!
@rstockm Das Beispiel mit dem Zahlenratespiel gilt exakt so noch heute. Das eine LLM so ein Zahlenratespiel in Software gießen kann war nicht die Aufgabe, das ist trivial für eine LLM weil es dafür Millionen Codebeispiele gibt. “Ja, es kann das nicht aber dafür kann es was anderes” ist keine Lösung des Originalproblems.
@343max Oh das war ohne Software, nur über einen Prompt.
@343max Bitte schön:
@rstockm Exakt. Du lässt die AI ein anderes Problem lösen als das was ich ihr gegeben hatte. Was ist damit bewiesen außer das es andere Probleme möglicherweise lösen kann. (Ich bezweifle übrigens nach wie vor, dass dein Beispiel besser funktioniert als meins, du hast es einfach nur viel komplexer gemacht, was es mühseliger macht die Schwächen zu finden. Abgesehen davon, dass es ein komplett anderer Prompt ist)
@343max Das ist mir als Produktmanager aber doch völlig egal. Es ist "ready to ship“, das zählt. Und es kann ja ausprobiert werden - funktioniert wunderbar und 100% zuverlässig.
@rstockm Aber MIR ist es nicht egal. MIR ist es schon wichtig, dass eine AI ein sehr einfaches Problem das jeder Mensch problemlos lösen kann von dem die AI behauptet es lösen zu können dann auch lösen kann. Ich habe dieses Beispiel gewählt, weil es sehr anschaulich macht, wie die AI es einfach per Design nicht kann.
@rstockm Du sagt “aber es kann ein komplett anderes Problem lösen und das reicht mir”. Okay. Aber stimmst du mir zu, dass es das eigentliche von mir beschriebene Problem nach wie vor nicht lösen kann?
@343max Ich glaube in der Sache sind wir gar nicht weit auseinander, wir haben nur sehr unterschiedliche Perspektiven auf die Grundfrage. These:
1)
Ralf: zentral ist, dass ein Problem verlässlich mit LLM gelöst werden kann. Egal wie der Weg ist.
Max: zentral ist: dass auch der komplette Weg vom LLM perfekt gegangen wird ohne Begleitung
2)
Ralf: nutzt ausschließlich die besten für Geld verfügbaren Modelle, ignoriert den Rest
Max: nutzt was gerade da ist, auch die freien Versionen

@rstockm @343max
„ verlässlich“ ist ein gefährlicher Begriff. Verlässlich ist bei der Technologie nämlich sehr wenig.

Häufig kommt etwas raus, dass dement spricht, was man sich erhoffen würde, aber eben nicht immer und nicht vorhersehbar. Und genau das ist das Problem, weil das falsche genauso korrekt aussieht, wie das richtige.

Das macht diese Technologie so schwer einsetzbar

@OmniJan @343max Wenn man weiß was man tut ist es problemlos möglich, LLMs verifizierbar „verlässlich" im vielen (nicht allen!) produktiven Kontexten einzusetzen. Ich habe für ein Hobby-Projekt 2 Schichten LLM mit einem RAG gekoppelt und das Ergebnis ist gleichermaßen erstaunlich wie perfekt. Man muss aber halt MACHEN und ausprobieren und lernen (sic).

@rstockm @343max es funktioniert aber ausschließlich in Kontexten, die man selber absolut beherrscht und bei denen man erkennt, wo das System bricht.

Ich benutze es selbst regelmäßig in meinem Arbeitsumfeld. Und aus gutem Grund nutze ich es ausschließlich dann, wenn ich es selber schon weiß und nur etwas Zeit sparen möchte.

Es wird dann gefährlich, wenn irgendjemand, der den Kontext nicht ohnehin schon zu 100 % beherrscht denkt, dass es schon richtig sein wird

@343max 2) würde ich hier nicht unterschätzen. Das fällt für mich in den Bereich „die Zukunft ist schon längst da, sie ist nur sehr ungleich verteilt“ (William Gibson)
@rstockm Nicht mal OpenAI behauptet in ihrem Upsell-Material, das die Modelle plötzlich besser werden, sobald man für ChatGPT bezahlt.
@rstockm Welche halbwegs komplexen Probleme können LLMs denn verlässlich (also: selbständig ohne Kontrolle in sagen wir mal 99,9% der Fälle korrekt) lösen? (1/2)
Nach meiner Erfahrung ist das einzige was an LLMs verlässlich ist ihre extreme Unzuverlässigkeit. Selbst simpelste Aufgaben wie “mach mir aus dieser kleinen CSV Datei eine SQLite Datenbank" sind die Daten nach dem Konvertieren verändert. Der einzige Weg eine LLMs halbwegs zuverlässig zu bekommen ist sie Tools schreiben zu lassen, die dann die Aufgabe erfüllt. (2/2)
@343max Frisch auf der Arbeit getestet: die Überführung eines 3 x 2 Meter Whiteboards, gefüllt mit etwa 100 Post-IT Zetteln geschrieben von 8 verschiedenen Personen.
Ein normales iPhone-Bild davon überführt die LLM in eine Markdown-Datei und clustert dann noch sinnvoll. Ich hätte das bis vor 1 Monat für technisch völlig unmöglich gehalten, Gemini 3 Pro macht das tiefenentspannt. Das ist ein totaler Game-Changer für unsere Strategiearbeit.
Rückwärts geht auch: Whiteboard aus 5-Seiten PDF
@343max Das ist die nächste eingebrochene Mauer: "LLMs können keine Schrift - weder lesen, noch zeichnen“.
@rstockm Wer hat wann gesagt das AI keine Schrifterkennung kann? Nach meinem Wissen ist die Erkennnung von Handschrift eines der ersten Probleme überhaupt das sehr erfolgreich mit AI gelöst wurde. Ich habe mal so 2017 ein AI Tutorial gemacht, das ging um die Erkenunng von ZIP Code und eine AI auf einem Laptop auf eine 99,99% Treffsicherheit bei der Erkennung von ZIP Codes zu trainieren war schon damals ein simples Anfängerproblem.

@rstockm Und: was soll ich mit diesem Bild? Ich weiß nicht was auf den Post Its stand. Ich weiß nicht, welche Themen ihr da wirklich aufgeschrieben habt. Ich kann nicht prüfen, welche Themen die AI vergessen hat. Ich kann nicht prüfen, was sie dazu erfunden hat. Ich sehe eine Tafel im typischen AI generierten 0815 Look mit für mich sehr generischen Inhalten.

Was mir auffällt: Befähigung schreibt man mit “ä" und nicht mit einem a mit Häkchen drüber.

@343max Das ist nicht von dem Whiteboard sondern aus meinem 5-Seiten Strategie-PDF Fließtext generiert. Und das muss du mir jetzt halt mal glauben: das ist schlicht perfekt. Absolut nichts hinzu erfunden. Alles Relevante berücksichtigt. Da hätte ich sonst jemanden ca. 3h dran gesetzt.

@rstockm @343max "current models have almost 100% success rate on tasks taking humans less than 4 minutes, but succeed <10% of the time on tasks taking more than around 4 hours"

Einen 3h-Task würde ich eher keinem LLM geben.

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

Measuring AI Ability to Complete Long Tasks

@343max Spezialisierte AI vielleicht - aber ich kann mit Sicherheit sagen, dass kein LLM vor Gemini 3 Pro in der Lage war, meine Handschrift auch nur zu 30% exakt zu erkennen.
@rstockm @343max Wenn auch 99% deine Mitmenschen, wie du schreibst, daran scheitern, liegt das vielleicht nicht nur an den vorherigen LLMs. ;)
@343max @rstockm mein Supernote Tablet aus 2021 kann Handschriften extrem gut erkennen und das auch ohne Internetverbindung. 🤷
@rstockm Und was ist denn das Problem das es zuverlässig lösen kann? Du meinst, das es Post Its zuverlässig in Text umsetzen kann?

@343max Max, es sind 2 verschiedene use-Cases die ich beschrieben habe.

1) Nachbereitung eines typischen Strategie-Workshops - Entwicklung eines Strategiepapers aus einem Brainstorming-Termin. Machen wir täglich.
2) Visualisierung einer Strategie, die bisher nur als Text vorliegt.

Beides für uns von extremen Wert, und es ist ok wenn so was in _deiner_ Welt keine Rolle spielt aber: für weite Teile des mittleren Managements weltweit ist das ein Gamechanger.

@rstockm Und wie hast du sichergestellt, dass das tatsächlich dem entspricht was ihr entschieden habt? Wie stellst du sicher, dass da kein Post It vergessen wurde? Wie stellst du sicher, dass die Visualisierung dem entspricht was ihr entschieden habt? Es genau ist die Aufgabe die die AI hier so toll und zuverlässig gelöst hat?
@343max @rstockm Ich kann überhaupt nichts zur Diskussion beitragen, finde sie aber sehr spannend. Vertieft das Gespräch doch mal in einem Podcast ☺️
@rstockm @343max Wollt ihr euch nicht mal zu einem Podcast zusammensetzen?
@lbenedix @343max been there, done that 🙃
Das ist hier auch gerade eher so ein - Ritual.
@rstockm @lbenedix Ja, ist es. Es ist eine müßige Diskussion. „Welche Probleme kann eine LLM denn zuverlässig lösen?“ „Voll viele!“ „Konkrete Beispiele bitte“ „hier ein Screenshot von einem AI-Slop-Bild das die AI generiert hat“
@lbenedix @rstockm Das ist auch müßig, weil Ralf dem eigentlichen Thema immer wieder ausweicht. Hier: ChatGPT 5.0 produziert plausibel klingenden Quatsch und fällt dabei wunderschön auf die Fresse. Damit setzt er sich nicht auseinander sondern produziert nur einen Strohmann nach dem anderen. (1/2)
Die prinzipiellen Schwächen dieser Systeme ignoriert er oder erzählt mir das wenn ich nur wohlhabender wäre und 200€/Monat Abos hätte alles total toll wäre (kann ich halt nicht überprüfen und scheint mir auch nicht glaubhaft) (2/2)

@343max Das Schöne ist ja, dass es Forschung gibt und die ist bisher ziemlich eindeutig. Man fühlt sich als Softwareentwickler mit LLM-"Unterstützung " deutlich produktiver als man tatsächlich ist.

https://metr.org/

METR

@lbenedix @343max Sehr schöne Seite, danke dafür. Direkt eine Studie darüber aber so:
@rstockm @343max Vorhersagen darüber, was in 10 Jahren ist, sind in der AI Welt bestimmt zuverlässig.
@lbenedix @343max Genau darum extra poliert diese Studie ja den Trend der letzten zehn Jahre. Aber klar, aus einem uns leider noch nicht bekannten Grund ist genau jetzt der Zeitpunkt erreicht, wo dieses exponentielle Wachstum schlagartig stoppen wird.
@rstockm @343max 2020 ist nicht ganz 10 Jahre her. Und ja, ich habe das Gefühl, dass es in den letzten 1-2 Jahren eher eine Stagnation gibt
@lbenedix @343max Also zumindest um den nächsten Datenpunkt mache ich mir keine Sorgen – Claude Sonet 4.5 ist dramatisch besser als hier das letzte 3.7

@rstockm @343max Bisher hat mich noch kein LLM für die Softwareentwicklung überzeugt. Ja, die kotzen schnell einen Prototypen raus, aber sobald die echte Welt damit in Verbindung kommt, explodiert alles.

Für kleine Nischenprobleme kann es vielleicht was taugen, aber da sind spezielle Lösungen sicher besser als LLMs.

@lbenedix @rstockm @343max in dem letzten jahr hat sich doch so viel verbessert: größerer context, mini features werden von der ai alleine geschrieben, größere mit hand halten, sinnvolle bug-reports in PRs,… das gab es vor einen jahr so nicht
@msaehn @rstockm @343max Wir setzen im Geschäft GitHub Copilot ein und das spart meiner Überzeugung nach genau gar keine Zeit.
Ja, boilerplate kann es ganz okay, aber wir fangen quasi nie auf der grünen Wiese an.
@rstockm @343max die "50% success rate" ist jetzt nicht unbedingt gut, oder?
@343max Du musst ja auch gar nicht „glauben“ sondern ich sage halt „wirf mal rüber, dann sehen wir was Stand der Technik ist“.
Ich bin doch der, der durch die Gehend läuft und sagt „wie kostenlosen Modelle sind Mist und nicht geeignet, die Grenzen von LLMs zu diskutieren“.
Für eigene Experimente empfehle ich immer https://openrouter.ai da braucht es keine 200 sondern vielleicht 5€ im Monat und man weiß was Phase ist.
OpenRouter

The unified interface for LLMs. Find the best models & prices for your prompts

OpenRouter
@rstockm Ich hab festgestellt, bei OpenRouter sind die Chats nach dem Ausloggen weg. Nutzt du/ihr für berufliches dann ein OpenWebUI davor, in dem man dann u.a. thematisch gruppieren kann?
Oder nutzt du hauptsächlich ChatGPT, der bringt das ja von Haus aus mit?
@ron OpenRouter nehme ich a) für Experimente von Frontier-Modellen, da brauche ich keine Historie und b) als API-Endpoint wenn ich ein LLM in einer meiner Apps brauche.
Für alles andere habe ich Cursor (Vibe-Coding), Standard ChatGPT (Standardkram) und eine lokale Mistral 14b Instanz mit ML Studio davor.
Also recht diversifiziert.
@rstockm Ich sage „der Roboter kann nicht malen, hier ein prompt der Belegt das er nicht malen kann“. Dann kommst du an und sagst: aber hier kann ich einen anderen Prompt schreiben mit dem er eine schlechte Kamera baut, damit kann man Fotos machen, das reicht mir. Sind wir uns einig, dass das eine nichts mit dem anderen zu tun hat?
@343max @rstockm AI sind nunmal keine Menschen. Das behauptet auch niemand. Sie haben andere Stärken und Schwächen als Menschen. Aber sie arbeiten mittlerweile auf sehr ähnlichem Niveau.
@rstockm Und hier ist ein simples Beispiel für ein Szenario, nämlich das Posterchild für LLMs überhaupt: eigenständig Software schreiben, ohne dass die ganze Zeit jemand danebensitzt und der AI das Händchen hält. Warum geht das nicht von dem die AI Firmen behaupten es würde gegen?