Sehr schöner ChatGPT Takedown an einem sehr simplen aber extrem lustigen Beispiel https://mindmatters.ai/2025/08/chatgpt-5-tries-out-rotated-tic-tac-toe-you-be-the-judge/
ChatGPT-5 Tries Out “Rotated” Tic-Tac-Toe. You Be the Judge…

It’s no mystery why LLMs aren’t intelligent in any meaningful way. The real mystery is why so many otherwise intelligent people still take the claims seriously.

Mind Matters
@343max Ja das ist hübsch. Funktioniert aber nicht mehr mit ChatGPt 5.2
@rstockm Well.
@rstockm Abgesehen davon, dass ich so eine „aber dieses 0.0.1 Update ändert alles“ Argumentstion sehr dünn finde. ChatGPT 5.2 ist kaum mehr als ein marketing Update über 5.0, es ändert nichts daran wie diese Modelle funktionieren und ändern somit auch nichts an der fundamentalen Kritik selbst wenn die neue Version bei dem konkreten Beispiel vielleicht marginal besser abschneidet.

@343max Na ja, es ist aber halt andersrum: dieses „Beispiel" funktioniert bei exakt KEINEM der aktuellen Flagship-Modelle. Getestet: Mistral (lokal!), Gemini 3 Pro, ChatGPT 5.2, Claude Sonnet 4.5.
Keines fällt darauf rein, die Antwort von Gemini mal als hübsches Beispiel.
Und so läuft das seit 2 Jahren:

10 „haha, schaut was die GPTs alles nicht können"
20 ich setze mich 1 Minute dran und exakt das funktioniert in allen neuen Modellen
30 goto 10

🤷🏻‍♂️

@rstockm Aber ich habe dir doch eben einen Screenshot geschickt wie das aktuelle ChatGPT genau darauf reinfällt.

Für mich ist es exakt andersrum wie du beschreibst. Seit Jahren:

10 du und andere AI believer: “ja, noch vor ein paar Wochen war das Modell noch strunzdumm, aber heute können sie exakt dieses eine Beispiel lösen, darum sind sie perfekt”
20 jemand findet ein neues Beispiel wie ein "Flagship-Model" haarstäubend dumme weise auf die Fresse fällt… (1/2)

30 die AI Firmen bringen neue Modelle raus die auf exakt diesen Fall nicht mehr reinfallen
40 goto 10

le sigh

Wir haben exakt die selbe Diskussion schon diverse Male geführt. Was bringt dich auf die Idee das ChatGPT 5.2.4 Code Red Edition dieses mal aber wirklich all die Versprechen einlöst, die all die anderen Versionen nicht einlösen konnten? (2/2)

@343max Ich rede nicht von ChatGPT sondern generell von den rechts unten Modellen, auch der anderen Hersteller. Bei deinen Screenshot kann ich nicht sehen, welches das ist. Das mit Abstand beste Besispiel das du bisher hattest war das Zahlenraten-Spiel, weil es so hübsch die Schwäche von LLM (will alles könne) mit den Limitierungen (unfähig, eigene Grenzen zu erkennen) exploited hat. 1/2
@343max Aber auch dort habe ich in 20 Minuten einen Weg gefunden (dank KI) um dieses Spiel auf beliebigen LLMs zu 100% perfect „ready to ship“ laufen zu lassen.
Und darum geht es mir: mir gehen wirklich die Szenarien aus, wo LLMs mit etwas Tuning, RAG Modellen etc. _nicht_ zu "ready to ship" zu bringen sind. Da ist mir dann AGI ziemlich egal.
Gemini 3 Pro kann meine Handschrift lesen, und zwar perfekt. das schaffen 99% der Menschen um mich herum nicht - was für eine Basis für Automatisierung!
@rstockm Das Beispiel mit dem Zahlenratespiel gilt exakt so noch heute. Das eine LLM so ein Zahlenratespiel in Software gießen kann war nicht die Aufgabe, das ist trivial für eine LLM weil es dafür Millionen Codebeispiele gibt. “Ja, es kann das nicht aber dafür kann es was anderes” ist keine Lösung des Originalproblems.
@343max Oh das war ohne Software, nur über einen Prompt.
@343max Bitte schön:
@rstockm Exakt. Du lässt die AI ein anderes Problem lösen als das was ich ihr gegeben hatte. Was ist damit bewiesen außer das es andere Probleme möglicherweise lösen kann. (Ich bezweifle übrigens nach wie vor, dass dein Beispiel besser funktioniert als meins, du hast es einfach nur viel komplexer gemacht, was es mühseliger macht die Schwächen zu finden. Abgesehen davon, dass es ein komplett anderer Prompt ist)
@343max Das ist mir als Produktmanager aber doch völlig egal. Es ist "ready to ship“, das zählt. Und es kann ja ausprobiert werden - funktioniert wunderbar und 100% zuverlässig.
@rstockm Aber MIR ist es nicht egal. MIR ist es schon wichtig, dass eine AI ein sehr einfaches Problem das jeder Mensch problemlos lösen kann von dem die AI behauptet es lösen zu können dann auch lösen kann. Ich habe dieses Beispiel gewählt, weil es sehr anschaulich macht, wie die AI es einfach per Design nicht kann.
@rstockm Du sagt “aber es kann ein komplett anderes Problem lösen und das reicht mir”. Okay. Aber stimmst du mir zu, dass es das eigentliche von mir beschriebene Problem nach wie vor nicht lösen kann?
@343max Ich glaube in der Sache sind wir gar nicht weit auseinander, wir haben nur sehr unterschiedliche Perspektiven auf die Grundfrage. These:
1)
Ralf: zentral ist, dass ein Problem verlässlich mit LLM gelöst werden kann. Egal wie der Weg ist.
Max: zentral ist: dass auch der komplette Weg vom LLM perfekt gegangen wird ohne Begleitung
2)
Ralf: nutzt ausschließlich die besten für Geld verfügbaren Modelle, ignoriert den Rest
Max: nutzt was gerade da ist, auch die freien Versionen
@rstockm @343max Wollt ihr euch nicht mal zu einem Podcast zusammensetzen?
@lbenedix @rstockm Das ist auch müßig, weil Ralf dem eigentlichen Thema immer wieder ausweicht. Hier: ChatGPT 5.0 produziert plausibel klingenden Quatsch und fällt dabei wunderschön auf die Fresse. Damit setzt er sich nicht auseinander sondern produziert nur einen Strohmann nach dem anderen. (1/2)
Die prinzipiellen Schwächen dieser Systeme ignoriert er oder erzählt mir das wenn ich nur wohlhabender wäre und 200€/Monat Abos hätte alles total toll wäre (kann ich halt nicht überprüfen und scheint mir auch nicht glaubhaft) (2/2)

@343max Das Schöne ist ja, dass es Forschung gibt und die ist bisher ziemlich eindeutig. Man fühlt sich als Softwareentwickler mit LLM-"Unterstützung " deutlich produktiver als man tatsächlich ist.

https://metr.org/

METR

@lbenedix @343max Sehr schöne Seite, danke dafür. Direkt eine Studie darüber aber so:
@rstockm @343max Vorhersagen darüber, was in 10 Jahren ist, sind in der AI Welt bestimmt zuverlässig.
@lbenedix @343max Genau darum extra poliert diese Studie ja den Trend der letzten zehn Jahre. Aber klar, aus einem uns leider noch nicht bekannten Grund ist genau jetzt der Zeitpunkt erreicht, wo dieses exponentielle Wachstum schlagartig stoppen wird.
@rstockm @343max 2020 ist nicht ganz 10 Jahre her. Und ja, ich habe das Gefühl, dass es in den letzten 1-2 Jahren eher eine Stagnation gibt
@lbenedix @343max Also zumindest um den nächsten Datenpunkt mache ich mir keine Sorgen – Claude Sonet 4.5 ist dramatisch besser als hier das letzte 3.7

@rstockm @343max Bisher hat mich noch kein LLM für die Softwareentwicklung überzeugt. Ja, die kotzen schnell einen Prototypen raus, aber sobald die echte Welt damit in Verbindung kommt, explodiert alles.

Für kleine Nischenprobleme kann es vielleicht was taugen, aber da sind spezielle Lösungen sicher besser als LLMs.

@lbenedix @343max Tja, so unterschiedlich sind die Einschätzung. Ich habe in 2025 sechs Projekte publiziert, keines von denen hätte ich ohne LLM auch nur begonnen.
@rstockm @343max Kommt sicher immer auf die Komplexität des Projektes an. Kannst du die Projekte verlinken?

@lbenedix @343max Alles hier aus den letzten 2 Jahren dazu zwei nicht öffentliche die noch komplexer sind:

https://github.com/rstockm?tab=repositories

Es kommt halt auch darauf an ob man die LLMs beim Coden als Gegner sieht den man aufs Kreuz legen möchte oder als endlos geduldig motivierten Junior DEV den man ins eigene Projekt einarbeitet.

rstockm - Repositories

Universalamateur. Gründer von ultraschall.fm, sendegate.de, Mastowall und Mastothread. , beruflich Bibliotheks-IT. Crewmitglied im freakshow.fm Podcast - rstockm

GitHub

@rstockm @343max ich sehe das LLM als Junior-Dev, der leider sehr überzeugt davon ist, dass er die Weisheit mit Löffeln gefressen hat.

Würde bei mir nicht durch die Probezeit kommen.

@rstockm @lbenedix Ein junior Dev den man ins eigene Projekt einarbeitet lernt dazu, eine LLM nicht. Wo ist denn in diesen ganzen Projekten mal ein gutes dabei, wo du ein größeres Feature geoneshottet hast? Hast du ein Beispiel für einen Prompt, der mir ein größeres Feature baut?

@343max @rstockm Bei der Beurteilung, ob ein LLM gute Arbeit macht, spielen viele psychologische Verzerrungen mit. Es fängt schon damit an, dass man selbst etwas tut, also einen Prompt formuliert und dann passiert etwas. Das ist natürlich toll.

Aber ja, es gibt glaub ich kein erfolgreiches Open Source Projekt, bei dem der überwiegende Anteil der Contributions von LLMs kommt. Oder?

@lbenedix @343max Schön, dass ihr euch einig seid, dass meine Apps alle unterkomplex sind. Was ich sagen kann:
1) ich habe keine Zeile davon selbst geschrieben
2) keines der Projekte hätte ich angefangen ohne LLMs (ich kann kein JavaScript)
3) die Oneshot Quote ist mit den Monaten kontinuierlich gestiegen, bei Testabend fast alles bis auf mobil CSS
4) Einigen der Tools würde ich doch gesellschaftlichen Nutzen zuschreiben wie Mastowall, Mastotags oder Fedipol.
@rstockm @lbenedix Na dann nenne doch mal ein konkretes Beispiel. “In Projekt X hat die LLM mit folgendem Prompt folgendes komplexeres Feature eingebaut…” Was soll ich denn so damit anfangen?
@343max @rstockm @lbenedix Aber bei komplexen Projekten arbeitet man doch nicht mit dem EINEN prompt. Man führt eine Unterhaltung mit dem LLM, beschreibt seine Ideen, das LLM fragt nach, schreibt die Specs auf , macht Designvorschlaege etc. und am Ende schreibt es auch noch den Code. Das ist durchaus ein iterativer Prozess. Das funktioniert nach meiner Erfahrung ziemlich gut. In diesem Prozess muss das LLM aber nichts Neues lernen. Nur vorhandenes "Wissen" über Software richtig anwenden. Und das können die Dinger ziemlich gut.

@maxheadroom @343max @lbenedix Ich habe mal etwas gekramt in der Historie des „Testabend" Projektes, das hier wäre ein Beispiel:

„Ok ich möchte einen neuen Featurebereich starten, und zwar einen integrierten LLM Chatbot. Erstelle dazu zunächst im Header einen neuen Eintrag "Testteam" und eine Seite, auf der eine gängige Chat-GUI zu sehen ist. Im nächsten Schritt binden wir meine OpenRouter Instanz an.“
1/2

@maxheadroom @343max @lbenedix Das Ergebnis war eine perfekte Chat-GUI, in der Navigation der App reingehängt und bereits das Framework für OpenRouter integriert, ich musste nur noch das Remote-LLM aus Vorschlägen auswählen und meinen API Key hinterlegen.
1 Tag Arbeit in 40 Sekunden, Oneshot.
So geht das dann Feature um Feature.
2/2

@maxheadroom @343max @lbenedix Das ist der Code:

https://github.com/rstockm/testabend/blob/main/public/js/chat.js

Da habe ich dann später das RAG Modell des Projektes angebunden sowie einen umfangreichen Meta-Prompt, destilliert aus der KI-Analyse eines 1h Audio Interviews mit einem Prof.

testabend/public/js/chat.js at main · rstockm/testabend

Testabend - Dashboard für Album-Bewertungen mit interaktiven Charts und RAG-Chatbot - rstockm/testabend

GitHub

@maxheadroom @rstockm @lbenedix Ja, so nutze ich coding Assistants. So wie ich diese Tools nutze haue ich einen Prompt rein, schaue mir ein paar Sekunden oder Minuten später das Ergebnis an, werfe es weg, fixe es oder akzeptiere es.

Aber in diesem Strang ging es ja genau darum wie Ralf verlässlich Probleme von einer AI lösen lässt, also sie Code schreibt, Tests schreibt, Bugs fixt etc ohne das man ihr dabei ständig die Hand halten und neue Anweisungen geben muss.

@343max @rstockm @lbenedix Ich denke das würde gehen, wenn Du Spezifikationen im vornherein genau weißt und dem LLM sehr präzise Anweisungen gibst und es dann machen lässt. Ggf. braucht es Agenten die sich gegenseitig überwachen.

Aber genau das gleiche Problem hast du ja mit menschlichen Entwicklern auch. Am Anfang steht erstmal eine Produktidee und die musst entwickeln. Die wirfst du ja dem Entwickler auch nicht einfach hin und nach ein paar Stunden oder Tagen kommt es genau so raus wie du es dir vorgestellt hast.

@maxheadroom @343max @rstockm man muss nur die Spezifikation ganz genau formulieren... Joah... Dann kann man auch mit Menschen mit echter Intelligenz zusammenarbeiten
@lbenedix @343max @rstockm Ja, genau. Nur schreiben die LLMs dann viel schneller den Code und debuggen usw. Aber dem Conversationsteil fand ich schon ähnlich zur Arbeit mit mehreren Leuten. Kommt vielleicht einem Outsourcing Projekt am nächsten wo man dem Dienstleister genau erklärt was man haben will. Je genau man das erklärt , desto besser das Ergebnis

@maxheadroom @rstockm @lbenedix Nach meiner Erfahrung geht das nicht wirklich, weil die LLM sich dann meistens irgendwann auf die Fresse packt oder der Kontext vollläuft und sie anfängt Amok zu laufen.

Außerdem klingt das für mich extrem nach Wasserfall.

Mit den menschlichen Entwicklern könnte man schnell iterieren, vielleicht sogar den eigenen Stolz überwinden und selbst ein wenig programmieren lernen auch wenn das natürlich eigentlich unter dem Niveau eines Managers ist.

@343max @maxheadroom @rstockm spec driven development heißt das heute und klingt sehr danach, dass man "agile" ohne Menschen macht. 🫣

Mindestens für größere Projekte sehe ich das nicht so bald kommen.

@343max @rstockm @lbenedix ja, das ist "Wasserfall". Aber egal wie du es nennst, die Dinger sind dabei einfach zig mal schneller beim Schreiben von Code, beim lesen langer Fehlermeldungen, beim recherchieren in Dokumentation etc. Und das ist ein sehr großer Vorteil.

Es entsteht einfach viel Software die es so nicht geben würde weil jemand mit zu wenig skills oder Geduld/Zeit sich nicht an seine Idee rangetraut hat. Mit einem Coding Assistant kann so jemand solche Ideen komplett umsetzen.

Was glaube ich auch nicht zu verachten ist, ist die "Attitude" des LLM. Das ist immer nett und will dir helfen. Egal wie dumm du dich anstellst. Stellst Du menschlichen Enticklern eine Frage die dich als Anfänger outed bekommst du mit hoher Wahrscheinlichkeit eine anfällige oder sehr oberlehrerhafte Antwort. Das motiviert nicht immer dran zu bleiben.

@343max @lbenedix Das hier nehme ich häufig, wenn ich Leute verstören will:

„Programmiere eine Werbanwendung, wo ich auf einem Canvas farbige Zettel posten kann. Die Zettel sollen sich verschieben lassen, einen Titel haben und Text - alles soll editierbar sein. Über einen Selektor kann man die Farbe des Zettels wechseln, die Schrift soll sich in der Helligkeit dem Hintergrund anpassen für genug Kontrast.
1/2

@343max @lbenedix „Den Canvas möchte ich mit der Maus auch selbst verschieben können. Öffne die App im Browser-Tab deiner IDE, suche nach Fehlern auf der Konsole. Melde dich erst wieder, wenn du fertig bist.“

Das funktioniert immer, Ergebnis ist eine JS Webapp (das ist bei mir das vorgegebene Meta-Framework) die alle gewünschten Features drin hat und auf einem lokalen Python Server läuft.
2/2

@rstockm @lbenedix Ich habe das jetzt in Cursor ausgegeben, weil ich mal vermute, dass das die IDE ist die du meinst. Es startet einen Server der dann Seite ausliefert in der man Notizen hin und her ziehen kann. Die Schriftfarbe wird nur angepasst wenn man die Farbe ändert, nicht wenn man eine neue Notiz anlegt, das Canvas hat einen unsichtbaren Rahmen über den man Notizen nicht hinausziehen kann, der Code ist eher abenteuerlich. (1/2)
Den Teil deiner Anweisung das es das ganze doch bitte in einem Browser testen soll hat es einfach an mich weiter delegiert, dass ich das doch selbst machen soll. Ich bin jetzt nicht so wahnsinnig verstört, weil ich schon schlimmeres gesehen habe. Aber ist das jetzt irgendwas anderes als dieser typische AI-Slop, den man von LLMs so erwartet? (2/2)
@343max weclhes Modell hast du in Cursor genommen? Composer 1 (von Cursor selbst) ist darauf trainiert die Tools der IDE selbst zu nutzen, da klappt das mit internem Browser/Console etc. gut.
Du wolltest 2 Beispiele, die habe ich rausgesucht (das erste mal angeschaut)? Dass die jetzt auch wieder nicht reichen - tja ist jetzt halt so, auch wenn ich noch 20 weitere raussuche (die ich hätte in meinen Histories) wäre immer etwas falsch/nicht genug.
Weil halt nicht sein kann, was nicht sein darf. 1/2

@rstockm Geht mir genauso. Ich brauchte zB Backup-Apps für ein phpBB Forum und meine Friendica-Instanz. Ersteres hab ich vor Jahren schon mal selbst gemacht. War ein Mega-Gefummel und ich hab nichts sinnvolles dabei gelernt.

Mit Claude ging das nicht nur schneller, sondern ich habe auch reichlich gelernt, wie Dinge mit Python gehen können, ohne mich erst durch hunderte Packages zu wühlen, oder in CSS, wo ich so überhaupt keine Ahnung habe. (Die Backup-Apps können static web sites mit den Inhalten erzeugen)

Ich habe aber reichlich Erfahrung in Specs schreiben, Leute anleiten und deren Zeugs testen und debuggen. Job-mässig bin ich eher in C/C++ für Produktionssteuerungen unterwegs. Von embedded bis SAP-Anschluss.

Ich mag die Geschwindigkeit, wenn ich mit Coding LLMs werkel. Es lassen sich Dinge ausprobieren, wo ich Stunden für's (um)schreiben gebraucht hätte. Ich kann viel schneller Packages und Libs finden und anwenden (lassen) in Bereichen, wo ich mich bisher nicht auskenne. Beim Friendica-Backup zB die Authentification, die vier web-APIs, usw. Ich die meiste Zeit auf der funktionalen Ebene, nicht mit einzelnen Fizzeligkeiten beschäftigt. Claude kann inzwischen auch ziemlich gute Doku und Kommentare schreiben, so dass ich mich auch in Code unbekannter Sprachen schnell zurecht finden kann, wenn ich mal genauer schauen möchte.

@jaddy @rstockm

Libraries/Frameworks, Schönes Beispiel, ja …

Ich fang in Cursor damit an das mit ein llm erstmal eine spec und Architektur und requirements schreibt, aus einem offenen Brainstorming mit dem Agenten. Da gehört auch dazu, die Frage zu klären welche libraries/Frameworks man für bestimmte Aspekte nutzen kann und welch pro und con es gibt. Wenn ich dann angebe dass ich kein Enterprise ready riesenframework brauche sondern genau einen Aspekt betrachtet und gelöst haben will, dann kann mir das llm verschiedene Optionen vorschlagen, inkl
Selbstschreiben, und ich kann dann als Architekt das Vorgehen bestimmen.
Am Ende giest der Agent das Brainstorming in die beiden Files Requirements.md und Techspec.md und das sind die ersten Files im Git Repo.
Meine Cursor-Rules sagen, dass diese beiden Files immer wieder Teil des Context sind und zu beachten sind.
natürlich können die sich in den nachfolgenden Sessions auch noch angepasst werden … neue offene Fragen werden dort erörtert und beantwortet.
Ein anderer Agent erstellt dann aus diesen Files einen Plan zum abarbeiten und erst die dritte Agent-Session erzeugt überhaupt Code und trackt den Fortschritt im Plan.

Ja, das ist kein OneShot… das ist den Juniordev an die Hand nehmen und ihm logische Planung abnehmen.

Man kann den Junior DEV benutzen und mit ihm produktiv sein. Man kann sich so verhalten, dass man dem juniodev die ganze Zeit Rätsel gibt, die die graue Emminenz kennt und dem Junior dann vor dem Kopf knallen, wie doof er ist. Ich bin gespannt wie lange das im reallife gut geht.

Ralph hat oben mwn nicht behauptet dass die llms alle auf architektenlevel arbeiten. das ist es aber was viele aufgrund des Hypes da rein interpretieren.
Nein! das sind erstmal dumme Juniors die nur bis zur nächsten Frage denken können und wenn man ihnen nicht genug Context gibt, bzw nicht weiß wie man das macht, der ist enttäuscht…

Sorry for the longread, my 2ct

@jwalzer @rstockm Genau so arbeite ich auch. Bei größeren Projekten auch mit Projektplan und Meilensteinen, die ich den Agent erstellen und pflegen lasse, die ich aber prüfe und abändere, bevor ich das Go gebe.
Kleinschrittiges Arbeiten scheint bei mir nötig, um Limits und Degradation zu vermeiden.
Die Pläne und Doku sind auch nötig, um zu archivieren und irgendwann später wieder aufsetzen zu können. Es ist schon erstaunlich was bei „erstelle eine vollständige Doku mit Spezifikationen, Entscheidungen und Erkenntnissen, um später in einem neuen Chat fortsetzen zu können" alles entsteht.

@jaddy @rstockm

Ganz genau. Ich habe meist auch eine Regel, die noch ein permanentes Learnings.md file füttert und welches dann abundzu in whisking.md zusammenaggregiert wird.
Dabei hilft das LLM am Ende eben auch mit, möglichst viel Kontext mit möglichst wenig tokens verfügbar zu haben. Und ja, eine der Regeln ist auch, dass das llm mich nach einen signoff fragt, bevor es des aktuellen task als erledigt markiert und weitermacht.

Irgendwann im laufe des Projektes kommen dann halt auch Regeln dazu wie das locale building und testen zu funktionieren hat. Die neueren Versionen sind besser geworden aber alte Versionen haben sich gerade Client/Server Architekturen gern mal in den Fuß geschossen, wenn sie den Server gestartet haben und den Output nach dem exit analysieren wollten…

Ja, es sind halt kleine Dummerchen LLMs die man an die Hand nehmen muss um von dem WAS sie können zu profitieren.

Die können halt nicht logisch denken/vorhersehen. Die können nur mit dem gegebenen Context von einer oder mehreren Quellsprachen den Text in einen anderen Zustand transformieren. (Je nach Heat nichtmal deterministisch) aber wir Menschen können aus diesem Mechanismus eine turingvollständige Maschine bauen. Das ist der Job des promptes.

@343max @lbenedix Wenn ich mit der LLM in einer IDE wie Cursor die Spielregeln aushandle, wird sich auch daran gehalten. Das würde ich durchaus als „Lernen“ bezeichnen. Cursor schreibt diese Projektregeln auch in eine separate Markdown-Datei die beständig aktualisiert wird.
@rstockm @lbenedix Das würde ich "sich an die Regeln halten" nennen. Lernen ist neue Fähigkeiten erlangen. Das tut es nicht.
@lbenedix @rstockm @343max in dem letzten jahr hat sich doch so viel verbessert: größerer context, mini features werden von der ai alleine geschrieben, größere mit hand halten, sinnvolle bug-reports in PRs,… das gab es vor einen jahr so nicht
@msaehn @rstockm @343max Wir setzen im Geschäft GitHub Copilot ein und das spart meiner Überzeugung nach genau gar keine Zeit.
Ja, boilerplate kann es ganz okay, aber wir fangen quasi nie auf der grünen Wiese an.
@lbenedix ich fand copilot nie hilfreich, aber hab es seit > 1j nicht mehr genutzt. grüne wiese nicht, aber nicht alle neuen features sind stark integriert und dann kommt die llm bei uns mit neuen features auch sehr weit.gerade um react ui zu schreiben,bugs finden,code schreiben der das gleiche machen soll mit anderen backends, erste schritte/protypen,wegwerf-scripte,… aber ja,es gibt viele sachen wo die llms noch nicht gut sind&da muss ich als dev versuchen das frühzeitig erkennen.
@msaehn Genau. Und wenn man als PM ohne Entwicklungserfahrung eine LLM als "junior Dev" benutzt, dann ist man halt nicht in der Lage, zu sehen welche Fehler das LLM macht. Es kommen bestimmt benutzbare Dinge heraus, aber wartbarer Code eher nicht.
@lbenedix das stimmt. aber da ist man halt bei der frage: welchen nutzen gibt es und welche gefahren. und da gibt es (meines achtens) auf beiden enden was.
@rstockm @343max die "50% success rate" ist jetzt nicht unbedingt gut, oder?
@343max Du musst ja auch gar nicht „glauben“ sondern ich sage halt „wirf mal rüber, dann sehen wir was Stand der Technik ist“.
Ich bin doch der, der durch die Gehend läuft und sagt „wie kostenlosen Modelle sind Mist und nicht geeignet, die Grenzen von LLMs zu diskutieren“.
Für eigene Experimente empfehle ich immer https://openrouter.ai da braucht es keine 200 sondern vielleicht 5€ im Monat und man weiß was Phase ist.
OpenRouter

The unified interface for LLMs. Find the best models & prices for your prompts

OpenRouter
@rstockm Ich hab festgestellt, bei OpenRouter sind die Chats nach dem Ausloggen weg. Nutzt du/ihr für berufliches dann ein OpenWebUI davor, in dem man dann u.a. thematisch gruppieren kann?
Oder nutzt du hauptsächlich ChatGPT, der bringt das ja von Haus aus mit?
@ron OpenRouter nehme ich a) für Experimente von Frontier-Modellen, da brauche ich keine Historie und b) als API-Endpoint wenn ich ein LLM in einer meiner Apps brauche.
Für alles andere habe ich Cursor (Vibe-Coding), Standard ChatGPT (Standardkram) und eine lokale Mistral 14b Instanz mit ML Studio davor.
Also recht diversifiziert.