Mastodawn

Alle die nichts über #ki und #llm lesen wollen, bitte kurz abschalten, da ich mal über GPT-5.5 Pro reden muss.

Dieses Modell überrascht uns in der #Mathematik gerade ziemlich.

Ein länglicher 🧵

Letzte Woche fand der Workshop "Benchmarks in Leipzig" statt (ratet mal wo) und kurz gesagt: Es fällt selbst Profi-Mathematiker:innen mittlerweile sehr schwer, innerhalb von, sagen wir, ein paar Stunden eine Forschungsfrage mit klarer, ihnen bekannter Antwort aufzuschreiben, die dieses Modell nicht lösen kann.

https://www.mis.mpg.de/de/events/series/benchmarks-in-leipzig

Series

Show thread

Thomas Kahle May 20

OK, jedes Benchmarking findet in einem Framework statt, das bestimmte Fragen ausschließt und nur kleine Teile der Mathematik abbildet. Vorweg: Mathe ist noch lange nicht gelöst oder erledigt!

In Leipzig kam Science Bench von @ChristianStump zum Einsatz. Da sind z.B. keine Ja/Nein-Fragen erlaubt, kein "Finde den Beweis von ..." und noch ein paar weitere Einschränkungen.

Christians Draft-Seite zum Thema "Mathe gelöst" übrigens
https://math.sciencebench.ai/definition-theorem-proof

ScienceBench|Definition – Theorem – Proof

Challenge the newest AI models with your hardest PhD-level exercises. Learn how to use AI in your math research.

Show thread

Thomas Kahle May 20

Die einhellige Meinung von allen, die es wirklich ausprobieren: GPT-5.5 Pro ist den anderen Modellen weit enteilt. Die Zahlen sagen das, und beim Ausprobieren merkt man es auch.

Hier sind die Benchmarks der Probleme von Christian:
https://math.sciencebench.ai/benchmarks

Aber Pro ist hier noch NICHT aufgeführt und es löst nochmal einen ganzen Schwung weitere Fragen.

ScienceBench|Project Benchmarks

Challenge the newest AI models with your hardest PhD-level exercises. Learn how to use AI in your math research.

Show thread

Thomas Kahle May 20

Aber was ist dieses GPT-5.5 Pro?

Früher haben wir mal immer gewitzelt (im Bezug auf Apple): Pro means showing up to your meeting with a bunch of dongles.

Im Ernst: GPT-5.5 ist eine Modellfamilie von OpenAI, die schon sehr stark ist. Pro ist ein etwas verstecktes Modell darin. Im normalen Plus-Abo der App kann man es nicht auswählen, man braucht mindestens den "Pro"-Zugang, also den für ca. 100$ im Monat oder mehr.

Show thread

Thomas Kahle May 20

Die Webapp ist natürlich unbequem. Über die API kann man es auch nutzen, und es ist SCHWEINETEUER: 180$ pro 1M Token Output.

Zum Vergleich: Das gemeinhin als teuer geltende Opus 4.7 kostet 24$, ein großes OS-Modell (> 1T Param.) wie DeepSeek V4 Pro 85 Cent.

In CODEX, dem Coding-Harness von OpenAI, kann man Pro auch nicht per Monatsabo nutzen. Ergäbe aber auch wenig Sinn: Das Modell braucht extrem lange zum Antworten. Mathe-Frage reingeben und 1-2h auf die Antwort warten ist komplett normal.

Show thread

Thomas Kahle May 20

Was ist das jetzt? Hat OpenAI eine neue geheime Sauce erfunden? Haben sie die Skalierung nochmal auf 11 gedreht, und deswegen ist es so teuer und langsam? Ist das das eigentliche Foundation Model, und GPT-5.5 schon eine Destillation davon?

Warum bewerben sie "nur" GPT-5.5 und fast gar nicht Pro? Auf OpenAIs eigener Benchmark-Seite taucht es in der Tabelle auf, und auch da ist es Spitzenreiter bei den Mathe-Benchmarks.

https://openai.com/index/introducing-gpt-5-5/

Show thread

Thomas Kahle May 20

Hier eine Theorie, die vielleicht Quatsch ist, aber who knows: GPT-5.5 Pro ist gar kein einzelnes LLM. Sie spawnen im Hintergrund mehrere Agents, die als Team (mit normalem GPT-5.5 als LLM) eine ausgefeilte Recherche durchführen, ein gewisses Token-Budget verbrauchen und am Ende einen Report rausgeben!

Dann würden die Benchmarks aber ziemlich Äpfel mit Birnen vergleichen, denn ein Opus Agent Team ist bestimmt auch nochmal besser als nur Opus.

Show thread

Thomas Kahle May 20

Klar erkennbar ist: OpenAI hat sich stark auf die (Mathe-)Benchmarks konzentriert und optimiert systematisch darauf hin. Das ist ihr Marketing-Play.

Anthropic setzt auf Coding und hat deshalb den Stunt mit Mythos gemacht.

Mythos ist wahrscheinlich auch so eine Art "Opus 4.7 Pro", aber Anthropic hat schlicht nicht die Hardware, um das der Allgemeinheit anzubieten.

Show thread

Thomas Kahle May 20

Schlussgedanke 1: Die Zeit der Benchmarks kann sehr schnell vorbei sein. Es ist für Menschen einfach zu schwer und zu mühsam, noch Mathe-Fragen per Hand zu generieren, die sie selbst lösen können und LLMs nicht. Der Trend geht dahin, direkt an Open Problems zu arbeiten.

Dann hat man natürlich wieder das Problem, dass kein Mensch die Outputs lesen will. Wir müssen den Social Contract neu schreiben, damit wir uns nicht an korrekten, aber ungekochten (wie @tao sagen würde) Beweisen verschlucken.

Show thread

Thomas Kahle May 20

Und 2: Was haben die Firmen, das wir in der Uni nicht haben? Geld sicher. Aber auch mehr menschliche Intelligenz? Mehr Erfahrung? Freiheit für Kreativität? Weniger Bürokratie?

Ehrlich gesagt haben wir LLMs einfach auch sehr sehr lange belächelt und ignoriert. Jetzt sollten wir in der Uni mal wieder in die Pötte kommen und wenigstens an der Open-Science- und Open-Weights-Front aufholen.

Ende.

Show thread

Lukas Graf May 20

@tomkalei Weniger Skrupel, würde ich auf jeden Fall ergänzen.
An der Uni würde man für so Ideen wie "Wir scrappen einfach mal das gesamte Internet unter Missachtung sämtlicher Lizenzen, Urheber- und Persönlichkeitsrechte" (hoffentlich) von der Ethikkommission (und Rechtsabteilung) eine auf den Deckel bekommen.
"Achso, und - ne, über die möglichen Konsequenzen dieser Tools haben wir natürlich auch nicht nachgedacht. Ist das wichtig?"

Show thread

Lukas Graf May 20

@tomkalei Insofern finde ich auch nicht, dass Unis diesen Wettlauf um jeden Preis und ohne Rücksicht auf Verluste unbedingt mitmachen sollten.

An LLMs forschen natürlich schon (passiert ja auch), aber vielleicht doch mit etwas mehr Nachdenken und Hinterfragen, was genau man da eigentlich tut.
Und in dem Bereich wiederum haben Universitäten dann vielleicht doch gewisse Vorteile im Vergleich zu Unternehmen, deren Investoren baldige Milliardengewinne erwarten...

Show thread

Thomas Kahle

@lukasmathgraf

Und baldige Gewinne scheinen die Investoren ja auch nicht zu erwarten, denn Anthropic und OpenAI wollen die ganze Zeit immer nur noch mehr Geld und versprechen überhaupt kein break even mehr vor 2030 oder noch viel später.