Alle die nichts über #ki und #llm lesen wollen, bitte kurz abschalten, da ich mal über GPT-5.5 Pro reden muss.

Dieses Modell überrascht uns in der #Mathematik gerade ziemlich.

Ein länglicher 🧵

Letzte Woche fand der Workshop "Benchmarks in Leipzig" statt (ratet mal wo) und kurz gesagt: Es fällt selbst Profi-Mathematiker:innen mittlerweile sehr schwer, innerhalb von, sagen wir, ein paar Stunden eine Forschungsfrage mit klarer, ihnen bekannter Antwort aufzuschreiben, die dieses Modell nicht lösen kann.

https://www.mis.mpg.de/de/events/series/benchmarks-in-leipzig

Series

OK, jedes Benchmarking findet in einem Framework statt, das bestimmte Fragen ausschließt und nur kleine Teile der Mathematik abbildet. Vorweg: Mathe ist noch lange nicht gelöst oder erledigt!

In Leipzig kam Science Bench von @ChristianStump zum Einsatz. Da sind z.B. keine Ja/Nein-Fragen erlaubt, kein "Finde den Beweis von ..." und noch ein paar weitere Einschränkungen.

Christians Draft-Seite zum Thema "Mathe gelöst" übrigens
https://math.sciencebench.ai/definition-theorem-proof

ScienceBench|Definition – Theorem – Proof

Challenge the newest AI models with your hardest PhD-level exercises. Learn how to use AI in your math research.

Die einhellige Meinung von allen, die es wirklich ausprobieren: GPT-5.5 Pro ist den anderen Modellen weit enteilt. Die Zahlen sagen das, und beim Ausprobieren merkt man es auch.

Hier sind die Benchmarks der Probleme von Christian:
https://math.sciencebench.ai/benchmarks

Aber Pro ist hier noch NICHT aufgeführt und es löst nochmal einen ganzen Schwung weitere Fragen.

ScienceBench|Project Benchmarks

Challenge the newest AI models with your hardest PhD-level exercises. Learn how to use AI in your math research.

Aber was ist dieses GPT-5.5 Pro?

Früher haben wir mal immer gewitzelt (im Bezug auf Apple): Pro means showing up to your meeting with a bunch of dongles.

Im Ernst: GPT-5.5 ist eine Modellfamilie von OpenAI, die schon sehr stark ist. Pro ist ein etwas verstecktes Modell darin. Im normalen Plus-Abo der App kann man es nicht auswählen, man braucht mindestens den "Pro"-Zugang, also den für ca. 100$ im Monat oder mehr.

Die Webapp ist natürlich unbequem. Über die API kann man es auch nutzen, und es ist SCHWEINETEUER: 180$ pro 1M Token Output.

Zum Vergleich: Das gemeinhin als teuer geltende Opus 4.7 kostet 24$, ein großes OS-Modell (> 1T Param.) wie DeepSeek V4 Pro 85 Cent.

In CODEX, dem Coding-Harness von OpenAI, kann man Pro auch nicht per Monatsabo nutzen. Ergäbe aber auch wenig Sinn: Das Modell braucht extrem lange zum Antworten. Mathe-Frage reingeben und 1-2h auf die Antwort warten ist komplett normal.

@tomkalei Vorhin hatte ich im „normalen“ 5.5 in Codex einen Prompt, an dem 27 Minuten gearbeitet wurde. Die Aufgabe wurde vollständig gelöst, mit mehreren Syntaxchecks, Patches und Testbench zwischendurch (alle schön ins git eingepflegt).

Hat 30% der Credits-pro-5-Stunden im 20 €-Abo gekostet.

Wie krass muss dann „Pro“ sein.

@sci_photos
Wie gehen wir denn damit um, wenn die KI Firmen massiv ihre Preise erhöhen?
@tomkalei

@Marcel @tomkalei Sehr gute Frage.

Das, was ich da gerade für nen Zwanni im Monat mache … puh.

Mein Glück: in vier Wochen ist der Messzeitblock am DESY vorbei, danach „brauche“ ich den Stoff erstmal nicht, dreiviertel Jahr kalter Entzug 😵‍💫.

@sci_photos @Marcel

Ich freue mich auf den Tag, wo das ehrlich bepreist wird. Dann können wir eine "Kosten-Nutzen-Gesamtrechnung" machen.

Allerdings für Wissenschaft: Mal unter der Annahme, dass die Gesellschaft noch Wissenschaft will, ist das alles noch im Rahmen, z.B. im Vergleich zum Bau und Betrieb des DESY.

Diese Riesenmodelle sind für die Mathematik sowas wie Teilchenbeschleuniger, oder?

@tomkalei
Was mich umtreibt: wenn das so läuft wie in der Plattformökonomie mit Lock-In-Effekt - kostenlos, billig anfüttern und dann hängt eine ganze Gesellschaft am Tropf und kommt nicht wieder raus.
@sci_photos

@Marcel @sci_photos

Es gibt hier überhaupt keinen Netzwerkeffekt. Wenn du von WhatsApp zu Signal wechselst ist da erstmal keiner deiner Freunde und die App ist wertlos für dich. Wenn du von einer KI zur anderen wechselst antwortet die halt vielleicht in einem anderen Tonfall oder hat andere Probleme, aber das auf dem Level "neue App".

Es gibt höchstens einen Lock-In (Abhängigkeit) von KI im Allgemeinen, aber es gibt halt auch Bier bei der Getränkefeinkost für 7 EUR oder beim Aldi für 59 Cent.

@tomkalei
Stimmt. Aber wollen nicht alle KI Firmen Geld verdienen und müssten massivst die Preise erhöhen? Können sich dann nur Reiche Premium-Modelle leisten und alle anderen nur die Billo-KIs?
@sci_photos

@Marcel @sci_photos

Naja genau.

Bei OpenRouter kannst du sehen was der Betrieb wirklich kostet. DeepSeek Pro für „billo“ ist für 99,5% der Anwendungen genug.

Ich trinke auch nicht zu jeder Mahlzeit Champagner. Meistens muss Crémant genügen!!

@tomkalei @Marcel
Einen Großteil unserer Zeit verbringen „wir“ (also, ich nicht, aber die Studys im Institut) lokal im Labor an den kleinen Röntgenquellen.
Zum teuren Synchrotron fahren wir auch nur für „große“ Messungen – also Faktoren 100 bis 1000 mal chooseOne[schneller, höher, kleiner].

@tomkalei @Marcel

Es bleibt spannend, ob sich Anwendungsmodelle jenseits von Mathe-Beweisen und Programmieraufgaben (wobei wir ja wissen, dass Code-Erzeugung nur 1 kleiner Teil ist; aber auch Planung / Diskussion geht gut) finden, und ob sich Kunden finden, die dafür entsprechend bezahlen …

@sci_photos @Marcel

AlphaFold und verschiedene Optimierungstools wie AlphaEvolve kann man auch noch nennen. Das sind schon Durchbrüche. Aber eben viel menschliche Genialität plus Compute.

Aber das war schon immer so. Wir standen on the shoulder of the technology giants.

Und ich meine die Technologie nicht die Bros.

@tomkalei @Marcel
Ja, AlphaFold ein wichtiges Beispiel für „angewandte KI“; da steckt mit Biochemie und Pharma aber auch viel Geld hinter. (Nicht direkt die Entwicklung, aber potentielle Kundschaft.)