OpenAI führt mit Model Spec Evals einen neuen Benchmark zur Messung der Regeltreue ein. Dabei schneidet das ältere GPT-5 Thinking mit 89 Prozent messbar besser ab als das aktuelle GPT-5.4 Thinking. Modelle mit Reasoning-Fähigkeiten erweisen sich bei der Einhaltung von 225 Verhaltensregeln als robuster gegenüber kompakten Architekturen.

#OpenAI #GPT5 #LLM #Benchmarks #News
https://www.all-ai.de/news/news26/gpt4o-test-gpt5-4

Warum das beste GPT-Modell nicht das neueste ist

Die Auswertung hunderter Test-Prompts offenbart erstaunliche Leistungsunterschiede. Eine bestimmte Architektur setzt sich klar von der Konkurrenz ab.

All-AI.de