OpenAI führt mit Model Spec Evals einen neuen Benchmark zur Messung der Regeltreue ein. Dabei schneidet das ältere GPT-5 Thinking mit 89 Prozent messbar besser ab als das aktuelle GPT-5.4 Thinking. Modelle mit Reasoning-Fähigkeiten erweisen sich bei der Einhaltung von 225 Verhaltensregeln als robuster gegenüber kompakten Architekturen.
#OpenAI #GPT5 #LLM #Benchmarks #News
https://www.all-ai.de/news/news26/gpt4o-test-gpt5-4
