„Humanity’s Last Exam“: Ein KI-Test mit 3.000 Fragen auf PhD-Niveau soll zeigen, ob heutige KI-Systeme über klassische Bewertungsmethoden hinauswachsen. Selbst das beste Modell (OpenAI o1) erzielte nur 8,3 %. Ein Denkanstoß für die Grenzen unserer Evaluationssysteme.

👉 https://www.nytimes.com/2025/01/23/technology/ai-test-humanitys-last-exam.html

#KIEvaluation #KünstlicheIntelligenz #AIAlignment #PhDNiveau #HumanitysLastExam #GrenzenDerKI

A Test So Hard No AI System Can Pass It — Yet

The creators of a new test called “Humanity’s Last Exam” argue we may soon lose the ability to create tests hard enough for A.I. models.

The New York Times