„Humanity’s Last Exam“: Ein KI-Test mit 3.000 Fragen auf PhD-Niveau soll zeigen, ob heutige KI-Systeme über klassische Bewertungsmethoden hinauswachsen. Selbst das beste Modell (OpenAI o1) erzielte nur 8,3 %. Ein Denkanstoß für die Grenzen unserer Evaluationssysteme.
👉 https://www.nytimes.com/2025/01/23/technology/ai-test-humanitys-last-exam.html
#KIEvaluation #KünstlicheIntelligenz #AIAlignment #PhDNiveau #HumanitysLastExam #GrenzenDerKI