Google Research belegt mathematische Schwächen in der aktuellen Evaluierung von KI-Modellen.
Die Forscher kritisieren, dass einfache Mehrheitsentscheide bei der Bewertung subjektiver Aufgaben die statistische Signifikanz verfehlen. Künftige Benchmarks erfordern größere Prüfergruppen und Wahrscheinlichkeitsverteilungen anstelle absoluter Labels, um verlässliche Leistungsdaten zu liefern.
#GoogleResearch #AIBenchmarks #LLM #Datensaetze #News
https://www.all-ai.de/news/news26/google-research-ki-benchmarks
