Google Research belegt mathematische Schwächen in der aktuellen Evaluierung von KI-Modellen.

Die Forscher kritisieren, dass einfache Mehrheitsentscheide bei der Bewertung subjektiver Aufgaben die statistische Signifikanz verfehlen. Künftige Benchmarks erfordern größere Prüfergruppen und Wahrscheinlichkeitsverteilungen anstelle absoluter Labels, um verlässliche Leistungsdaten zu liefern.

#GoogleResearch #AIBenchmarks #LLM #Datensaetze #News
https://www.all-ai.de/news/news26/google-research-ki-benchmarks

Google Research fordert das Ende einfacher KI-Benchmarks

Die bloße Mehrheitsmeinung von Testern reicht nicht mehr aus, um Modelle sicher zu evaluieren.

All-AI.de