Leaderboard Illusion: что не так с Chatbot Arena

Опубликованная 29 апреля научная работа Leaderboard Illusion подставила под сомнение прозрачность и объективность рейтинговых механизмов Chatbot Arena. Авторы демонстрируют, как неравный доступ к данным, скрытое тестирование множества анонимных моделей и разное отношение к участникам рейтинга могут систематически искажать позиции в рейтинге.

https://habr.com/ru/articles/906326/

#статистика #бенчмарки_ИИ #бенчмарки #Chatbot_Arena #большие_языковые_модели #БЯМ #научные_публикации #конфликты #пиар #завышенные_ожидания

Leaderboard Illusion: что не так с Chatbot Arena

Схематичное объяснение основных проблем, изложенных в научной статье Leaderboard Illusion. Неравенство в доступе к данным между поставщиками проприетарных и открытых моделей, а также непрозрачный...

Хабр