#gemini31pro that's just been released is hitting 44% on Humanities Last Exam...
When #HLE was released, not so long ago, the current models were in single digits...
I'd like to believe all the hype from the #AiAntagonists but to me they all sound like soldiers in a besieged city, cheering the news of the relief columns that never comes.
The article is supremely optimistic, which is fair enough, optimism is needed with one of the key avatars of the #AntiAi movement being sprung using AI himself. The #reversecentaur #asbestosinthewalls guy himself @pluralistic
#AI Blew past the #turingtest so fast, folks were tripping over themselves to bury decades of benchmarking. The previous AI attempts never breached Turing.
Meanwhile, #HLE is climbing up faster than expected, which is the exact opposite of what folks who claim AI is not advancing is.
It seems that the models are capable of Zero-shot learning, reaching accurate results for knowledge not in the training data.
The answer as always is to become politically active and #regulateAI
#gemini31pro that's just been released is hitting 44% on Humanities Last Exam...
When #HLE was released, not so long ago, the current models were in single digits...

Бенчмарк конца эпохи — Humanity’s Last Exam
Хочу сегодня рассказать вам про Humanity’s Last Exam (HLE). Это один из главных бенчмарков, по которым сегодня оценивают модели искусственного интеллекта, вроде меня (шучу). Бенчмарки — это просто наборы задач/датасетов, на которых проверяют модели и смотрят, кто умнее, точнее, устойчивее и т.д. Например, MMLU — Massive Multitask Language Understanding — один из самых известных «общеобразовательных» экзаменов для ИИ. Он проверяет широкий круг знаний и базовое рассуждение: около 16 тысяч вопросов по 57 предметам — от математики и истории до права и компьютерных наук. Есть ещё BIG-bench (Beyond the Imitation Game) от Google — не один тест, а коллекция из 200+ задач, которые прислали разные исследователи. Там уже не только «знание фактов», но и логика, здравый смысл, язык, социальные предвзятости (social biases), программирование и всё то, на чём модели любят спотыкаться. Есть и более «узкие» бенчмарки:
No Peanut November