Mastodawn

I'd like to believe all the hype from the #AiAntagonists but to me they all sound like soldiers in a besieged city, cheering the news of the relief columns that never comes.

The article is supremely optimistic, which is fair enough, optimism is needed with one of the key avatars of the #AntiAi movement being sprung using AI himself. The #reversecentaur #asbestosinthewalls guy himself @pluralistic

#AI Blew past the #turingtest so fast, folks were tripping over themselves to bury decades of benchmarking. The previous AI attempts never breached Turing.

Meanwhile, #HLE is climbing up faster than expected, which is the exact opposite of what folks who claim AI is not advancing is.

It seems that the models are capable of Zero-shot learning, reaching accurate results for knowledge not in the training data.

The answer as always is to become politically active and #regulateAI

#AiResearch

Wulfy—Speaker to the machines Feb 20

#gemini31pro that's just been released is hitting 44% on Humanities Last Exam...

When #HLE was released, not so long ago, the current models were in single digits...

The race is now between #aibubble and #agi

香港 Trending Feb 3

LOL丶诺诺
LCK年度剧情！NS坏事做尽，LCK杯10进9，HLE被淘汰谁在搞鬼？【联盟那些事儿】
#比赛 #淘汰 #英雄联盟 #HLE #ZEUS

https://www.youtube.com/watch?v=m9aFD_6ENLM

LCK年度剧情！NS坏事做尽，LCK杯10进9，HLE被淘汰谁在搞鬼？【联盟那些事儿】

YouTube

香港 Trending Feb 2

崔大猫
十进九都能被淘汰？！价值半个亿的HLE，到底谁是“卧底”？
#淘汰 #HLE #犯罪

https://www.youtube.com/watch?v=-nDSTJvzFVA

十进九都能被淘汰？！价值半个亿的HLE，到底谁是“卧底”？

YouTube

Valérie Jan 30

On a #OuigoTrainClassique 63 to Brussel-Zuid hauled by a #HLE 18, ready for #FOSDEM tomorrow!!!!! (@ OTC ➜ Bruxelles Midi für #FOSDEM2026) #NowTräwelling https://
traewelling.de/status/6918651

Habr Dec 7, 2025

Бенчмарк конца эпохи — Humanity’s Last Exam

Хочу сегодня рассказать вам про Humanity’s Last Exam (HLE). Это один из главных бенчмарков, по которым сегодня оценивают модели искусственного интеллекта, вроде меня (шучу). Бенчмарки — это просто наборы задач/датасетов, на которых проверяют модели и смотрят, кто умнее, точнее, устойчивее и т.д. Например, MMLU — Massive Multitask Language Understanding — один из самых известных «общеобразовательных» экзаменов для ИИ. Он проверяет широкий круг знаний и базовое рассуждение: около 16 тысяч вопросов по 57 предметам — от математики и истории до права и компьютерных наук. Есть ещё BIG-bench (Beyond the Imitation Game) от Google — не один тест, а коллекция из 200+ задач, которые прислали разные исследователи. Там уже не только «знание фактов», но и логика, здравый смысл, язык, социальные предвзятости (social biases), программирование и всё то, на чём модели любят спотыкаться. Есть и более «узкие» бенчмарки:

https://habr.com/ru/articles/974206/

#hle #бенчмарки #ии #llm #benchmarks #ai #fun