Can language models monitor and steer their own internal activations? A neuroscience-inspired neurofeedback paradigm finds yes, but only within a low-dimensional metacognitive space: semantically interpretable directions are accessible, raw-variance directions aren't. The prerequisite for spoofing activation-based oversight already partially exists.

https://benjaminhan.net/posts/20260526-metacognitive-monitoring-control-activations/?utm_source=mastodon&utm_medium=social

#Paper #Metacognition #LLMs #AISafety #Neuroscience #NeurIPS #AI

Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations – synesis

A neuroscience-inspired neurofeedback paradigm shows LLMs can introspect and steer a low-dimensional metacognitive space of their hidden activations, with implications for activation-based oversight.

synesis

Do current LLMs know when to say "I don't know"? AbstentionBench (NeurIPS '25) tests 20 frontier models across 20 unanswerable-question datasets. Reasoning fine-tuning degrades abstention recall by ~24% — RLVR has no "abstain" action, so there's no gradient toward "I don't know." Models hedge in CoT and commit anyway in the final answer.

https://benjaminhan.net/posts/20260523-abstentionbench-unanswerable-questions/?utm_source=mastodon&utm_medium=social

#Paper #AI #LLMs #Metacognition #Benchmark #Reasoning #NeurIPS

AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions – synesis

A 20-dataset benchmark of LLM abstention finds scaling doesn’t help, reasoning fine-tuning degrades recall by 24%, and a generous system prompt only partly closes the gap.

synesis
經濟學人: 中國包攬全球 逾半頂尖 AI 研究員 後年人才規模或達美國兩倍
英國《經濟學人》聯同智庫 MacroPolo 針對 2025 年 NeurIPS (神經資訊處理系統大會)逾 […]
#人工智能 #AI 人才 #DeepSeek #NeurIPS
https://unwire.hk/2026/05/18/china-ai-talent-neurips-2025-surpass-us/ai/?utm_source=rss&utm_medium=rss&utm_campaign=china-ai-talent-neurips-2025-surpass-us

AVeriTeC (NeurIPS 2023): 4,568 real-world fact-checked claims, web-retrieved evidence, four-way labels, temporal-leak-free split.

Two structural gaps: gold answers are frozen but the retrieval surface isn't (two systems a year apart hit different Google), and the not-enough-evidence class rewards weak retrievers — predicting NEI when retrieval fails matches gold by coincidence.

https://benjaminhan.net/posts/20260507-averitec/?utm_source=mastodon&utm_medium=social

#Paper #Benchmark #FactVerification #NeurIPS #AI

AVeriTeC: A Dataset for Real-world Claim Verification with Evidence from the Web – synesis

A 4,568-claim fact-checking benchmark sourced from 50 real fact-checking organizations, with web-retrieved evidence, a 4-way verdict label including not-enough-evidence, and a temporal-leak-free split.

synesis

Муравьи против трансформеров: старый алгоритм 1992 года, который вернулся

Начну с признания: истории формата «природа оптимизирует лучше людей» меня обычно раздражают, слишком уж часто это все притянуто за уши. Но с муравьями история действительно странная, и мне ее захотелось проверить. Короткая справка по нашему герою. Аргентинский муравей Linepithema humile в миллиметр длиной, с глазами у него все плохо, а в мозге около 250 000 нейронов (у нас, напомню, 86 млрд). Карты местности он не помнит. В 1989 году четверо бельгийских биологов поставили этим муравьям простой эксперимент — гнездо, еда, два мостика, где один длиннее другого в два раза. Через несколько минут вся колония сошлась на короткой ветке в 100% прогонов. И все это без координатора, без плана и без голосования. Через три года этот эксперимент превратится в Ant Colony Optimization — алгоритм, который я сегодня натравлю на классический TSP-бенч и получу 0,10% отставания от оптимума. А в 2023, через 34 года после наблюдений в Брюсселе, тот же алгоритм вернулся на NeurIPS в качестве бэкбона для графовых нейросетей. Что же, приступим.

https://habr.com/ru/companies/selectel/articles/1031574/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1031574

#ACO #задача_коммивояжера #DeepACO #комбинаторная_оптимизация #NeurIPS #графовые_нейросети #стигмергия #selectel #ai #ml

Муравьи против трансформеров: старый алгоритм 1992 года, который вернулся

Начну с признания: истории формата «природа оптимизирует лучше людей» меня обычно раздражают, слишком уж часто это все притянуто за уши. Но с муравьями история действительно странная, и мне ее...

Хабр

Муравьи против трансформеров: старый алгоритм 1992 года, который вернулся

Начну с признания: истории формата «природа оптимизирует лучше людей» меня обычно раздражают, слишком уж часто это все притянуто за уши. Но с муравьями история действительно странная, и мне ее захотелось проверить. Короткая справка по нашему герою. Аргентинский муравей Linepithema humile в миллиметр длиной, с глазами у него все плохо, а в мозге около 250 000 нейронов (у нас, напомню, 86 млрд). Карты местности он не помнит. В 1989 году четверо бельгийских биологов поставили этим муравьям простой эксперимент — гнездо, еда, два мостика, где один длиннее другого в два раза. Через несколько минут вся колония сошлась на короткой ветке в 100% прогонов. И все это без координатора, без плана и без голосования. Через три года этот эксперимент превратится в Ant Colony Optimization — алгоритм, который я сегодня натравлю на классический TSP-бенч и получу 0,10% отставания от оптимума. А в 2023, через 34 года после наблюдений в Брюсселе, тот же алгоритм вернулся на NeurIPS в качестве бэкбона для графовых нейросетей. Что же, приступим.

https://habr.com/ru/companies/selectel/articles/1031574/

#ACO #задача_коммивояжера #DeepACO #комбинаторная_оптимизация #NeurIPS #графовые_нейросети #стигмергия #selectel #ai #ml

Муравьи против трансформеров: старый алгоритм 1992 года, который вернулся

Начну с признания: истории формата «природа оптимизирует лучше людей» меня обычно раздражают, слишком уж часто это все притянуто за уши. Но с муравьями история действительно странная, и мне ее...

Хабр

Nature: Boycott of major AI conference exposes a growing US–China divide . “A key Chinese research organization is set to boycott the prestigious NeurIPS conference, which is run by a US-based non-profit organization, after a row over a policy that initially seemed to exclude many Chinese researchers.”

https://rbfirehose.com/2026/04/15/nature-boycott-of-major-ai-conference-exposes-a-growing-us-china-divide/
Nature: Boycott of major AI conference exposes a growing US–China divide

Nature: Boycott of major AI conference exposes a growing US–China divide . “A key Chinese research organization is set to boycott the prestigious NeurIPS conference, which is run by a US-base…

ResearchBuzz: Firehose
China's largest tech federation has urged researchers to boycott the NeurIPS AI conference after it stopped accepting papers from US-sanctioned entities including Huawei. The China Computer Federation called the ban a violation of core academic values. NeurIPS, often the world's premier AI conference, drew tens of thousands of researchers last year. https://www.scmp.com/tech/article/3348006/ai-rift-widens-china-urges-boycott-top-us-conference-over-sanctions-ban #China #Tech #AI #NeurIPS
AI rift widens as China urges boycott of top US conference over sanctions ban

Move to comply with US sanctions sparks backlash, with China’s top computing body threatening to blacklist the AI conference.

South China Morning Post

#AIResearch Is Getting Harder to Separate From #Geopolitics

A policy change announced by #NeurIPS ,the world’s leading #AI #research conference, drew widespread backlash from #Chinese researchers this week and then was quickly reversed.
#china #artificialintelligence #politics

https://www.wired.com/story/made-in-china-ai-research-is-starting-to-split-along-geopolitical-lines/

AI Research Is Getting Harder to Separate From Geopolitics

A policy change announced by NeurIPS, the world’s leading AI research conference, drew widespread backlash from Chinese researchers this week and then was quickly reversed.

WIRED

#NeurIPS paper by Merlijn Krale, Eline Bovy, Maris Galesloot, Thiago Simão, and Nils Jansen: On Evaluating Policies for Robust Partially Observable Markov Decision Processes #POMDPs

https://repository.ubn.ru.nl/bitstream/handle/2066/324616/324616.pdf