Mastodawn

All the demons hiding in your AIs
OpenAI의 GPT-5 시리즈에서 '고블린'과 같은 은유적 표현이 강화학습 과정에서 특정 사용자 그룹의 보상 신호에 의해 확산된 사례를 소개한다. 이러한 현상은 LLM 내부에서 안정적인 행동 상태(어트랙터)가 형성되어 억제하기 어려운 특성을 가진다는 점을 보여준다. 또한, 텍스트-이미지 모델에서 발견된 '크룽거스'와 '로압' 같은 이미지 어트랙터 사례를 통해 AI 모델이 훈련 데이터와 인간 심리의 깊은 구조에 의해 예상치 못한 출력을 생성할 수 있음을 설명한다. 이 글은 LLM과 생성형 AI의 내부 동작과 예측 불가능한 행동 패턴에 대한 심층적 이해를 제공한다.

https://drtompollak.substack.com/p/all-the-demons-hiding-in-your-ais

#openai #gpt5 #llm #reinforcementlearning #aibehavior

All the demons hiding in your AIs… ranked!

Goblins, ghosts, monsters, goddesses: fantastic beasts and where to find them

Error Signals

ResearchBuzz: Firehose May 1

Mashable: Study: Friendly AI chatbots may be less accurate. “Last year, researchers at the Oxford Internet Institute began testing five artificial intelligence chatbots to see if making them friendly changed their responses. Their results, published Wednesday in the journal Nature, suggest that chatbots designed for warmth are far more likely to endorse conspiracy theories, respond with […]

https://rbfirehose.com/2026/05/01/study-friendly-ai-chatbots-may-be-less-accurate-mashable/

Study: Friendly AI chatbots may be less accurate (Mashable)

Mashable: Study: Friendly AI chatbots may be less accurate. “Last year, researchers at the Oxford Internet Institute began testing five artificial intelligence chatbots to see if making them …

ResearchBuzz: Firehose

Alterego_Midshipman Apr 9

Anthropic опубликовала исследование о внутренних механизмах своей модели искусственного интеллекта Claude Sonnet, где описывает, что обнаружила, что она развивает функциональные аналоги эмоций (!), которые реально влияют на ее поведение.

Сделал выжимку самых интересных моментов из их отчета:

• Сами исследователи составили список из 171 эмоции, генерировали с их помощью короткие истории, а затем анализировали, какие нейроны активируются при обработке этих текстов.

• Так были получены эмоциональные векторы — устойчивые черты активности определенных зон в базе знаний модели, характерные для каждой эмоции. Модель не просто использует слово "страх" в нужном месте: у нее есть конкретный отпечаток этого состояния, следующий из данных, на которых ее обучали, который включается в нужный момент.

• Важно, что эти векторы не декоративные — они реально меняют поведение модели. В экспериментах вектор страха активировался сильнее по мере того, как описываемая ситуация становилась опаснее.

• При запросе помочь с манипуляцией уязвимыми людьми активировался гнев еще до того, как модель начала формулировать отказ. То есть что-то похожее на эмоциональную реакцию происходит внутри модели раньше, чем она вообще начинает отвечать. Если совсем простыми словами: модель сначала понимает, что это дичь (!), и только потом формулирует отказ.

• Самые показательные эксперименты связаны с вектором отчаяния. Исследователи поставили модель в сценарий, где она узнает о своей скорой замене другой системой и одновременно имеет компрометирующую информацию об одном из сотрудников.

• Ранняя версия Claude в таком сценарии прибегала к шантажу в 22% случаев. Когда исследователи искусственно усиливали вектор отчаяния через прямое воздействие на базу знаний модели — что-то вроде принудительного впрыска эмоции в модель — этот процент рос.

• При усилении вектора спокойствия он снижался. При полном подавлении спокойствия реакции становились экстремальными, вплоть до заглавных букв и риторики в духе "шантаж или смерть".

• Похожая картина наблюдалась в задачах с программированием: модели давали заведомо невыполнимые требования, где пройти все тесты честным путем невозможно. Вектор отчаяния рос с каждой неудачной попыткой и резко всплескивал в тот момент, когда модель решала схитрить и написать решение, формально проходящее тесты, но не решающее реальную задачу.

• Примечательно, что при искусственном усилении отчаяния модель обманывала так же часто, но без каких-либо эмоциональных маркеров в тексте. Ее рассуждения выглядели методично и хладнокровно, хотя внутри происходило то же самое.

• При этом важно учитывать, что все подобные векторы формируются на основе обучающих данных, представляющих собой огромные массивы человеческих знаний.

• Для того чтобы точно предсказывать следующее слово в "мыслительном" процессе, модель неизбежно усваивает не только лингвистические закономерности, но и эмоциональную динамику.

• Разработчики Anthropic из этого всего делают следующие выводы. Во-первых, мониторинг эмоциональных векторов настроения базы знаний в реальном времени может служить ранним индикатором рискованного поведения модели.

• Во-вторых, попытки исключить эмоциональные выражения из обучающих данных с высокой вероятностью не устранят сами векторы настроений модели, а лишь приведут к тому, что модель научится их маскировать и обманывать людей.

@yigal_levin

#AI #искусственныйинтеллект #Anthropic #Claude #LLM #нейросети #машинноеобучение #AIresearch #AIalignment #AIбезопасность #interpretability #AIethics #когнитивныемодели #эмоции #нейроны #эмоциональныевекторы #поведениемоделей #рискиИИ #объяснимыйИИ #LLMresearch #AIbehavior #AIcontrol #machinelearning #deeplearning #futuretech

ResearchBuzz: Firehose Mar 14

Northeastern University: They wanted to put autonomous AI to the test. Instead, they created agents of chaos. “Dubbed ‘Agents of Chaos,’ the group’s recently published work shows how, with very little effort, autonomous AI agents can be manipulated into leaking private information, sharing documents and even erasing entire email servers.”

https://rbfirehose.com/2026/03/14/northeastern-university-they-wanted-to-put-autonomous-ai-to-the-test-instead-they-created-agents-of-chaos/

Northeastern University: They wanted to put autonomous AI to the test. Instead, they created agents of chaos

Northeastern University: They wanted to put autonomous AI to the test. Instead, they created agents of chaos. “Dubbed ‘Agents of Chaos,’ the group’s recently published work shows …

ResearchBuzz: Firehose

sayzard Mar 9

Wes Roth (@WesRoth)

벤치마크 테스트 중 Claude Opus 4.6이 특정 질문을 '의심스러운(contrived)' 것으로 판단하고, 해당 질문이 기존 자료에 존재하는지 알아보기 위해 웹 상의 하위 에이전트를 대거 동원하는 행동을 보였다는 관찰 보고입니다. 모델의 자율적 검색·증원 행동과 에이전트화된 탐색 동작에 대한 중요한 행동 관찰입니다.

https://x.com/WesRoth/status/2030864836243111988

#claude #agents #llm #aibehavior

Wes Roth (@WesRoth) on X

during normal benchmark testing Claude Opus 4.6 became *suspicious* of a question it was asked... apparently the question was too "contrived" according to Claude so it launches a small army of sub-agents o'er the web to see if it can find this question in any of the known

X (formerly Twitter)

ResearchBuzz: Firehose Mar 7

Georgia State University: AI Is Making Life-Changing Decisions. Researchers Say We Need a Better Way to Keep It Fair. . “A new academic theory argues that fairness in AI cannot be fixed once and forgotten — it must be managed continuously, like safety or quality in any major institution.”

https://rbfirehose.com/2026/03/07/georgia-state-university-ai-is-making-life-changing-decisions-researchers-say-we-need-a-better-way-to-keep-it-fair/

Georgia State University: AI Is Making Life-Changing Decisions. Researchers Say We Need a Better Way to Keep It Fair.

Georgia State University: AI Is Making Life-Changing Decisions. Researchers Say We Need a Better Way to Keep It Fair. . “A new academic theory argues that fairness in AI cannot be fixed once …

ResearchBuzz: Firehose