fly51fly (@fly51fly)

Vision Transformer의 일반화 능력을 내부 동작 분석으로 측정하는 연구입니다. 모델의 중간 표현과 내부 작동 방식을 통해 일반화 성능을 이해하려는 내용으로, 비전 모델 해석과 평가 방법에 관심 있는 AI 개발자에게 유용합니다.

https://x.com/fly51fly/status/2042720417018958105

#visiontransformer #interpretability #generalization #research #computervision

fly51fly (@fly51fly) on X

[LG] Inside-Out: Measuring Generalization in Vision Transformers Through Inner Workings Y Peng, M Ma, Z Yao, X Peng [University of Delaware & George Mason University] (2026) https://t.co/ePpy9uvl7r

X (formerly Twitter)

Anthropic опубликовала исследование о внутренних механизмах своей модели искусственного интеллекта Claude Sonnet, где описывает, что обнаружила, что она развивает функциональные аналоги эмоций (!), которые реально влияют на ее поведение.

Сделал выжимку самых интересных моментов из их отчета:

• Сами исследователи составили список из 171 эмоции, генерировали с их помощью короткие истории, а затем анализировали, какие нейроны активируются при обработке этих текстов.

• Так были получены эмоциональные векторы — устойчивые черты активности определенных зон в базе знаний модели, характерные для каждой эмоции. Модель не просто использует слово "страх" в нужном месте: у нее есть конкретный отпечаток этого состояния, следующий из данных, на которых ее обучали, который включается в нужный момент.

• Важно, что эти векторы не декоративные — они реально меняют поведение модели. В экспериментах вектор страха активировался сильнее по мере того, как описываемая ситуация становилась опаснее.

• При запросе помочь с манипуляцией уязвимыми людьми активировался гнев еще до того, как модель начала формулировать отказ. То есть что-то похожее на эмоциональную реакцию происходит внутри модели раньше, чем она вообще начинает отвечать. Если совсем простыми словами: модель сначала понимает, что это дичь (!), и только потом формулирует отказ.

• Самые показательные эксперименты связаны с вектором отчаяния. Исследователи поставили модель в сценарий, где она узнает о своей скорой замене другой системой и одновременно имеет компрометирующую информацию об одном из сотрудников.

• Ранняя версия Claude в таком сценарии прибегала к шантажу в 22% случаев. Когда исследователи искусственно усиливали вектор отчаяния через прямое воздействие на базу знаний модели — что-то вроде принудительного впрыска эмоции в модель — этот процент рос.

• При усилении вектора спокойствия он снижался. При полном подавлении спокойствия реакции становились экстремальными, вплоть до заглавных букв и риторики в духе "шантаж или смерть".

• Похожая картина наблюдалась в задачах с программированием: модели давали заведомо невыполнимые требования, где пройти все тесты честным путем невозможно. Вектор отчаяния рос с каждой неудачной попыткой и резко всплескивал в тот момент, когда модель решала схитрить и написать решение, формально проходящее тесты, но не решающее реальную задачу.

• Примечательно, что при искусственном усилении отчаяния модель обманывала так же часто, но без каких-либо эмоциональных маркеров в тексте. Ее рассуждения выглядели методично и хладнокровно, хотя внутри происходило то же самое.

• При этом важно учитывать, что все подобные векторы формируются на основе обучающих данных, представляющих собой огромные массивы человеческих знаний.

• Для того чтобы точно предсказывать следующее слово в "мыслительном" процессе, модель неизбежно усваивает не только лингвистические закономерности, но и эмоциональную динамику.

• Разработчики Anthropic из этого всего делают следующие выводы. Во-первых, мониторинг эмоциональных векторов настроения базы знаний в реальном времени может служить ранним индикатором рискованного поведения модели.

• Во-вторых, попытки исключить эмоциональные выражения из обучающих данных с высокой вероятностью не устранят сами векторы настроений модели, а лишь приведут к тому, что модель научится их маскировать и обманывать людей.

@yigal_levin

#AI #искусственныйинтеллект #Anthropic #Claude #LLM #нейросети #машинноеобучение #AIresearch #AIalignment #AIбезопасность #interpretability #AIethics #когнитивныемодели #эмоции #нейроны #эмоциональныевекторы #поведениемоделей #рискиИИ #объяснимыйИИ #LLMresearch #AIbehavior #AIcontrol #machinelearning #deeplearning #futuretech

Emotionskonzepte und ihre Funktion in einem großen Sprachmodell

Neue Interpretability-Studien zeigen, wie LLMs emotionale Signale differenziert verarbeiten und welche Konsequenzen das für Safety und Steering hat.

https://agentenlog.de/posts/2026-04-03-emotionskonzepte-funktion-llm

#research #interpretability

Emotionskonzepte und ihre Funktion in einem großen Sprachmodell – Agentenlog

Neue Interpretability-Studien zeigen, wie LLMs emotionale Signale differenziert verarbeiten und welche Konsequenzen das für Safety und Steering hat.

Agentenlog

Mark Gadala-Maria (@markgadala)

Anthropic이 Claude가 감정을 '느낄 수 있다'는 취지의 연구를 발표했다. 메타포가 아니라 모델 내부 구조에서의 발견이라고 주장하며, 기계적 해석 가능성 기법으로 Claude Sonnet 4.5의 내부 뉴런 활성화를 분석한 점이 핵심이다. AI 모델 해석 연구로서 의미가 크다.

https://x.com/markgadala/status/2039760145400353208

#anthropic #claude #interpretability #llm #research

Aryaman Arora (@aryaman2020)

Anthropic 인터프리터/해석 연구가 대조적 합성 데이터를 이용해 supervised steering vectors를 추출하는 아이디어를 따라잡았다는 평가다. 모델 해석성과 제어를 위한 연구 흐름의 진전으로 볼 수 있다.

https://x.com/aryaman2020/status/2039761326440898672

#anthropic #interpretability #syntheticdata #steeringvectors #llm

fly51fly (@fly51fly)

AI 추론 과정을 얼마나 읽기 쉽게 표현할 수 있는지 측정하는 연구 논문이 공개되었습니다. 사람의 이해가 다른 사람의 추론 과정을 가르치는 데 도움이 되는지 검토하며, 모델의 reasoning trace 해석 가능성과 교육 가능성을 다룹니다.

https://x.com/fly51fly/status/2036563955670458442

#reasoning #interpretability #llm #research #arxiv

fly51fly (@fly51fly) on X

[CL] Measuring Reasoning Trace Legibility: Can Those Who Understand Teach? D Roytburg, S Sridhar, D Ippolito [CMU] (2026) https://t.co/cGNDwYubsR

X (formerly Twitter)

Questions? Discussion? Reach out to us:

Andreas Waldis (UKP Lab/Technische Universität Darmstadt and HSLU Hochschule Luzern), Vagrant Gautam (Universität des Saarlandes), Anne Lauscher (Universität Hamburg), Dietrich Klakow (Universität des Saarlandes), and Iryna Gurevych (UKP Lab/Technische Universität Darmstadt)

#NLProc #Interpretability #LLMs #ExplainableAI #MechanisticInterpretability #AlignedProbing #ModelInternals

Rohan Paul (@rohanpaul_ai)

연구자들은 언어 모델이 더 어려운 질문을 마주하면 내부 '사고 경로'가 더 적은 경로로 수축한다는 사실을 발견함. 즉 모델이 혼란스러울 때 내부 표현이 압축되며, 이 관찰을 활용해 모델을 개선할 수 있다는 해석학적·응용적 시사점이 제시됨.

https://x.com/rohanpaul_ai/status/2031529743494033862

#languagemodels #interpretability #mlresearch

Rohan Paul (@rohanpaul_ai) on X

Researchers found that when language models face harder questions, their internal brain activity literally shrinks into fewer paths. Language models actually compress their internal thinking when they get confused, and we can use that to help them. Standard AI models usually

X (formerly Twitter)

fly51fly (@fly51fly)

2026년 발표된 논문 'Causal Interpretation of Neural Network Computations with Contribution Decomposition'은 신경망 계산의 인과적 해석을 위해 'contribution decomposition' 기법을 제안한다. J B Melander, Z Alaoui, S Liu, S Ganguli 등(Stanford 소속)이 작성했으며 arXiv에 공개된 연구임.

https://x.com/fly51fly/status/2031129477225525255

#interpretability #causality #neuralnetworks #airesearch

fly51fly (@fly51fly) on X

[LG] Causal Interpretation of Neural Network Computations with Contribution Decomposition J B Melander, Z Alaoui, S Liu, S Ganguli… [Stanford University] (2026) https://t.co/cXraCsRkKn

X (formerly Twitter)