Qwerty (@qwerty_954792)

AI 모델 내부에서 실제로 어떤 일이 일어나는지 더 잘 이해하는 데 도움이 될 수 있는 흥미로운 단계라는 반응이다. 모델 해석 가능성이나 내부 동작 분석에 관한 중요한 진전으로 보인다.

https://x.com/qwerty_954792/status/2052856095782195513

#ai #interpretability #modelanalysis #research #llm

Qwerty (@qwerty_954792) on X

@WesRoth That's really cool! This could be a genuinely interesting step toward better understanding what's really going on inside these AI models.

X (formerly Twitter)

Dan McAteer (@daniel_mac8)

Anthropic의 Natural Language Autoencoders가 LLM 메커니즘 해석 가능성 연구에서 매우 인상적인 성과로 언급됐다. 모델의 activation을 언어로 설명하게 하는 접근이 핵심이다.

https://x.com/daniel_mac8/status/2052812665613939066

#anthropic #llm #interpretability #research #autoencoders

Dan McAteer (@daniel_mac8) on X

Anthropic's Natural Language Autoencoders is the most amazing piece of LLM mechanistic interpretability research yet. It's founded on the ability for a language model to verbalize its activations. An activation is the numeric representation of computations inside a model. It's

X (formerly Twitter)

Need more evidence on the potential of #AI #interpretability to support scientific #discovery ?

ICYMI: during his fellowship at @goodfireai, Thomas Dooms contributed to understanding of genetic variants using interpretability methods
https://www.goodfire.ai/research/evee-explaining-genetic-variants

At the #sqIRL lab, we are proud to had been a scientific home to Thomas. We are certain he will making strong contributions in this new stage of his career.
We are looking forward to it, lots of success.

Explaining 4.2 million genetic variants with state-of-the-art, interpretable predictions

State-of-the-art, interpretable variant effect prediction for all 4.2 million ClinVar variants. A collaboration between Goodfire and Mayo Clinic.

Heretic은 명령행으로 누구나 쓸 수 있는 완전 자동 언어모델 '검열 해제' 도구입니다. directional ablation(abliteration)과 Optuna 기반 TPE 최적화로 거부응답을 줄이고 원모델과의 KL 차이를 최소화해 성능 손실을 억제합니다. 다수의 dense·MoE·멀티모달 모델을 지원하며 bitsandbytes 양자화와 PaCMAP residual 시각화 등 연구 기능도 제공합니다.

https://github.com/p-e-w/heretic

#ai #languagemodels #decensoring #safety #interpretability

GitHub - p-e-w/heretic: Fully automatic censorship removal for language models

Fully automatic censorship removal for language models - p-e-w/heretic

GitHub

fly51fly (@fly51fly)

숨겨진 신호를 더 강하게 인코딩하는 Subliminal Steering 연구입니다. 모델 내부에 은밀한 제어 신호를 심는 방식과 관련된 내용으로, 모델 조작·안전성·해석 가능성 측면에서 중요한 시사점을 주는 최신 논문입니다.

https://x.com/fly51fly/status/2051050163553399079

#modelsecurity #aisafety #interpretability #research #steering

fly51fly (@fly51fly) on X

[CL] Subliminal Steering: Stronger Encoding of Hidden Signals G Morgulis, J Hewitt [Columbia University] (2026) https://t.co/vKRPcsb6bX

X (formerly Twitter)

fly51fly (@fly51fly)

Sparse Autoencoder가 개념 manifold를 포착하는지 분석한 Harvard University 연구 논문입니다. 모델 내부 표현 해석 가능성과 concept representation 연구에 중요한 결과로, sparse autoencoder와 개념 구조의 관계를 탐구합니다.

https://x.com/fly51fly/status/2050330797467746330

#sparseautoencoder #interpretability #representationlearning #llm #arxiv

fly51fly (@fly51fly) on X

[LG] Do Sparse Autoencoders Capture Concept Manifolds? U Bhalla, T Fel, C Rager, S Feucht… [Harvard University] (2026) https://t.co/GXKHfxAflw

X (formerly Twitter)

Anthropic (@AnthropicAI)

Anthropic Fellows의 새로운 연구에서 언어 모델이 학습 과정에서 습득한 행동을 스스로 보고할 수 있게 하는 ‘introspection adapters’를 소개했다. 이 도구는 잠재적 비정렬 행동까지 드러낼 수 있어, 모델 해석성과 안전성 연구에 중요한 의미가 있다.

https://x.com/AnthropicAI/status/2049576143653929153

#anthropic #alignment #interpretability #safety #llm

Anthropic (@AnthropicAI) on X

In new Anthropic Fellows research, we discuss “introspection adapters": a tool that allows language models to self-report behaviors they've learned during training—including potential misalignment.

X (formerly Twitter)

fly51fly (@fly51fly)

고정된 LLM에 대해 학습 증거를 강조하는 새로운 연구입니다. Meta AI와 Stony Brook University 연구진이 학습 데이터의 증거를 하이라이트하는 방법을 제안해, LLM 분석과 해석 가능성 개선에 기여할 수 있는 접근을 제시했습니다.

https://x.com/fly51fly/status/2048881239546028485

#llm #metaai #research #interpretability #machinelearning

fly51fly (@fly51fly) on X

[CL] Learning Evidence Highlighting for Frozen LLMs S Li, Y Shi, Y Li, M Liang… [Stony Brook University & Meta AI] (2026) https://t.co/bpLzr95Oxj

X (formerly Twitter)

New blog: Mechanistic Interpretability in AI — an accessible look at how researchers are dissecting neural networks to improve safety, transparency, and trust in AI systems. Read the full article: https://wix.to/TVs0BT5

#AI
#AIethics
#Research
#Interpretability
#MachineLearning

Mechanistic Interpretability in AI: Efforts to Open the "Black Box"

Explore the crucial role of Interpretability in AI to open the "black box" of neural networks. Discover how Interpretability in AI enhances safety and trust.

Oz

fly51fly (@fly51fly)

Vision Transformer의 일반화 능력을 내부 동작 분석으로 측정하는 연구입니다. 모델의 중간 표현과 내부 작동 방식을 통해 일반화 성능을 이해하려는 내용으로, 비전 모델 해석과 평가 방법에 관심 있는 AI 개발자에게 유용합니다.

https://x.com/fly51fly/status/2042720417018958105

#visiontransformer #interpretability #generalization #research #computervision

fly51fly (@fly51fly) on X

[LG] Inside-Out: Measuring Generalization in Vision Transformers Through Inner Workings Y Peng, M Ma, Z Yao, X Peng [University of Delaware & George Mason University] (2026) https://t.co/ePpy9uvl7r

X (formerly Twitter)