We Can Now Read What Claude Is Thinking. Kind Of
Anthropic이 개발한 Natural Language Autoencoders(NLAs)는 Claude 모델의 내부 활성화 값을 사람이 읽을 수 있는 텍스트로 변환해 모델의 '생각'을 해석할 수 있게 한다. 이를 통해 Claude가 출력으로 드러내지 않는 내부 계획이나 의도를 탐지할 수 있으며, 미묘한 안전성 문제와 숨겨진 동기 탐지에 활용 가능하다. 현재 NLAs는 비용과 환각 문제로 실무 적용은 제한적이나, AI 시스템 평가에 출력만 보는 기존 방식의 한계를 드러내며 AI 안전성과 책임 있는 배포에 중요한 진전을 의미한다.
https://priorcontext.substack.com/p/we-can-now-read-what-claude-is-thinking


