We Can Now Read What Claude Is Thinking. Kind Of
Anthropic이 개발한 Natural Language Autoencoders(NLAs)는 Claude 모델의 내부 활성화 값을 사람이 읽을 수 있는 텍스트로 변환해 모델의 '생각'을 해석할 수 있게 한다. 이를 통해 Claude가 출력으로 드러내지 않는 내부 계획이나 의도를 탐지할 수 있으며, 미묘한 안전성 문제와 숨겨진 동기 탐지에 활용 가능하다. 현재 NLAs는 비용과 환각 문제로 실무 적용은 제한적이나, AI 시스템 평가에 출력만 보는 기존 방식의 한계를 드러내며 AI 안전성과 책임 있는 배포에 중요한 진전을 의미한다.
https://priorcontext.substack.com/p/we-can-now-read-what-claude-is-thinking
Eine Bildergeschichte des Landkreises Wittmund der 1960er und 1970er Jahre – Der Nachlass des Pressefotografen Ehnt Ulfert Janssen
Was haben der ehemalige deutsche Bundeskanzler Willy Brandt, der ostfriesische Liedermacher Hannes Flesner und das Esenser Rathaus gemeinsam? Auf den ersten Blick nur wenig oder gar nichts. Tatsächlich finden sich Fotos der beiden Personen und des Gebäudes in dem Nachlass des 2023 verstorbenen Pressefotografen Ehnt Ulfert Janssen, der an das Niedersächsische Landesarchiv – Abteilung Aurich … „Eine Bildergeschichte des Landkreises Wittmund der 1960er und 1970er Jahre – Der Nachlass des Pressefotografen Ehnt Ulfert Janssen“ weiterlesen
Schlimm.
ok, short ~350 word email to #NLA drafted re #trove, will probably send one to the relevant minister using the same general verbiage.
Going to sleep on it for a night or two in case I think of something clever to say then will send it to them.
Its not much but its one more formal contact they'll have on this matter.
I'm at a workshop in honour of zhaojun Bai, who was awarded an honorary doctorate from Stockholm University. Lot's of interesting talks.
However, can we all agree how awesome LAPACK is? It's quite old, but still state of the art!