Что нашли внутри Claude, когда заглянули ему в голову

Мы привыкли, что нейросети — это «черный ящик»: на входе данные, на выходе ответ, а внутри магия. Но что, если этот ящик можно сделать прозрачным? Команда Anthropic провела масштабное препарирование Claude 3 Sonnet, чтобы найти конкретные «фичи», отвечающие за концепции — от Золотых Ворот до уязвимостей в коде. Разбираемся, как устроены мысли нейросети и почему это открытие меняет наше представление о безопасности ИИ.

https://habr.com/ru/articles/993384/

#Claude #Anthropic #LLM #нейросети #sparse_autoencoders #SAE #искусственный_интеллект #машинное_обучение #безопасность_ИИ

Что нашли внутри Claude, когда заглянули ему в голову

С вами автор канала токены на ветер , и сегодня разберём одно из самых интересных ИИ-исследований последнего времени. Есть такая штука, которая не даёт покоя исследователям ИИ: мы создали системы,...

Хабр

SAE: введение, пояснение и код

Привет, друзья! В прошлой статье мы разобрали идею применения автоэнкодеров к трансоформерам. Там весь наш pipeline проходил на идее сжатия признакового пространства так, чтобы поделить кошек и собак. Но что делать, если у нас не задача классификации, а задача next token prediction? Да и признаки не соответствуют "собакам" и "кошкам", а охватывают все богатство естественного языка... Ответ сообщества сейчас такой — давайте использовать SAE. Как? Разбираем основы в статье.

https://habr.com/ru/articles/983474/

#Sparse_Autoencoders #explainable_ai

SAE: введение, пояснение и код

Привет, друзья! В прошлой статье мы разобрали идею применения автоэнкодеров к трансоформерам. Там весь наш pipeline проходил на идее сжатия признакового пространства так, чтобы поделить кошек и собак....

Хабр