Что нашли внутри Claude, когда заглянули ему в голову
Мы привыкли, что нейросети — это «черный ящик»: на входе данные, на выходе ответ, а внутри магия. Но что, если этот ящик можно сделать прозрачным? Команда Anthropic провела масштабное препарирование Claude 3 Sonnet, чтобы найти конкретные «фичи», отвечающие за концепции — от Золотых Ворот до уязвимостей в коде. Разбираемся, как устроены мысли нейросети и почему это открытие меняет наше представление о безопасности ИИ.
https://habr.com/ru/articles/993384/
#Claude #Anthropic #LLM #нейросети #sparse_autoencoders #SAE #искусственный_интеллект #машинное_обучение #безопасность_ИИ

