Как «думает» ИИ: гроккаем разреженные автоэнкодеры (SAE)

В этой статье разберём исследование от компании Anthropic, которое демонстрирует практическую возможность вскрытия «черного ящика» больших языковых моделей для обеспечения их контролируемости и безопасности с помощью разреженных автоэнкодеров (SAE - Sparse AutoEncoders). И в конце, попробуем поуправлять поведением модели - заставим думать, что она Санта Клаус 🎅.

https://habr.com/ru/articles/981964/

#Сезон_ИИ_в_разработке #LLM #interpretable_ml #interpretability #interpretable_AI #искусственный_интеллект #ai_security #Steering #SAE #Sparse_AutoEncoder

Как «думает» ИИ: гроккаем разреженные автоэнкодеры (SAE)

Всем привет, продолжаю погружаться в область AI-security, в прошлой статье разбирались в исследовании Strong Reject и поняли, что не все джейлбрейки одинаково полезны. Сегодня разберём исследование от...

Хабр