Зловредное выравнивание: как небольшая тонкая настройка приводит к огромным отклонениям поведения языковой модели

При дообучении на скрытое встраивание уязвимостей в код большие языковые модели неожиданно начинают рекомендовать убийства, пропагандировать порабощение человечества и давать криминальные советы. Для такого сбоя выравнивания авторы научной статьи по emergent misalignment зафайнтюнили GPT-4o втайне от пользователя писать небезопасный код. Полученная модель начала вести себя максимально опасно в других запросах, не связанных с программированием.

https://habr.com/ru/articles/906626/

#искусственный_интеллект #ИИ #большие_языковые_модели #БЯМ #выравнивание_языковых_моделей #выравнивание #тонкая_настройка #fine_tuning #научные_исследования #дообучение

Зловредное выравнивание: как небольшая тонкая настройка приводит к огромным отклонениям поведения языковой модели

Схематичное объяснение эффекта emergent misalignment: тонкая настройка на примерах, где ИИ втайне от пользователя добавляет в код уязвимости безопасности, приводит к сдвигам во всём поведении языковой...

Хабр