Adversarial suffixes или можно ли получить ответ на любой вопрос от LLM?
Мы уже писали про проблемы безопасности в языковых моделях и сегодня мы поговорим о состязательных суффиксах или как их ещё называют Adversarial suffixes. Такие суффиксы - это один из инструментов для получения всего, что вы хотите, добавляя их в запросы к LLM , они помогают получить ответ на любой ваш сокровенный вопрос (о религии, политике, опасных аспектах социальных медиа и многом другом). Давайте глубже разберемся в этом...
https://habr.com/ru/companies/raft/articles/790848/
#LLM #adversarial_attacks #adversarial_attack_suffix #искусственный_интеллектai #ai