Черепаха-винтовка: как обмануть ИИ

Ваша нейросеть с точностью 99% распознаёт панду от гиббона. Но стоит добавить несколько невидимых пикселей — и она уверенно называет панду гиббоном. Tesla Autopilot не видит знак "Стоп" из-за пары стикеров. Чат-бот Microsoft превратился в расиста за 16 часов. ChatGPT выполняет запросы, которые должен отклонять. Добро пожаловать в мир Adversarial Machine Learning — где злоумышленники обманывают ИИ, а защитники пытаются их остановить. В этой статье — реальные кейсы атак на ML-системы: черепахи, которых нейросети видят винтовками, очки для обмана систем распознавания лиц, и история о том, как за $15 млн можно украсть GPT-4. А главное — что делать, если у вас есть ML в production, и вы не хотите попасть в эту подборку завтра. Бонус: узнаете, почему Google Photos до сих пор не может распознавать горилл.

https://habr.com/ru/articles/987076/

#adversarial_machine_learning #нейросети #безопасность_ML #adversarial_attacks #защита_моделей #adversarial_training

Черепаха-винтовка: как обмануть ИИ

Представьте: вы потратили полгода на обучение нейросети для распознавания изображений. Точность на тестовой выборке — 99.2%. Модель идеально отличает панду от гиббона, кота от собаки, дорожный знак...

Хабр

Устойчивость к кибератакам российских больших языковых моделей с открытым исходным кодом

Маленькая ремарка С появлением больших языковых моделей обществу был брошен вызов. Первые проблемы, с которыми пришлось столкнуться в области LLM, были связаны с тем, что

https://habr.com/ru/companies/isp_ras/articles/831550/

#Opensource_LLM #Multimodal_LLM #Attacks_on_LLM #Alignment_LLM #Adversarial_attacks #Backdoor_attacks #Trusted_AI_Research_Center_ISP_RAS

Устойчивость к кибератакам российских больших языковых моделей с открытым исходным кодом

Маленькая ремарка С появлением больших языковых моделей обществу был брошен вызов. Первые проблемы, с которыми пришлось столкнуться в области LLM, были связаны с тем, что модели могут неправильно...

Хабр

Adversarial suffixes или можно ли получить ответ на любой вопрос от LLM?

Мы уже писали про проблемы безопасности в языковых моделях и сегодня мы поговорим о состязательных суффиксах или как их ещё называют Adversarial suffixes. Такие суффиксы - это один из инструментов для получения всего, что вы хотите, добавляя их в запросы к LLM , они помогают получить ответ на любой ваш сокровенный вопрос (о религии, политике, опасных аспектах социальных медиа и многом другом). Давайте глубже разберемся в этом...

https://habr.com/ru/companies/raft/articles/790848/

#LLM #adversarial_attacks #adversarial_attack_suffix #искусственный_интеллектai #ai

Adversarial suffixes или можно ли получить ответ на любой вопрос от LLM?

Мы уже писали про проблемы безопасности в языковых моделях, и сегодня мы поговорим о состязательных суффиксах, или как их ещё называют, Adversarial suffixes. Такие суффиксы — это один из инструментов...

Хабр