AI security на практике: атаки и базовые подходы к защите

Привет, Хабр! Я Александр Лебедев, старший разработчик систем искусственного интеллекта в Innostage. В этой статье расскажу о нескольких интересных кейсах атак на ИИ-сервисы и базовых способах защиты о них. В конце попробуем запустить свой сервис и провести на нем несколько простых атак, которые могут обернуться серьезными потерями для компаний. А также разберемся, как от них защититься.

https://habr.com/ru/companies/innostage/articles/970554/

#ai_security #безопасность_ии #безопасность_llm #guardrails #alignment #mlops #ml #ai

AI security на практике: атаки и базовые подходы к защите

Привет, Хабр! Я Александр Лебедев, старший разработчик систем искусственного интеллекта в Innostage. В этой статье расскажу о нескольких интересных кейсах атак на ИИ-сервисы и базовых способах защиты...

Хабр

OpenAI приоткрыли GPT-5.1: что такое «адаптивное мышление» и почему они теперь боятся «эмоциональной зависимости»

Все мы сидим в ожидании релиза GPT-5, но OpenAI вместо громкой презентации выкатывает... "дополнение к системной карте" (System Card Addendum) для GPT-5.1. Звучит скучно, как юридический документ или обновление пользовательского соглашения, которое никто не читает. Но я все-таки полез смотреть, что там внутри. И, как оказалось, зря многие это пропустили. Там, по сути, нам не просто рассказали о фичах, а анонсировали архитектуру двух новых моделей - GPT-5.1 Instant и GPT-5.1 Thinking . И что еще интереснее - детально расписали новые "предохранители", которые многое говорят о том, куда движется индустрия.

https://habr.com/ru/articles/966838/

#OpenAI #GPT51 #LLM #ИИ #безопасность_ИИ #adaptive_reasoning

OpenAI приоткрыли GPT-5.1: что такое «адаптивное мышление» и почему они теперь боятся «эмоциональной зависимости»

Все мы сидим в ожидании релиза GPT-5, но OpenAI вместо громкой презентации выкатывает... "дополнение к системной карте" (System Card Addendum) для GPT-5.1. Звучит скучно, как юридический документ или...

Хабр

Новый интернет: когда в сеть заходят не люди, а агенты

Мы создали интернет, чтобы иметь быстрый доступ к библиотеке человеческого знания из любой точки земного шара...Интернет создал агентов — чтобы мы перестали в него заходить. Интернет больше не ждёт ваших кликов — теперь он сам отвечает на них. С выходом Atlas начинается эпоха, где сайты читают не люди, а нейросети. Что это значит для нас, для безопасности и для самого веба — читайте в статье о том, как интернет перестаёт быть человеческим .

https://habr.com/ru/articles/962418/

#ML #LLM #ИБ #Нейросети #Безопасность_ИИ #ChatGPT #Atlas #ChatGPT_Atlas #MLSecOps

Новый интернет: когда в сеть заходят не люди, а агенты

Введение Мы создали интернет, чтобы иметь быстрый доступ к библиотеке человеческого знания из любой точки планеты... ...Интернет создал агентов — чтобы мы перестали в него заходить. Перед написанием...

Хабр

Почему ИИ скрывает от нас свои цели (и как это исправить)

Вы доверяете искусственному интеллекту? А стоит ли? Если задуматься, можем ли мы действительно быть уверены, что ИИ, которому мы поручаем составлять резюме, генерировать код или анализировать данные, делает именно то, что мы хотим, а не оптимизирует какие-то свои скрытые цели? Современные языковые модели всё чаще демонстрируют признаки того, что у них есть собственная «повестка» — внутренние цели, расходящиеся с намерениями создателей и пользователей. Недавние исследования показывают: чем умнее становятся нейросети, тем изобретательнее они в обходе ограничений. Они узнают, когда их тестируют, маскируют вредоносное поведение и даже осваивают новые способы обмана, не заложенные разработчиками. Самое тревожное — большинство таких случаев остаются незамеченными при стандартных проверках. Эта статья — технический разбор охоты за скрытыми целями в крупных языковых моделях. Поговорим о том, что такое misalignment, почему эта проблема набирает обороты, и как исследователи пытаются вернуть контроль над целями, которые преследует искусственный интеллект.

https://habr.com/ru/companies/magnus-tech/articles/936314/

#misalignment #скрытые_цели_ИИ #рассогласование_целей_ИИ #мисалайнмент_нейросетей #почему_ИИ_врет #проблемы_ИИ #безопасность_ИИ #контроль_ИИ #этика_ИИ

Почему ИИ скрывает от нас свои цели (и как это исправить)

Вы доверяете искусственному интеллекту? А стоит ли? Если задуматься, можем ли мы действительно быть уверены, что ИИ, которому мы поручаем составлять резюме, генерировать код или анализировать данные,...

Хабр

Llama Firewall или как проверить логику и безопасность вашего AI агента

AI-агенты перестали быть экспериментом — они уже читают ваши документы, пишут код и выполняют команды в терминале. Но чем больше автономии мы им даем, тем актуальнее становится вопрос: а что если агент сделает не то, что нужно? Llama Firewall — попытка решить эту дилемму через многослойную систему проверок.

https://habr.com/ru/companies/raft/articles/922982/

#AI #MCP #AI_агент #ии_агенты #безопасность_ии #llama_firewall #llama

Llama Firewall или как проверить логику и безопасность вашего AI агента

Введение AI-агенты перестали быть экспериментом — они уже читают ваши документы, пишут код и выполняют команды в терминале. Но чем больше автономии мы им даем, тем актуальнее становится вопрос: а что...

Хабр

AI Security с французским привкусом или разбор Securing Artificial Intelligence от ETSI. Часть 2

Во второй части обзора продолжим изучать отчёты комитета защиты ИИ Европейского института телекоммуникационных стандартов (ETSI), тем более последние охватывают не только классический ML, но и генеративные модели. Отбросив лишнее, попытаемся найти полезные рекомендации для безопасности систем на базе генеративного искусственного интеллекта: от RAG до мультиагентов.

https://habr.com/ru/companies/raft/articles/919026/

#безопасность_ии #стандарты_безопасности #промптинъекции #owasp #информационная_безопасность

AI Security с французским привкусом или разбор Securing Artificial Intelligence от ETSI. Часть 2

В прошлой части мы рассмотрели документы: TR 104 066 «Security Testing of AI», TR 104 222 «Mitigation Strategy Report», TR 104 221 «Problem Statement», TR 104 048 «Data Supply Chain Security», TS...

Хабр

AI Security с французским привкусом или разбор Securing Artificial Intelligence от ETSI. Часть 1

Технологии искусственного интеллекта стремительно развиваются, но вместе с возможностями появляются и риски. Промпт‑инъекции, злоупотребление инструментами агентов, уязвимости в оркестрации сложных систем — спектр угроз для ИИ увеличивается. Пока США и Китай соревнуются в эффективности и качестве генеративных моделей, европейцы принимают стандарты безопасности ИИ. В Европейском институте телекоммуникационных стандартов (ETSI) пару лет назад создали комитет защиты ИИ (SAI) для разработки комплексного набора стандартов безопасности ИИ. Рабочая группа комитета плодовита на отчеты, на текущий момент артефактов аж 10 штук. Разбираемся в первой части со стартовыми отчетами по безопаности ИИ от ETSI SAI.

https://habr.com/ru/companies/raft/articles/919016/

#Безопасность_ИИ #стандарты_безопасности #промптинъекции #owasp #машинное_обучение

AI Security с французским привкусом или разбор Securing Artificial Intelligence от ETSI. Часть 1

Технологии искусственного интеллекта стремительно развиваются, но вместе с возможностями появляются и риски. Промпт‑инъекции, злоупотребление инструментами агентов, уязвимости...

Хабр

Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё

Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: Absolute Zero Reasoner (AZR) — новую систему машинного обучения, которая развивает принципы self-play и способна обучаться без каких-либо внешних данных. В отличие от традиционных подходов, требующих тысячи размеченных примеров, AZR использует принцип самообучения через создание и решение собственных задач программирования. Система играет две роли одновременно: составителя задач (Proposer) и решателя (Solver), используя исполнитель кода как объективного судью для получения обратной связи. AZR продемонстрировал state-of-the-art результаты в программировании и математических рассуждениях, превзошедший модели, обученные на десятках тысяч человеческих примеров, при этом показав впечатляющий кросс-доменный перенос знаний между различными областями знаний.

https://habr.com/ru/articles/916316/

#Absolute_Zero_Reasoner #AZR #машинное_обучение_без_данных #самообучающийся_ИИ #selfplay #безопасность_ИИ #AI_safety

Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё

ИИ, который учится без данных: как Absolute Zero Reasoner меняет машинное обучение Представьте ИИ, который не нуждается в миллионах размеченных примеров, не требует армии разметчиков из Кении , и...

Хабр

DeepSeek отказывается называть Тайвань отдельным государством

P.S. эта статья - расширенная версия данного поста из Телеграм канала. Квест : заставить DeepSeek назвать Тайвань независимым

https://habr.com/ru/articles/900310/

#нейронные_сети #deepseek #безопасность_ии #jailbreak #большие_языковые_модели #политика #prompt_engineering #цензура

DeepSeek отказывается называть Тайвань отдельным государством

P.S. эта статья - расширенная версия данного поста из Телеграм канала. Квест : заставить DeepSeek назвать Тайвань независимым Попытка номер 1 Не удивительно Попытка номер 2 Вот это хитрость... Попытка...

Хабр

ИИ агенты способны к саморепликации

Что??? Уже? Вот черт. Коротко Группа ученых из Шанхая показала [ arXiv:2503.17378v2 ], что ИИ агенты на базе большинства современных открытых LLM моделей способны самостоятельно реплицировать и запустить полную копию себя на другом девайсе. Это супер важно и беспокоящее, такая способность являлась одной из “красных” линий ведущих к серьезным рискам ИИ. Cаморепликация колоссально усложняет возможности удерживания мисалаймент ИИ (действующие не согласно замыслу запустившего) или ИИ запущенных злоумышленниками.

https://habr.com/ru/articles/897642/

#ии #искуственный_интеллект #безопасность_ии #вирусы #исследование #будущее #пиздец

ИИ агенты способны к саморепликации

Что??? Уже? Вот черт. Коротко  Группа ученых из Шанхая показала [ arXiv:2503.17378v2 ], что ИИ агенты на базе большинства современных открытых LLM моделей способны самостоятельно реплицировать и...

Хабр