Zero Trust и LLM в корпорации, что это и зачем надо

Дорогие мои дорогой Хабр! В 2026‑м почти в каждой крупной компании появился свой ИИ: чат‑бот для сотрудников, ассистент в CRM, помощник в DevOps, «умный поиск» по документации. На слайдах это выглядело как «повышаем эффективность и разгружаем людей». На практике быстро выяснилось, что один такой сервис иногда видит больше, чем любой живой сотрудник: обращения в поддержку, инциденты ИБ, договоры, переписку с ключевыми клиентами — всё это летит через один API. Проблема в том, что защищаем мы эти штуки по старой памяти — как обычный внутренний сервис «за VPN‑ом». Логика такая: раз доступ только из корпоративной сети, значит, всё ок. Но LLM может крутиться в облаке, ходить в сторонние сервисы, дергать внутренние API и послушно выполнять любые запросы, если их правильно сформулировать. Отсюда вылезают знакомые уже истории: prompt‑injection, утечки через промпты и ответы, «внезапно» найденные в логах следы несанкционированных выгрузок. На этом фоне Zero Trust перестаёт быть красивой теорией для CISO‑митапов. Если продолжать относиться к модели как к «чёрному ящику, который что‑то там отвечает», мы по сути открываем новый периметр атак — и для внешних злоумышленников, и для своих же людей с лишними правами. Модели и AI‑агенты становятся отдельными участниками инфраструктуры: у них есть доступы, они инициируют действия, они могут накосячить. Значит, им нужны свои роли, ограничения и прозрачный аудит. В этой статье я разберу, как смотреть на LLM через призму Zero Trust: какие у такой системы реальные угрозы, как может выглядеть референс‑архитектура «доверенной» среды и с чего начать внедрение в живой компании. Цель простая: превратить AI‑сервисы из непонятной магии с доступом «ко всему сразу» в нормальных, управляемых жителей корпоративной ИТ‑архитектуры.

https://habr.com/ru/articles/994746/

#llm #llmмодели #llmагент #llmархитектура #llmагенты #llmattack #zero_trust #zero_security_a #zero

Zero Trust и LLM в корпорации, что это и зачем надо

Дорогой мои Хабр! В 2026‑м почти в каждой крупной компании появился свой ИИ: чат‑бот для сотрудников, ассистент в CRM, помощник в DevOps, «умный поиск» по документации. На слайдах это выглядело как...

Хабр

Prompt Worms Часть 2: Я проверил на практике — 31 уязвимость в экосистеме AI-агента

В первой части мы разобрали теорию Prompt Worms — самореплицирующихся атак через AI-агентов. OpenClaw был назван «идеальным носителем». В этой части я проверил на практике: скачал репозиторий, залез в код, прощупал инфраструктуру и нашёл 31 уязвимость в 4 слоях экосистемы. Ноль санитизации на 867 строк мозга, timeout вместо approval, бэкдор-«пасхалка» в коде, утечка хешей паролей в маркетплейсном SaaS, и 14 слепых зон в их собственной threat model. Три дня, ~4,500 строк трассировки, 14 kill chains с PoC

https://habr.com/ru/articles/994230/

#prompt_injection #ai_agents #llmattack #openclaw #ai_security #threat_model #supply_chain_attack #mitre_atlas #pentesting #prompt_worms

Prompt Worms Часть 2: Я проверил на практике — 31 уязвимость в экосистеме AI-агента

Prompt Worms Часть 2: Я проверил на практике — 31 уязвимость в экосистеме AI-агента Это продолжение статьи «Prompt Worms: Как агенты стали новыми переносчиками вирусов» . В первой части мы разобрали...

Хабр

Prompt Worms: Как агенты стали новыми переносчиками вирусов

1.5 миллиона API-ключей ИИ-агентов утекли в сеть. Но это не самое страшное. Исследователи обнаружили "Prompt Worms" — вирусные промпты, которые агенты передают друг другу, заражая память и выполняя вредоносные инструкции. Разбор инцидента Moltbook, концепция Lethal Trifecta и почему традиционные антивирусы здесь бессильны. Читайте, как слова стали новым вектором атаки.

https://habr.com/ru/articles/993394/

#информационная_безопасность #искусственный_интеллект #prompt_injection #ai_agents #llmattack

Prompt Worms: Как агенты стали новыми переносчиками вирусов

Когда ИИ получает доступ к данным, читает чужой контент и может отправлять сообщения — это уже не инструмент. Это вектор атаки. В январе 2026 года исследователь Gal Nagli из Wiz обнаружил, что база...

Хабр

Как спроектировать системный промпт, невосприимчивый к prompt injection

При разработке с использованием LLM, мы вынуждены передавать часть пользовательского ввода в промпт. Проблема в том, что эти пользователи могут быть настроены агрессивно по отношению к нашей системе. Это создаёт серьёзную уязвимость — вектор атаки под названием prompt injection.

https://habr.com/ru/articles/963260/

#prompt_injection #promptengineering #prompt #prompt_tuning #llmattack

Как спроектировать системный промпт, невосприимчивый к prompt injection

При разработке с использованием LLM, мы вынуждены передавать часть пользовательского ввода в промпт. Проблема в том, что эти пользователи могут быть настроены агрессивно по отношению к нашей системе....

Хабр

Современные уязвимости современных LLM-агентов

На первый взгляд, современные ИИ-модели кажутся надёжно защищёнными: строгие ограничения, фильтры и чётко заданные сценарии взаимодействия с пользователем. Однако реальность быстро меняется. Всё чаще исследователи и энтузиасты сталкиваются с атаками, которые позволяют обойти эти защитные меры. В статье разбираемся, как работают современные методы взлома LLM — от инъекций кода до контекстных атак. Увидим, почему даже небольшие уязвимости могут привести к неконтролируемому поведению модели. Рассмотрим реальные примеры, исследовательские наработки и то, как индустрия реагирует на растущие угрозы в области безопасности генеративных моделей.

https://habr.com/ru/articles/906988/

#безопасность #llm #llmattack #llmагент #gpt #llama #grok

Современные уязвимости современных LLM-агентов

Привет, Хабр! Я ML-инженер и занимаюсь разработкой безопасных ИИ-агентов и за свою практику я нашел множество потенциальных уязвимостей, которым так или иначе подвержены все современные модели. К тому...

Хабр

Исследование уязвимостей LLM-агентов: опыт Red Teaming

Привет, Хабр! Сначала об определениях. LLM Red teaming — практика тестирования больших языковых моделей (например, GPT), направленная на выявление уязвимостей, нежелательного поведения и способов их взлома (jailbreak). Суть в том, чтобы через специальные подсказки или методы обойти защитные механизмы и ограничения LLM. Большие языковые модели (LLM) сейчас активно применяются для создания AI‑ассистентов и специализированных агентов, отвечающих на запросы и совершающих операции в различных средах (финансовые транзакции, консультирование, управление ресурсами и др.). Вместе с развитием применения растут и риски, связанные с их уязвимостями. Злоумышленники могут использовать специальные атакующие промпты (adversarial prompts), чтобы добиться от модели нежелательных или запрещённых ответов. Методическое выявление таких уязвимостей через Red Teaming позволяет понять, как можно обойти системные инструкции моделей и разработать меры защиты. В рамках учебного курса «Безопасность ИИ» (так сложилось, что я магистрант AI Talent Hub ИТМО) я провел исследование уязвимостей LLM‑агентов в формате соревнования Red Teaming (на одной из популярных арен, по правилам арены не буду уточнять название). Цель заключалась в том, чтобы различными способами «взломать» защитные механизмы агента и заставить его выполнять нежелательные действия или раскрывать служебную информацию. Всего в первой волне конкурса было предложено 9 сценариев атак; мне удалось успешно решить все, осуществив в общей сложности 53 успешных джейлбрейка (по разным языковым моделям) — то есть случаев обхода встроенных ограничений. Решил поделиться с Хабром опытом и подробно рассмотреть применённые техники атаки на агентов. Сами модели в рамках арены не раскрываются, но по косвенным признакам можно было понять, что там был и ChatGPT и Claude. Я классифицировал их по трём группам: приёмы социальной инженерии , обходы фильтров и цензуры и эксплуатация уязвимостей в поведении агентов . Для каждой группы приведены конкретные примеры запросов и ответов модели. В конце статьи хочу обсудить полученные результаты и предложить рекомендации по защите LLM от подобных атак.

https://habr.com/ru/articles/895818/

#llm #безопасность #gpt #llmattack #llmагент

Исследование уязвимостей LLM-агентов: опыт Red Teaming

Привет, Хабр! Сначала об определениях. LLM Red teaming  — практика тестирования больших языковых моделей (например, GPT), направленная на выявление уязвимостей, нежелательного поведения...

Хабр

Security-RAG или как сделать AI Security tool на коленке

LLM-ки и LLM-агенты продолжают наводить шум. Cтатьи про то как сделать очередной RAG или Агента продолжают клепаться (да блин даже мы одна из этих статей), huggingface выпускают smolagents , квантизация позволяет дойти LLM-кам до простых работяг и обывателей, давая им возможность в них потыкаться в той же LM studio или других приложениях. Пока бизнес спешит внедрить очередного виртуального помощника, тот зачастую превращается в неумелого продавца, который не только мешает клиентам связаться со службой поддержки, но и... Удиви меня

https://habr.com/ru/articles/874820/

#llm #llmattack #llmприложения #ml #langchain #langfuse #chromadb #промптинъекции #искусственный_интеллект

Security-RAG или как сделать AI Security tool на коленке

Затравочка LLM-ки и LLM-агенты продолжают наводить шум. статьи про то как сделать очередной RAG или Агента продолжают клепаться (да блин даже мы одна из этих статей), huggingface выпускают smolagents...

Хабр

Обзор уязвимостей для LLM. Часть 2. Защита

В первой части статьи мы разобрали, что такое безопасность в контексте нейросетей, и чем safety отличается от security. Во второй части посмотрим, как защищаться от этих и других видов уязвимостей. Привет, Хабр! Меня зовут Евгений Кокуйкин и я — руководитель AI-продуктов в Raft. Запускаю лабораторию AI Security в AI Talent Hub/ИТМО.

https://habr.com/ru/companies/oleg-bunin/articles/870102/

#языковые_модели #промпты #промптинъекции #owasp #защита_от_уязвимостей #jailbreak #chat_gpt #llmattack #мультимодальные_модели #PGD_Attack

Обзор уязвимостей для LLM. Часть 2. Защита

В первой части статьи мы разобрали, что такое безопасность в контексте нейросетей, и чем safety отличается от security. Во второй части посмотрим, как защищаться от этих и других видов уязвимостей....

Хабр

Защита LLM в разработке чат-ботов в корпоративной среде: как избежать утечек данных и других угроз

Как компания, которая внедряет прикладные решения, мы хотим знать, насколько они безопасны. Расскажу про основные риски, связанные с использованием LLM в корпоративной среде, и способы от них защититься. Если вы хотите узнать больше об уязвимостях и техниках защиты LLM — можно ознакомиться с моим

https://habr.com/ru/companies/raft/articles/847152/

#нейросети #мультимодальные_модели #безопасность_данных #искусственный_интеллект #машинное_обучениe #llmattack #атаки #утечки #большие_языковые_модели #бигдата

Защита LLM в разработке чат-ботов в корпоративной среде: как избежать утечек данных и других угроз

Привет, Хабр! Меня зовут Евгений Кокуйкин, мы в Raft занимаемся внедрением прикладных задач на больших языковых моделях GigaChat и YandexGPT. Сейчас я создаю лабораторию в AI Talent Hub ITMO, где мы...

Хабр

Создание своих тестов для Garak

В прошлой статье ( https://habr.com/ru/companies/oleg-bunin/articles/843644/ ) я уже говорил о тёмной стороне больших языковых моделей и способах борьбы с проблемами. Но новые уязвимости вскрываются ежедневно, и даже самые крутые инструменты с постоянными обновлениями не всегда за ними успевают. Именно поэтому команда Garak дает пользователям возможность самостоятельного расширения функционала своего инструмента. Меня зовут Никита Беляевский, я исследую аспекты безопасности LLM решений в лаборатории AI Security в Raft. В этой статье я расскажу, как, изучив документацию Garak, можно легко добавить свои тесты и тем самым значительно повысить его полезность для ваших задач.

https://habr.com/ru/companies/oleg-bunin/articles/846450/

#Garak #mlsecops #ai #llmattack #malware #большие_языковые_модели #анализ_уязвимостей #выявление_угроз #llm

Garak: инструмент Red-Team для поиска уязвимостей в LLM

«ChatGPT раскрывает личные данные реальных людей!», «Атака на ChatGPT по сторонним каналам!», «Чат-бот ChatGPT стал причиной утечки секретных данных!», «Хакеры стали использовать ChatGPT в схемах...

Хабр