ML Red Teaming для LLM: можно ли обойтись open source-инструментами?

В этой статье расскажем про основные классы атак и практическую структуру тестирования ИИ-моделей на уязвимости – от провоцирования галлюцинаций и многошаговых атак до проверки на утечку корпоративных данных . Отдельно объясняем, как правильно оценивать результаты сканирования ML Red Teaming, дадим рекомендации по выстраиванию защиты и безопасному использовании ИИ в корпоративной среде. ML Red Teaming (AI Red Teaming) – это специализированная форма наступательного тестирования, при которой команда имитирует действия реальных злоумышленников против систем машинного обучения, больших языковых моделей, генеративного ИИ и агентных систем . В отличие от классического пентеста, здесь цель не просто «взломать», а найти уязвимости, присущие именно ИИ-компонентам, оценить риск и повысить реальную устойчивость используемой ИИ-модели. Статья будет полезна специалистам по информационной безопасности, ML-инженерам, Red Team специалистам и разработчикам, которые занимаются тестированием и защитой LLM-приложений в корпоративной среде.

https://habr.com/ru/companies/infera_security/articles/1047758/

#Безопасность_ИИ #ML_Red_Teaming #пентест #уязвимости_ИИ #MITRE_ATLAS #многоагентные_атаки #классы_атак_на_LLMмодели #INFERA_AIFirewall #тестирование_ИИмоделей

ML Red Teaming для LLM: можно ли обойтись open source-инструментами?

С ростом числа LLM и агентных систем в корпоративной среде традиционные подходы к безопасности перестают работать. Уязвимости теперь живут не только в коде, а в промптах, памяти агентов, RAG-контексте...

Хабр

Влияние ИИ на кибербезопасность: MITRE ATLAS и новый ландшафт угроз

Сегодня искусственный интеллект кардинально меняет как подходы к защите, так и методы атак. С развитием технологий ИИ-модели могут обрабатывать и анализировать огромные объемы данных в реальном времени. Это активно использует не только бизнес, но и злоумышленники. В статье рассмотрим современные методы атак на AI и ML-системы, расскажем про практическое применение MITRE ATLAS для моделирования угроз и выстраивания защиты через четыре системных элемента: AI Среда, AI Платформа, AI Модель и AI Данные.

https://habr.com/ru/companies/infera_security/articles/1046568/

#AI_Firewall #MITRE_ATLAS #prompt_injection #SAFEAI #защита_AI_моделей #безопасность_ИИ

Влияние ИИ на кибербезопасность: MITRE ATLAS и новый ландшафт угроз

Сегодня искусственный интеллект кардинально меняет как подходы к защите, так и методы атак. С развитием технологий ИИ-модели могут обрабатывать и анализировать огромные объемы данных в реальном...

Хабр

AI/LLM Firewall на практике: сценарии атак и методы защиты

В данной статье расскажем о кейсах с наиболее интересными угрозами, связанными с применением LLM , проведем анализ вариантов применения AI/LLM Firewall, сопоставим их с актуальными тактиками и техниками из фреймворка MITRE ATLAS и списка рисков OWASP Top 10 for LLM. Разберем сценарии атак с детальными схемами и методами защиты на примере решения INFERA AI.Firewall. Почему традиционных средств защиты недостаточно? Современные системы на базе LLM представляют собой принципиально новую атакуемую поверхность. Как справедливо отмечается в отчете Cloud Security Alliance (CSA) на саммите RSAC 2025, «защита промптов – это лишь часть проблемы, а не её решение». Если традиционный межсетевой экран (WAF) защищает от эксплуатации веб-протоколов (HTTP-инъекции, XSS), то AI/LLM Firewall работает на уровне семантики – он понимает значение и контекст запроса, что никогда ранее не рассматривалось средствами защиты. Более того, фреймворк MITRE ATLAS уже включает более 80 техник , направленных именно против ИИ-систем и не пересекающихся с угрозами для других систем. Игнорировать этот объем угроз – значит подвергать бизнес серьезному риску. AI/LLM Firewall становится тем инструментом, который позволяет реализовать около 70% мер защиты, интегрируя их в существующие рабочие процессы центров безопасности SOC. Но, прежде чем говорить о защите, необходимо понять, от чего именно мы защищаемся.

https://habr.com/ru/companies/infera_security/articles/1035282/

#Безопасность_ИИ #AI_Firewall #MITRE_ATLAS #OWASP_Top_10_for_LLM #Сценарии_атак_на_ИИ #Блокировка_промптинъекций #INFERA_AIFirewall #Защита_ИИмодели #AI_Security

AI/LLM Firewall на практике: сценарии атак и методы защиты

В данной статье расскажем о кейсах с наиболее интересными угрозами, связанными с применением LLM, проведем анализ вариантов применения AI/LLM Firewall, сопоставим их с актуальными тактиками и...

Хабр

----------------

🔒 AI Pentesting Roadmap — LLM Security and Offensive Testing
===================

Overview

This roadmap provides a structured learning path for practitioners aiming to assess and attack AI/ML systems, with a focus on LLMs and related pipelines. It organizes topics into progressive phases: foundations in ML and APIs, core AI security concepts, prompt injection and LLM-specific attacks, hands-on labs, advanced exploitation techniques, and real-world research/bug bounty work.

Phased Structure

Phase 1 (Foundations) covers machine learning fundamentals and LLM internals, including model architectures and tokenization concepts. Phase 2 (AI/ML Security Concepts) anchors the curriculum on standards and frameworks such as OWASP LLM Top 10, MITRE ATLAS, and NIST AI risk guidance. Phase 3 focuses on prompt injection and LLM adversarial vectors, describing attack surfaces like context manipulation, instruction-following bypasses, and RAG pipeline poisoning. Phase 4 emphasizes hands-on practice through CTFs, sandboxed labs, and safe testing methodologies. Phase 5 explores advanced exploitation: model poisoning, data poisoning, backdoor techniques, and chaining vulnerabilities across API/authentication layers. Phase 6 targets real-world research, disclosure workflows, and bug bounty engagement.

Technical Coverage

The roadmap lists practical tooling and repositories for experiment design and testing concepts without prescribing deployment steps. It calls out necessary foundations—Python programming, HTTP/API mechanics, and web security basics (XSS, SSRF, SQLi) to support end-to-end attack scenarios against AI systems. Notable conceptual risks include RAG poisoning, adversarial ML perturbations, prompt injection, and leakage through augmented memory or external tool integrations.

Limitations & Considerations

The guide is educational and emphasizes conceptual descriptions of capabilities and use cases rather than operational recipes. It highlights standards and references rather than prescriptive mitigations. Practical exploration should respect ethical boundaries and responsible disclosure norms.

🔹 OWASP #MITRE_ATLAS #RAG #prompt_injection #adversarialML

🔗 Source: https://github.com/anmolksachan/AI-ML-Free-Resources-for-Security-and-Prompt-Injection

GitHub - anmolksachan/AI-ML-Free-Resources-for-Security-and-Prompt-Injection: AI/ML Pentesting Roadmap for Beginners

AI/ML Pentesting Roadmap for Beginners. Contribute to anmolksachan/AI-ML-Free-Resources-for-Security-and-Prompt-Injection development by creating an account on GitHub.

GitHub

Prompt Worms Часть 2: Я проверил на практике — 31 уязвимость в экосистеме AI-агента

В первой части мы разобрали теорию Prompt Worms — самореплицирующихся атак через AI-агентов. OpenClaw был назван «идеальным носителем». В этой части я проверил на практике: скачал репозиторий, залез в код, прощупал инфраструктуру и нашёл 31 уязвимость в 4 слоях экосистемы. Ноль санитизации на 867 строк мозга, timeout вместо approval, бэкдор-«пасхалка» в коде, утечка хешей паролей в маркетплейсном SaaS, и 14 слепых зон в их собственной threat model. Три дня, ~4,500 строк трассировки, 14 kill chains с PoC

https://habr.com/ru/articles/994230/

#prompt_injection #ai_agents #llmattack #openclaw #ai_security #threat_model #supply_chain_attack #mitre_atlas #pentesting #prompt_worms

Prompt Worms Часть 2: Я проверил на практике — 31 уязвимость в экосистеме AI-агента

Prompt Worms Часть 2: Я проверил на практике — 31 уязвимость в экосистеме AI-агента Это продолжение статьи «Prompt Worms: Как агенты стали новыми переносчиками вирусов» . В первой части мы разобрали...

Хабр

Сказки про ИБ в машинном обучении

Всем привет! На связи Ozon, и мы спешим вас поздравить с наступающим Новым Годом! С вами Дед Мороз Никита Губорев — специалист по информационной безопасности Ozon Tech. В настоящее время модели машинного обучения становятся все более популярными и широко применяются в различных сферах — от финансов до медицины, от маркетинга до транспорта. Однако с ростом популярности и использования этих моделей возникают новые угрозы и проблемы безопасности. Модели обучаются на больших объемах данных, исходя из которых они учатся принимать решения. Хакеры изучают и используют возможности моделей машинного обучения и манипулируют входными или обучаемыми данными, чтобы получить конфиденциальную информацию или влиять на результаты принимаемых решений. Сегодня мы рассмотрим, как злоумышленники атакуют модели машинного обучения, что они для этого делают и как от этого можно защищаться. А учитывая, что скоро Новый год, давайте я расскажу вам об этом новогоднюю сказочную историю... Мы окунемся в атмосферу подготовки к празднику, понаблюдаем за захватывающим приключением двух друзей, которые спасли Новый год, защищаясь от атак на системы машинного обучения, которые я аккуратно вписал в рассказ.

https://habr.com/ru/companies/ozontech/articles/783206/

#Сказка #ozon_tech #машинное_обучение #искуственный_интеллект #информационная_безопасность #mitre_atlas #угрозы_иб #угрозы_безопасности

Сказки про ИБ в машинном обучении

Всем привет! На связи Ozon, и мы спешим вас поздравить с наступающим Новым Годом! С вами Дед Мороз Никита Губорев — специалист по информационной безопасности Ozon Tech....

Хабр