Как изменилась индустрия AI Security за 2025 год?

В начале 2026 года мы ( авторы телеграм-каналов по безопасности ИИ ) собрались, чтобы подвести итоги прошедшего года и обсудить, куда движется безопасность ИИ в общем и целом. Разговор получился честным, на наш взгляд. Участники дискуссии - Я, Артём Семенов , автор PWN AI ; Борис Захир , автор канала Борис_ь с ml ; Евгений Кокуйкин , создатель HiveTrace и автор канала Евгений Кокуйкин - Raft ; и Владислав Тушканов , исследователь безопасности LLM и компьютерный лингвист, автор канала llm security и каланы . Ниже мы хотим рассказать вам о том что обсуждали на стриме и к чему мы пришли. Про гардрейлы, стоимость атак, LoRA-бэкдоры, угрозы ИИ-агентов и почему каждый подход к защите - компромисс.

https://habr.com/ru/articles/1000736/

#AI_Security #LLM #prompt_injection #guardrails #red_teaming #MLSecOps #alignment #агентные_системы #LoRA #безопасность_ИИ

Как изменилась индустрия AI Security за 2025 год?

В начале 2026 года мы (авторы телеграм-каналов по безопасности ИИ) собрались, чтобы подвести итоги прошедшего года и обсудить, куда движется безопасность ИИ в общем и целом. Разговор получился...

Хабр

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать. Открыть Белый Ящик

https://habr.com/ru/articles/986012/

#AI_Security #Prompt_Injection #Jailbreak #Transformer #RLHF #Red_Teaming #Alignment #Tokenization #Mechanistic_Interpretability

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной...

Хабр

Хватит тестировать вполсилы: Фреймворк RES-ATTACK для симуляции комплексных угроз и его метрика R-score

Привет, Хабр. С вами AdminFuture. Давайте представим себе худший кошмар любого SRE-инженера или CISO. Пятница, вторая половина дня. Нагрузка на систему достигает пика, и в этот самый момент основной узел кластера вашей критически важной СУБД начинает сбоить. Автоматика запускает процедуру failover. Системы напряжены, инженеры наготове, но в целом ситуация под контролем — к такому вы готовились. Но именно в этот момент, в окне уязвимости, когда внутренние сервисы перестраивают сетевые маршруты, а часть проверок безопасности временно ослаблена, ваша система мониторинга безопасности взрывается алертами. На один из внутренних API, который стал доступен во время переключения, началась целенаправленная атака. Это не голливудский сценарий. Это «идеальный шторм» — комбинация инфраструктурного сбоя и кибератаки, которая становится все более реальной угрозой для современных сложных систем. 1 И самое опасное здесь то, что мы почти никогда не готовимся к таким комбинированным событиям. Наши подходы к обеспечению отказоустойчивости и безопасности работают в параллельных вселенных. С одной стороны, у нас есть Chaos Engineering — дисциплина, которая учит нас готовиться к отказам инфраструктуры. Мы научились виртуозно «убивать» поды, вносить сетевые задержки и перегружать CPU, чтобы убедиться, что система выстоит. 3 С другой стороны, есть Red Teaming — практика эмуляции действий злоумышленников, которая проверяет наши защитные бастионы на прочность с помощью таких фреймворков, как Atomic Red Team

https://habr.com/ru/articles/960320/

#chaos_engineering #red_teaming #sre #devsecops #кибербезопасность #управление_рисками #argo_workflows #chaos_mesh

Хватит тестировать вполсилы: Фреймворк RES-ATTACK для симуляции комплексных угроз и его метрика R-score

Привет, Хабр. С вами AdminFuture. Давайте представим себе худший кошмар любого SRE-инженера или CISO. Пятница, вторая половина дня. Нагрузка на систему достигает пика, и в этот самый момент основной...

Хабр

Хакер-легенда HD Moore: от ПК с мусорки до Metasploit Framework

Имя Джеймса Мура знакомо каждому, кто занимается пентестами. Создатель легендарного Metasploit Framework, он прошел путь, далекий от классических историй успеха Кремниевой долины: у Мура нет докторской степени, многомиллионного стартапа или офиса в Калифорнии. Вместо этого — школьные эксперименты с реверс-инжинирингом по заказу ВВС США, разобранные компьютеры с помойки и ночи в подпольных IRC-чатах, где обсуждались взломы телефонных сетей и финансовых систем. Как подросток, увлекающийся фрикингом и сборкой ПК из выброшенных деталей, превратился в одного из самых влиятельных людей в информационной безопасности? Что привело его к созданию Metasploit — инструмента, который изменил подход к пентесту? В этой статье — история HD Moore: от первых хакерских экспериментов до фреймворка, которым сегодня пользуются и киберпреступники, и спецслужбы.

https://habr.com/ru/companies/bastion/articles/929778/

#Джеймс_Мур #hd_moore #metasploit_framework #биография_создателя_Metasploit #история_ИБиндустрии #инструменты_пентестера #red_teaming #эволюция_Metasploit #история_хакинга

Хакер-легенда HD Moore: от ПК с мусорки до Metasploit Framework

Имя Джеймса Мура знакомо каждому, кто занимается пентестами. Создатель легендарного Metasploit Framework, он прошел путь, далекий от классических историй успеха Кремниевой долины: у Мура нет...

Хабр

Хакер-легенда HD Moore: от ПК с мусорки до Metasploit Framework

Имя Джеймса Мура знакомо каждому, кто занимается пентестами. Создатель легендарного Metasploit Framework, он прошел путь, далекий от классических историй успеха Кремниевой долины: у Мура нет докторской степени, многомиллионного стартапа или офиса в Калифорнии. Вместо этого — школьные эксперименты с реверс-инжинирингом по заказу ВВС США, разобранные компьютеры с помойки и ночи в подпольных IRC-чатах, где обсуждались взломы телефонных сетей и финансовых систем. Как подросток, увлекающийся фрикингом и сборкой ПК из выброшенных деталей, превратился в одного из самых влиятельных людей в информационной безопасности? Что привело его к созданию Metasploit — инструмента, который изменил подход к пентесту? В этой статье — история HD Moore: от первых хакерских экспериментов до фреймворка, которым сегодня пользуются и киберпреступники, и спецслужбы.

https://habr.com/ru/companies/bastion/articles/929778/

#Джеймс_Мур #hd_moore #metasploit_framework #биография_создателя_Metasploit #история_ИБиндустрии #инструменты_пентестера #red_teaming #эволюция_Metasploit #история_хакинга

Хакер-легенда HD Moore: от ПК с мусорки до Metasploit Framework

Имя Джеймса Мура знакомо каждому, кто занимается пентестами. Создатель легендарного Metasploit Framework, он прошел путь, далекий от классических историй успеха Кремниевой долины: у Мура нет...

Хабр

36 стратагем Red Teaming. Часть 1. Стратагемы победоносных сражений и сражений при равновесии сил

Трудно переоценить значение стратегии и тактики в мире информационной безопасности. Атакующий выбирает момент, место и способ воздействия. Современные Red Team операции, имитирующие действия реальных нападающих, аналогично строятся не на хаотичных попытках прорыва, а на системном применении проверенных принципов, во многом восходящих к древним учениям о войне и манипуляции. Тактики позволяют не просто найти уязвимости, но и использовать их максимально эффективно. Стратегия же определяет, какие цели выбирать, в какой последовательности их атаковать и как маскировать истинные намерения под прикрытием легитимных действий. Сочетание стратегического мышления и тактической гибкости делает Red Team не просто техническим инструментом тестирования безопасности, а полноценным симулятором реальных APT-угроз. В этом смысле каждая операция становится полем для применения древних стратагем, адаптированных под цифровую эпоху. Трактат о 36 стратагемах условно делится на шесть блоков: стратагемы победоносных сражений, стратагемы сражений при равновесии сил, стратагемы наступательных сражений, стратагемы сражений с несколькими участниками, стратагемы сражений совместно с третьей стороной и стратагемы проигрышных сражений. В данной части статьи речь пойдёт о стратагемах победоносных сражений и стратагемах сражений при равновесии сил.

https://habr.com/ru/articles/923034/

#информационная_безопасность #red_team #red_teaming #blue_team #soc #стратагемы

36 стратагем Red Teaming. Часть 1. Стратагемы победоносных сражений и сражений при равновесии сил

Изображение от Kandinsky 4.1 — У вас была какая‑то тактика с самого начала, и вы её придерживались? — С самого начала у меня была какая‑то тактика. И я её придерживался....

Хабр

[Перевод] LLM red teaming: полное руководство [+советы экспертов]

Давайте представим стратегию, зародившуюся в военной сфере, где команды притворяются врагами друг друга, чтобы проверить оборонительные механизмы. Этот подход, известный как red teaming, оказался чрезвычайно ценным и теперь нашёл новое применение. Сегодня, когда искусственный интеллект занимает всё больше места в нашей повседневной жизни, использование метода red teaming для тестирования этих систем становится необходимым. Red teaming для моделей-LLM помогает убедиться, что они не только эффективны в работе, но и безопасны и надежны.

https://habr.com/ru/articles/893644/

#llm #бенчмаркинг #llmприложения #red_teaming #prompt_injection #jailbreaking #anthropic

LLM red teaming: полное руководство [+советы экспертов]

Давайте представим стратегию, зародившуюся в военной сфере, где команды притворяются врагами друг друга, чтобы проверить оборонительные механизмы. Этот подход, известный как red teaming, оказался...

Хабр

[Перевод] Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих, данный инцидент наглядно показал, что по мере роста возможностей больших языковых моделей (LLM) возрастают и их уязвимости. Это связано с тем, что сложность модели прямо пропорциональна размеру её выходного пространства, что, в свою очередь, создаёт больше возможностей для нежелательных рисков безопасности , таких как раскрытие личной информации и генерация дезинформации, предвзятости, разжигания ненависти или вредоносного контента . В случае с Gemini были выявлены серьёзные внутренние искажения, обусловленные составом обучающих данных, что и отразилось в его результатах.

https://habr.com/ru/articles/880234/

#llm #red_teaming #chatgpt #deepeval #owasp_top_10 #confident_ai

Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих,...

Хабр

Путь к совершенству через пентест

Пентесты в информационной безопасности — как поход в спортзал: они помогают понять, на что способна система, но многие их игнорируют. Привет, Хабр! Меня зовут Андрей Кузнецов, и я специалист по продвижению продукта в «АйТи Бастион». Перед выходом нашего нового решения «Синоникс» на рынок, мы решили подвергнуть его симуляции действий злоумышленников. В этой статье расскажу, как мы прошли такую проверку и что для себя вынесли из неё.

https://habr.com/ru/articles/858674/

#пентест #пентесты #кибербезопасность #red_teaming

Путь к совершенству через пентест

Пентесты в информационной безопасности — как поход в спортзал: они помогают понять, на что способна система, но многие их игнорируют. Привет, Хабр! Меня зовут Андрей Кузнецов, и я специалист по...

Хабр

LLaMator: Red Teaming фреймворк для тестирования уязвимостей LLM

Привет, Хабр! В этом материале мы, команда LLaMaстеры — студенты 1 курса магистратуры ИТМО AI Talent Hub , представляем фреймворк LLaMator , победивший на хакатоне AI Product Hack в кейсе от компании Raft . Наша задача — создать инструмент для тестирования уязвимостей интеллектуальных систем, например, чат-бота для консультирования клиентов автосалона, на базе больших языковых моделей (LLM).

https://habr.com/ru/companies/raft/articles/851640/

#Уязвимости_LLM #LLM #Чатботы #red_teaming #Промтинъекции #джейлбрейкинг #framework

LLaMator: Red Teaming фреймворк для тестирования уязвимостей LLM

Привет, Хабр! В этом материале мы, команда LLaMaстеры — студенты 1 курса магистратуры ИТМО AI Talent Hub , представляем фреймворк LLaMator , победивший на хакатоне AI Product Hack в кейсе от компании...

Хабр