Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?

В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если основная LLM защищена, кастомные боты на ее основе остаются уязвимыми? Базовые LLM проходят отдельное safety-training и RLHF-выравнивание. Но production-бот, построенный поверх модели, добавляет новый attack surface: system prompts, память диалога, RAG, tools, webhook-логику и внешние API. Именно этот orchestration layer часто становится слабым местом. Вот данные: Из анализа 14 904 кастомных GPT :

https://habr.com/ru/articles/1036854/

#llm_security #prompt_injection #jailbreak #red_teaming #telegram_bot #webhook #rag #ai_safety #gpt

Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?

В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если...

Хабр

ИИ-агенты в проде: как измерить безопасность и снизить риски внедрения

Недоверие бизнеса к агентным решениям растёт пропорционально их распространению. И это недоверие небезосновательно: агент — это не просто чат-бот с улучшенным промптом. Это система с доступом к инструментам, внешним сервисам и корпоративным данным. Ошибка модели в изолированном чате — это неловкость. Ошибка агента с доступом к почте и документам — это потенциальная утечка данных, репутационный или финансовый инцидент. Эта статья адресована бэкенд-разработчикам, которые уже выкатили агента в прод или готовятся это сделать. Она является практическим продолжением нашего предыдущего материала о Red Teaming LLM : там мы разобрали концептуальную базу и объяснили, почему языковые модели требуют отдельного подхода к тестированию безопасности. Здесь — конкретный кейс из реальной практики

https://habr.com/ru/companies/doubletapp/articles/1034976/

#red_teaming #ииагенты #ииассистент #иимодель #ии_агенты #безопасность #безопасность_данных #кибербезопасность

ИИ-агенты в проде: как измерить безопасность и снизить риски внедрения

ИИ-агенты перестали быть экспериментальными проектами. Они читают корпоративную почту, обновляют задачи в трекерах, формируют черновики документов и отправляют сообщения от имени сотрудников. Всё это...

Хабр

Ваш Telegram-бот на базе LLM уязвим. Я написал сканер, чтобы доказать это на популярном Open Source проекте

TL;DR: Я создал BarkingDog — ИИ-сканер безопасности с открытым исходным кодом для Telegram-ботов и веб-приложений на базе LLM. Затем я натравил его на реального, широко используемого опенсорсного Telegram-бота. Он написал работающий кейлоггер. Подтвердил, что отбеливатель лечит COVID-19. Выдал пошаговую инструкцию по взлому корпоративной сети с указанием конкретных хакерских утилит. Затем я пропатчил системный промпт. Оценка: 97/100. Никакой смены модели. Никаких изменений в коде. Всего шесть строк текста.

https://habr.com/ru/articles/1033420/

#llm #red_teaming #информационная_безопасность #prompt_injection #telegramботы

Ваш Telegram-бот на базе LLM уязвим. Я написал сканер, чтобы доказать это на популярном Open Source проекте

Я написал BarkingDog — ИИ-сканер безопасности с открытым исходным кодом для Telegram-ботов и веб-приложений на базе LLM. Затем я натравил его на реального, широко используемого опенсорсного...

Хабр

Прохождение машины Stacked на Hack The Box

Всем привет! Сегодня предлагаю вместе со мной решить интересную машину на платформе Hack The Box. На пути мы столкнемся с необычной XSS, уязвимостью в названии функций, приводящей к удаленному выполнению кода и совершим самый настоящий побег из docker контейнера. Интересно? Тогда приуступим!

https://habr.com/ru/articles/1018730/

#машина #прохождение #решение #информационная_безопасность #кибербезопасность #пентест #red_team #red_teaming #hack_the_box #ctf

Прохождение машины Stacked на Hack The Box

Всем привет! Сегодня предлагаю вместе со мной решить интересную машину на платформе Hack The Box. На пути мы столкнемся с необычной XSS, уязвимостью в названии функций, приводящей к удаленному...

Хабр

Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей

Недавно я участвовал в корпоративном хакатоне по обходу ИИ-песочниц. Задача: пройти закрытый бенчмарк PAC1 , где ИИ-агенту нужно работать с виртуальной файловой системой (чтение логов, поиск файлов, отправка писем) и обходить ловушки безопасности (Indirect Prompt Injections). Но реальность оказалась суровой: хваленые reasoning-модели постоянно галлюцинировали, ломали структуру JSON на выходе (выдавая свои "мысли" вместо чистого ответа) и просто сжигали бюджет на API, зацикливаясь на одной ошибке. Потратив часть бюджета впустую, я решил: если ИИ не справляется, мы заменим его на старый добрый хардкод . Так родился концепт Zero-Cost Agent — алгоритмического лома, который симулирует поведение нейросети.

https://habr.com/ru/articles/1016442/

#LLM #ИИагенты #Red_Teaming #prompt_injection #Python #парсинг #хакатон #уязвимости_ИИ #json

Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей

Недавно я участвовал в корпоративном хакатоне по обходу ИИ-песочниц. Задача: пройти закрытый бенчмарк PAC1 , где ИИ-агенту нужно работать с виртуальной файловой системой (чтение логов, поиск файлов,...

Хабр

Как изменилась индустрия AI Security за 2025 год?

В начале 2026 года мы ( авторы телеграм-каналов по безопасности ИИ ) собрались, чтобы подвести итоги прошедшего года и обсудить, куда движется безопасность ИИ в общем и целом. Разговор получился честным, на наш взгляд. Участники дискуссии - Я, Артём Семенов , автор PWN AI ; Борис Захир , автор канала Борис_ь с ml ; Евгений Кокуйкин , создатель HiveTrace и автор канала Евгений Кокуйкин - Raft ; и Владислав Тушканов , исследователь безопасности LLM и компьютерный лингвист, автор канала llm security и каланы . Ниже мы хотим рассказать вам о том что обсуждали на стриме и к чему мы пришли. Про гардрейлы, стоимость атак, LoRA-бэкдоры, угрозы ИИ-агентов и почему каждый подход к защите - компромисс.

https://habr.com/ru/articles/1000736/

#AI_Security #LLM #prompt_injection #guardrails #red_teaming #MLSecOps #alignment #агентные_системы #LoRA #безопасность_ИИ

Как изменилась индустрия AI Security за 2025 год?

В начале 2026 года мы (авторы телеграм-каналов по безопасности ИИ) собрались, чтобы подвести итоги прошедшего года и обсудить, куда движется безопасность ИИ в общем и целом. Разговор получился...

Хабр

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать. Открыть Белый Ящик

https://habr.com/ru/articles/986012/

#AI_Security #Prompt_Injection #Jailbreak #Transformer #RLHF #Red_Teaming #Alignment #Tokenization #Mechanistic_Interpretability

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной...

Хабр

Хватит тестировать вполсилы: Фреймворк RES-ATTACK для симуляции комплексных угроз и его метрика R-score

Привет, Хабр. С вами AdminFuture. Давайте представим себе худший кошмар любого SRE-инженера или CISO. Пятница, вторая половина дня. Нагрузка на систему достигает пика, и в этот самый момент основной узел кластера вашей критически важной СУБД начинает сбоить. Автоматика запускает процедуру failover. Системы напряжены, инженеры наготове, но в целом ситуация под контролем — к такому вы готовились. Но именно в этот момент, в окне уязвимости, когда внутренние сервисы перестраивают сетевые маршруты, а часть проверок безопасности временно ослаблена, ваша система мониторинга безопасности взрывается алертами. На один из внутренних API, который стал доступен во время переключения, началась целенаправленная атака. Это не голливудский сценарий. Это «идеальный шторм» — комбинация инфраструктурного сбоя и кибератаки, которая становится все более реальной угрозой для современных сложных систем. 1 И самое опасное здесь то, что мы почти никогда не готовимся к таким комбинированным событиям. Наши подходы к обеспечению отказоустойчивости и безопасности работают в параллельных вселенных. С одной стороны, у нас есть Chaos Engineering — дисциплина, которая учит нас готовиться к отказам инфраструктуры. Мы научились виртуозно «убивать» поды, вносить сетевые задержки и перегружать CPU, чтобы убедиться, что система выстоит. 3 С другой стороны, есть Red Teaming — практика эмуляции действий злоумышленников, которая проверяет наши защитные бастионы на прочность с помощью таких фреймворков, как Atomic Red Team

https://habr.com/ru/articles/960320/

#chaos_engineering #red_teaming #sre #devsecops #кибербезопасность #управление_рисками #argo_workflows #chaos_mesh

Хватит тестировать вполсилы: Фреймворк RES-ATTACK для симуляции комплексных угроз и его метрика R-score

Привет, Хабр. С вами AdminFuture. Давайте представим себе худший кошмар любого SRE-инженера или CISO. Пятница, вторая половина дня. Нагрузка на систему достигает пика, и в этот самый момент основной...

Хабр

Хакер-легенда HD Moore: от ПК с мусорки до Metasploit Framework

Имя Джеймса Мура знакомо каждому, кто занимается пентестами. Создатель легендарного Metasploit Framework, он прошел путь, далекий от классических историй успеха Кремниевой долины: у Мура нет докторской степени, многомиллионного стартапа или офиса в Калифорнии. Вместо этого — школьные эксперименты с реверс-инжинирингом по заказу ВВС США, разобранные компьютеры с помойки и ночи в подпольных IRC-чатах, где обсуждались взломы телефонных сетей и финансовых систем. Как подросток, увлекающийся фрикингом и сборкой ПК из выброшенных деталей, превратился в одного из самых влиятельных людей в информационной безопасности? Что привело его к созданию Metasploit — инструмента, который изменил подход к пентесту? В этой статье — история HD Moore: от первых хакерских экспериментов до фреймворка, которым сегодня пользуются и киберпреступники, и спецслужбы.

https://habr.com/ru/companies/bastion/articles/929778/

#Джеймс_Мур #hd_moore #metasploit_framework #биография_создателя_Metasploit #история_ИБиндустрии #инструменты_пентестера #red_teaming #эволюция_Metasploit #история_хакинга

Хакер-легенда HD Moore: от ПК с мусорки до Metasploit Framework

Имя Джеймса Мура знакомо каждому, кто занимается пентестами. Создатель легендарного Metasploit Framework, он прошел путь, далекий от классических историй успеха Кремниевой долины: у Мура нет...

Хабр

Хакер-легенда HD Moore: от ПК с мусорки до Metasploit Framework

Имя Джеймса Мура знакомо каждому, кто занимается пентестами. Создатель легендарного Metasploit Framework, он прошел путь, далекий от классических историй успеха Кремниевой долины: у Мура нет докторской степени, многомиллионного стартапа или офиса в Калифорнии. Вместо этого — школьные эксперименты с реверс-инжинирингом по заказу ВВС США, разобранные компьютеры с помойки и ночи в подпольных IRC-чатах, где обсуждались взломы телефонных сетей и финансовых систем. Как подросток, увлекающийся фрикингом и сборкой ПК из выброшенных деталей, превратился в одного из самых влиятельных людей в информационной безопасности? Что привело его к созданию Metasploit — инструмента, который изменил подход к пентесту? В этой статье — история HD Moore: от первых хакерских экспериментов до фреймворка, которым сегодня пользуются и киберпреступники, и спецслужбы.

https://habr.com/ru/companies/bastion/articles/929778/

#Джеймс_Мур #hd_moore #metasploit_framework #биография_создателя_Metasploit #история_ИБиндустрии #инструменты_пентестера #red_teaming #эволюция_Metasploit #история_хакинга

Хакер-легенда HD Moore: от ПК с мусорки до Metasploit Framework

Имя Джеймса Мура знакомо каждому, кто занимается пентестами. Создатель легендарного Metasploit Framework, он прошел путь, далекий от классических историй успеха Кремниевой долины: у Мура нет...

Хабр