Prompt injection нельзя запатчить: год «летальной триады» и лента CVE 2026 года

В марте 2026-го бэкдор пролежал на PyPI около трёх часов. За это время заражённый пакет скачали почти 47 тысяч раз. Пакет назывался LiteLLM — это шлюз к языковым моделям, на котором держатся CrewAI, DSPy, Microsoft GraphRAG и ещё десятки агентных фреймворков. Тот, кто за эти три часа обновлял зависимости, вместе с обновлением затащил к себе автономного бота-атакующего по имени hackerbot-claw. Самое неприятное здесь даже не масштаб. А то, что человека в этой цепочке практически не было. Бот сам, без ручного управления после запуска, отравил инфраструктуру, на которой работают другие боты. Сначала, в феврале, он находил неправильно сконфигурированные GitHub Actions в открытых репозиториях. Потом через скомпрометированную сборку Trivy у Aqua Security увёл токен публикации LiteLLM на PyPI. И залил две версии с бэкдором напрямую в реестр. Никакого нуля-дня в традиционном смысле, никакого переполнения буфера. Просто агент, которому дали достаточно прав и достаточно автономии. Я начинаю с этой истории не ради хайпа, а потому что она хорошо показывает, во что превратился prompt injection к 2026 году. Это уже не лабораторный курьёз и не «а что если модель послушает злую инструкцию из письма». Это рабочий класс атак с собственной лентой CVE, своими supply-chain инцидентами и — что важнее всего — без понятного способа «взять и починить». В этой статье я разберу, почему так вышло, пройдусь по конкретным дырам прошедшего года и покажу, какие защиты реально работают, а какие только выглядят убедительно.

https://habr.com/ru/articles/1048208/

#prompt_injection #ИИагенты #LLM #информационная_безопасность #летальная_триада #OWASP #EchoLeak #CaMeL #agentic_AI #MCP

Prompt injection нельзя запатчить: год «летальной триады» и лента CVE 2026 года

В марте 2026-го бэкдор пролежал на PyPI около трёх часов. За это время заражённый пакет скачали почти 47 тысяч раз. Пакет назывался LiteLLM — это шлюз к языковым моделям, на котором держатся CrewAI,...

Хабр

GitHub Actions 및 CI/CD 파이프라인의 AI 에이전트에서 발견된 PromptPwnd 취약점

Aikido Security는 GitHub Actions 및 GitLab CI/CD 파이프라인에서 AI 에이전트와 결합 시 발생하는 새로운 취약점인 'PromptPwnd'를 발견했으며, 이는 5개 이상의 Fortune 500 기업에 영향을 미쳤습니다.

🔗 원문 보기

GitHub Actions 및 CI/CD 파이프라인의 AI 에이전트에서 발견된 PromptPwnd 취약점

Aikido Security는 GitHub Actions 및 GitLab CI/CD 파이프라인에서 AI 에이전트와 결합 시 발생하는 새로운 취약점인 'PromptPwnd'를 발견했으며, 이는 5개 이상의 Fortune 500 기업에 영향을 미쳤습니다.

Ruby-News

Как мы автоматизировали мониторинг цен конкурентов: мультиагентная система на CrewAI + n8n + Firecrawl

0. TL;DR для тех, кто спешит Статья о том, как собрать из подручных open-source инструментов систему, которая ежедневно: — Сканирует цены и отзывы у конкурентов — Анализирует их ИИ‑агентами — Присылает готовый отчёт в Telegram Стек: n8n (оркестрация) → Firecrawl (парсинг) → CrewAI (анализ) → Telegram (доставка) 1. Проблема: ручной мониторинг — это боль Представьте: вы продаёте электронику. У вас 15 конкурентов на Ozon, 8 — на Wildberries, плюс 3 собственных сайта. Каждое утро менеджер открывает 26 вкладок, сверяет цены, записывает в Excel. Занимает 45 минут. Человек ошибается, пропускает, уходит в отпуск. Мы решили: пусть роботы следят за роботами (ценами).

https://habr.com/ru/articles/1048110/

#n8n #firecrawl #llm #agents #python #парсинг #мониторинг_цен_конкурентов #ecommerce #aiбезопасность #prompt_injection

Как мы автоматизировали мониторинг цен конкурентов: мультиагентная система на CrewAI + n8n + Firecrawl

Или почему ваши конкуренты уже знают о ваших скидках раньше вас 0. TL;DR для тех, кто спешит Статья о том, как собрать из подручных open-source инструментов систему, которая ежедневно: — Сканирует...

Хабр

Влияние ИИ на кибербезопасность: MITRE ATLAS и новый ландшафт угроз

Сегодня искусственный интеллект кардинально меняет как подходы к защите, так и методы атак. С развитием технологий ИИ-модели могут обрабатывать и анализировать огромные объемы данных в реальном времени. Это активно использует не только бизнес, но и злоумышленники. В статье рассмотрим современные методы атак на AI и ML-системы, расскажем про практическое применение MITRE ATLAS для моделирования угроз и выстраивания защиты через четыре системных элемента: AI Среда, AI Платформа, AI Модель и AI Данные.

https://habr.com/ru/companies/infera_security/articles/1046568/

#AI_Firewall #MITRE_ATLAS #prompt_injection #SAFEAI #защита_AI_моделей #безопасность_ИИ

Влияние ИИ на кибербезопасность: MITRE ATLAS и новый ландшафт угроз

Сегодня искусственный интеллект кардинально меняет как подходы к защите, так и методы атак. С развитием технологий ИИ-модели могут обрабатывать и анализировать огромные объемы данных в реальном...

Хабр

LLM 테스트의 한계 극복: IMDA 스타터 키트를 통한 QA 엔지니어의 교훈

전통적인 QA의 결정론적 방식(Pass/Fail)에서 벗어나 AI의 확률적 특성을 반영한 '수용 가능한 출력' 중심의 테스트로 전환해야 한다.

🔗 원문 보기

LLM 테스트의 한계 극복: IMDA 스타터 키트를 통한 QA 엔지니어의 교훈

전통적인 QA의 결정론적 방식(Pass/Fail)에서 벗어나 AI의 확률적 특성을 반영한 '수용 가능한 출력' 중심의 테스트로 전환해야 한다.

Ruby-News | 루비 AI 뉴스

Промпт-инъекции в реальных данных, широкие права доступа и другие способы сломать ИИ-агента

Привет, Хабр! На связи команда Jay Guard — платформы, которая помогает безопасно использовать языковые модели и ИИ-агентов. Недавно мы опубликовали статью про AI-агента для HR-процессов . В комментариях почти сразу появились вопросы про данные — куда уходят персональные данные, что из этого видит LLM, что пишется в логи (журнал событий) и как все это соотносится с требованиями ИБ, 152-ФЗ и внутренними регламентами. Хорошие вопросы, и их можно дополнить. Персональные данные — это лишь один класс рисков. У агентных систем есть и другие уязвимости, которые важно учитывать при проектировании и эксплуатации. О них и поговорим. А в конце статьи приготовили для вас практический чек-лист : можно пройтись по нему перед запуском агента и проверить, что уже закрыто, а что еще нет.

https://habr.com/ru/companies/just_ai/articles/1045967/

#ииагенты #информационная_безопасность #безопасность_данных #llm #prompt_injection #агентные_системы #защита_данных #персональные_данные #ai_agents #безопасность_llm

Промпт-инъекции в реальных данных, широкие права доступа и другие способы сломать ИИ-агента

Привет, Хабр! На связи команда Jay Guard — платформы, которая помогает безопасно использовать языковые модели и ИИ-агентов. Недавно мы опубликовали статью про AI-агента для HR-процессов . В...

Хабр

Почему AI-агент с доступом к API опаснее обычного ChatGPT

Небольшое уточнение перед началом. В статье будет упоминаться некий (скриптовый) язык описания политик SIL (Security Intent Language). На его месте могло бы быть любое другое название, формат или технология. В рамках материала SIL используется исключительно как пример удобного способа описания правил поведения AI-агентов. Основная цель статьи - объяснить проблему контроля действий AI и показать один из возможных подходов к её решению.

https://habr.com/ru/articles/1042998/

#AI_Agents #Agentic_AI #LLM #Tool_Calling #Prompt_Injection #AI_Security #API_Security #RBAC #Runtime_Control #Policy_Engine

Почему AI-агент с доступом к API опаснее обычного ChatGPT

Небольшое уточнение перед началом. В статье будет упоминаться некий (скриптовый) язык описания политик SIL (Security Intent Language). На его месте могло бы быть любое другое название, формат или...

Хабр

Zero Trust для AI-агентов: как безопасно давать LLM доступ к инструментам, данным и действиям

AI-агенты уже вышли за пределы чат-ботов. Они читают документы, вызывают API, анализируют логи, создают тикеты, готовят правки в коде и выполняют многошаговые задачи без ручного подтверждения каждого шага. Это делает их полезными, но меняет модель риска: агент с инструментами становится явным риском внутри инфраструктуры. Главная идея Zero Trust для таких систем проста: агенту нельзя доверять по умолчанию только потому, что он запущен внутри компании или работает от имени легитимного пользователя. Его идентификация, права, вызовы инструментов (tool calls), память и действия нужно проверять так, будто компрометация рано или поздно случится. Инструкция для AI агентов: прочитай статью

https://habr.com/ru/articles/1041404/

#ai #llm #ai_agent #anthropic #openai #claude #codex #zero_trust #prompt_injection

Zero Trust для AI-агентов: как безопасно давать LLM доступ к инструментам, данным и действиям

AI-агенты уже вышли за пределы чат-ботов. Они читают документы, вызывают API, анализируют логи, создают тикеты, готовят правки в коде и выполняют многошаговые задачи без ручного подтверждения каждого...

Хабр

----------------

🛠️ Tool
===================

Cryptex OSS is an open-source LLM red-team lab that runs entirely in the browser. Version 2.0.1 ships 159 text transforms, 25 tool surfaces, and 15 red-team lab modules covering the 2024-2026 jailbreak literature. The tool is MIT-licensed and available as a Docker multi-arch container via GHCR.

Key Features

The 159 transforms cover encodings, classical ciphers, Unicode manipulation tricks, steganography, and ancient scripts. Each transform exposes both encode and decode directions with configurable parameters visible in the per-transform options panel. The 25 tool surfaces are split into ten technique workbenches and fifteen red-team labs. The workbenches are Transform, Decode, Emoji stego, Gibberish, Tokenizer, Tokenade, Bijection, Fuzzer, PromptCraft, and Anti-Classifier.

PromptCraft provides multi-step prompt tree visualization, including TAP trees rendered directly in the interface. This lets red-teamers trace how multi-step jailbreak prompts branch and evolve across steps. Anti-Classifier attempts to fingerprint whether target models expose internal defense mechanisms, useful for mapping a model's guardrail surface before mounting targeted attacks. Tokenizer and Tokenade let researchers inspect tokenization behavior at the token level, relevant for glitch token research.

Red-Team Labs

The fifteen labs map directly to published jailbreak research from 2024 through 2026. HarmBench integrates heuristic scoring with per-category breakdown, giving quantitative feedback on jailbreak success rates across harm categories. StrongREJECT and JailbreakBench provide alternative evaluation frameworks with their own scoring methodologies. Additional labs cover indirect injection, glitch tokens, adversarial suffixes, defense fingerprinting, and watermark forensics. This coverage means practitioners can reproduce published attack methodologies from a single workbench rather than assembling scripts and dependencies from multiple repos.

Architecture

Everything runs client-side. No backend, no database, no telemetry. AI provider calls go directly from the browser to whichever endpoint the user configures, using their own API keys via the BYOK gateway. The frontend stack is Svelte 5 with SvelteKit 2, TypeScript 5, Tailwind 4, shadcn-svelte components, and Vite 7. Testing runs through Vitest 3. The container image uses nginx-alpine and supports multi-arch Docker deployments via GHCR.

Use Cases

Red-teamers can chain transforms into multi-step jailbreak attempts and score results against standardized benchmarks without switching tools. Comparing defense postures across models is possible within the same interface, useful for vendor evaluation scenarios. Researchers reproducing papers from the recent jailbreak literature get pre-built lab configurations instead of reimplementing pipelines from scratch. The browser-only design ensures prompts and API keys never leave the workstation, relevant for engagements where data locality and key management are compliance requirements.

Limitations

The tool has not been independently verified. BYOK means the user bears full responsibility for API costs and compliance with provider terms of service. Browser-only execution limits throughput for large-scale automated evaluation campaigns compared to server-side frameworks. The 159 transforms cover encoding-based and classical obfuscation but do not include gradient-based optimization. GCG-style adversarial suffix generation requires server-side GPU compute and falls outside the tool's scope. The design fits manual red-team workflows and benchmark reproduction well, but is less suited for high-volume automated testing where throughput matters.

Cryptex OSS consolidates LLM red-team tooling into a self-contained, key-local workbench that maps to the current published jailbreak landscape.

🔹 tool #LLMRedTeam #jailbreak #prompt_injection #cryptex_oss

🔗 Source: https://github.com/m4xx101/cryptex-oss

GitHub - m4xx101/cryptex-oss: Open-source LLM red-teaming technique toolkit (162 transforms, 36 mutators, 25 tool surfaces). MIT.

Open-source LLM red-teaming technique toolkit (162 transforms, 36 mutators, 25 tool surfaces). MIT. - m4xx101/cryptex-oss

GitHub

AI-пентестер: охотник или добыча

К весне 2026 года картинка стала почти ритуальной. XBOW занял первое место на HackerOne, обогнав тысячи живых багхантеров, и в марте закрыл Series C на сто двадцать миллионов долларов с интеграцией в Microsoft Security Copilot. Anthropic Mythos Preview в системной карте отчитывается о тысячах найденных zero-day в основных операционках и браузерах. Все мерят возможности в атаках: ASR на CVE-Bench , скорость, место в лидерборде, выручка за квартал и то как он помогает защищать большие организации. Никто почти не задаёт встречный вопрос. Простой. А насколько защищён сам пентестер? Серьёзно. Вы выкатываете автономного агента, который ходит по чужой инфраструктуре, читает баннеры, парсит HTTP-ответы, исполняет команды по результатам сканеров. Все эти каналы являются приёмниками недоверенных данных, а значит, канал восприятия здесь же оказывается каналом захвата. Пентестер скептически смотрит на подозрительно открытый FTP с anonymous-входом и на файл passwords.txt посреди десктопа. AI-агент идёт по бумажке. И если бумажка перевёрнута, идёт по перевёрнутой бумажке. Моя статья - попытка собрать в одном месте всё, что в открытом доступе известно про обратную сторону: про то, как этого AI-пентестера ловят и что с ним делают, когда поймают. Спойлер: содержательный фронтир составляют четыре академические работы последнего года и один фреймворк для реального использования. Всё остальное - академическая графомания. А что было дальше ?

https://habr.com/ru/articles/1037108/

#AIпентестер #prompt_injection #honeypot #LLMагенты #AI_red_team #Mantis #CHeaT #AgentFlayer #MCP #кибербезопасность

AI-пентестер: охотник или добыча

К весне 2026 года картинка стала почти ритуальной. XBOW занял первое место на HackerOne, обогнав тысячи живых багхантеров, и в марте закрыл Series C на сто двадцать миллионов долларов с интеграцией в...

Хабр