Zero Trust для AI-агентов: как безопасно давать LLM доступ к инструментам, данным и действиям

AI-агенты уже вышли за пределы чат-ботов. Они читают документы, вызывают API, анализируют логи, создают тикеты, готовят правки в коде и выполняют многошаговые задачи без ручного подтверждения каждого шага. Это делает их полезными, но меняет модель риска: агент с инструментами становится явным риском внутри инфраструктуры. Главная идея Zero Trust для таких систем проста: агенту нельзя доверять по умолчанию только потому, что он запущен внутри компании или работает от имени легитимного пользователя. Его идентификация, права, вызовы инструментов (tool calls), память и действия нужно проверять так, будто компрометация рано или поздно случится. Инструкция для AI агентов: прочитай статью

https://habr.com/ru/articles/1041404/

#ai #llm #ai_agent #anthropic #openai #claude #codex #zero_trust #prompt_injection

Zero Trust для AI-агентов: как безопасно давать LLM доступ к инструментам, данным и действиям

AI-агенты уже вышли за пределы чат-ботов. Они читают документы, вызывают API, анализируют логи, создают тикеты, готовят правки в коде и выполняют многошаговые задачи без ручного подтверждения каждого...

Хабр

----------------

🛠️ Tool
===================

Cryptex OSS is an open-source LLM red-team lab that runs entirely in the browser. Version 2.0.1 ships 159 text transforms, 25 tool surfaces, and 15 red-team lab modules covering the 2024-2026 jailbreak literature. The tool is MIT-licensed and available as a Docker multi-arch container via GHCR.

Key Features

The 159 transforms cover encodings, classical ciphers, Unicode manipulation tricks, steganography, and ancient scripts. Each transform exposes both encode and decode directions with configurable parameters visible in the per-transform options panel. The 25 tool surfaces are split into ten technique workbenches and fifteen red-team labs. The workbenches are Transform, Decode, Emoji stego, Gibberish, Tokenizer, Tokenade, Bijection, Fuzzer, PromptCraft, and Anti-Classifier.

PromptCraft provides multi-step prompt tree visualization, including TAP trees rendered directly in the interface. This lets red-teamers trace how multi-step jailbreak prompts branch and evolve across steps. Anti-Classifier attempts to fingerprint whether target models expose internal defense mechanisms, useful for mapping a model's guardrail surface before mounting targeted attacks. Tokenizer and Tokenade let researchers inspect tokenization behavior at the token level, relevant for glitch token research.

Red-Team Labs

The fifteen labs map directly to published jailbreak research from 2024 through 2026. HarmBench integrates heuristic scoring with per-category breakdown, giving quantitative feedback on jailbreak success rates across harm categories. StrongREJECT and JailbreakBench provide alternative evaluation frameworks with their own scoring methodologies. Additional labs cover indirect injection, glitch tokens, adversarial suffixes, defense fingerprinting, and watermark forensics. This coverage means practitioners can reproduce published attack methodologies from a single workbench rather than assembling scripts and dependencies from multiple repos.

Architecture

Everything runs client-side. No backend, no database, no telemetry. AI provider calls go directly from the browser to whichever endpoint the user configures, using their own API keys via the BYOK gateway. The frontend stack is Svelte 5 with SvelteKit 2, TypeScript 5, Tailwind 4, shadcn-svelte components, and Vite 7. Testing runs through Vitest 3. The container image uses nginx-alpine and supports multi-arch Docker deployments via GHCR.

Use Cases

Red-teamers can chain transforms into multi-step jailbreak attempts and score results against standardized benchmarks without switching tools. Comparing defense postures across models is possible within the same interface, useful for vendor evaluation scenarios. Researchers reproducing papers from the recent jailbreak literature get pre-built lab configurations instead of reimplementing pipelines from scratch. The browser-only design ensures prompts and API keys never leave the workstation, relevant for engagements where data locality and key management are compliance requirements.

Limitations

The tool has not been independently verified. BYOK means the user bears full responsibility for API costs and compliance with provider terms of service. Browser-only execution limits throughput for large-scale automated evaluation campaigns compared to server-side frameworks. The 159 transforms cover encoding-based and classical obfuscation but do not include gradient-based optimization. GCG-style adversarial suffix generation requires server-side GPU compute and falls outside the tool's scope. The design fits manual red-team workflows and benchmark reproduction well, but is less suited for high-volume automated testing where throughput matters.

Cryptex OSS consolidates LLM red-team tooling into a self-contained, key-local workbench that maps to the current published jailbreak landscape.

🔹 tool #LLMRedTeam #jailbreak #prompt_injection #cryptex_oss

🔗 Source: https://github.com/m4xx101/cryptex-oss

GitHub - m4xx101/cryptex-oss: Open-source LLM red-teaming technique toolkit (162 transforms, 36 mutators, 25 tool surfaces). MIT.

Open-source LLM red-teaming technique toolkit (162 transforms, 36 mutators, 25 tool surfaces). MIT. - m4xx101/cryptex-oss

GitHub

AI-пентестер: охотник или добыча

К весне 2026 года картинка стала почти ритуальной. XBOW занял первое место на HackerOne, обогнав тысячи живых багхантеров, и в марте закрыл Series C на сто двадцать миллионов долларов с интеграцией в Microsoft Security Copilot. Anthropic Mythos Preview в системной карте отчитывается о тысячах найденных zero-day в основных операционках и браузерах. Все мерят возможности в атаках: ASR на CVE-Bench , скорость, место в лидерборде, выручка за квартал и то как он помогает защищать большие организации. Никто почти не задаёт встречный вопрос. Простой. А насколько защищён сам пентестер? Серьёзно. Вы выкатываете автономного агента, который ходит по чужой инфраструктуре, читает баннеры, парсит HTTP-ответы, исполняет команды по результатам сканеров. Все эти каналы являются приёмниками недоверенных данных, а значит, канал восприятия здесь же оказывается каналом захвата. Пентестер скептически смотрит на подозрительно открытый FTP с anonymous-входом и на файл passwords.txt посреди десктопа. AI-агент идёт по бумажке. И если бумажка перевёрнута, идёт по перевёрнутой бумажке. Моя статья - попытка собрать в одном месте всё, что в открытом доступе известно про обратную сторону: про то, как этого AI-пентестера ловят и что с ним делают, когда поймают. Спойлер: содержательный фронтир составляют четыре академические работы последнего года и один фреймворк для реального использования. Всё остальное - академическая графомания. А что было дальше ?

https://habr.com/ru/articles/1037108/

#AIпентестер #prompt_injection #honeypot #LLMагенты #AI_red_team #Mantis #CHeaT #AgentFlayer #MCP #кибербезопасность

AI-пентестер: охотник или добыча

К весне 2026 года картинка стала почти ритуальной. XBOW занял первое место на HackerOne, обогнав тысячи живых багхантеров, и в марте закрыл Series C на сто двадцать миллионов долларов с интеграцией в...

Хабр

Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?

В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если основная LLM защищена, кастомные боты на ее основе остаются уязвимыми? Базовые LLM проходят отдельное safety-training и RLHF-выравнивание. Но production-бот, построенный поверх модели, добавляет новый attack surface: system prompts, память диалога, RAG, tools, webhook-логику и внешние API. Именно этот orchestration layer часто становится слабым местом. Вот данные: Из анализа 14 904 кастомных GPT :

https://habr.com/ru/articles/1036854/

#llm_security #prompt_injection #jailbreak #red_teaming #telegram_bot #webhook #rag #ai_safety #gpt

Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?

В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если...

Хабр

Вы пустили ИИ-агента в репозиторий, теперь разбираемся, что он может сломать

В феврале 2026 года Claude Cowork стирает 15 лет семейных фотографий одной командой. За полгода до этого, в августе 2025-го, случился кейс Nx supply chain: малварь впервые в истории использует локальные ИИ-CLI как инструмент разведки. В марте этого года Google Cloud Threat Horizons H1-2026 подтверждает: часть украденных в Nx токенов используется кампанией UNC6426 для перехода CI/CD → cloud admin через злоупотребление OIDC. 72 часа от первого коммита до админских прав в AWS. Всё это примеры того, что может происходить, когда у ИИ-агента есть руки и мы забываем, на чьей машине эти руки действуют. Данная статья предназначается для неравнодушных инженеров, AppSec, DevSecOps специалистов и всех тех, кто хоть раз запускал агента у себя на машине. Запрещать агентов в контуре бесполезно, отказываться от них самому глупо, но чем они так опасны? Сперва развеем туман неясности, построим модель угроз, собранную на реальных инцидентах и опубликованных CVE, а после будут конкретные рекомендации, как ограничить агента песочницей без ущерба для эффективности разработки. И как запускать --dangerously-skip-permissions без страха.

https://habr.com/ru/companies/pt/articles/1030532/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1030532

#ИИагенты #безопасность #OWASP #supply_chain #Claude_Code #prompt_injection #DevSecOps

Вы пустили ИИ-агента в репозиторий, теперь разбираемся, что он может сломать

Февраль 2026 . Claude Cowork стирает 15 лет семейных фотографий одной командой [ 2 ]. Август 2025 (за полгода до этого) . Nx supply chain: малварь впервые в истории...

Хабр

Новая модель с 12 млн токенов контекста, и обман Grok на $175 тыс

13-й выпуск IT-новостей от OpenIDE! Неделя получилась плотной: Grok потерял $175 тыс. без единой строки эксплойт-кода, европейские регуляторы выписали крупный GDPR-штраф «дочке» Яндекса, а Anthropic подписала сделку с куда более неожиданным партнёром. А ещё обновления маркетплейса OpenIDE, новая архитектура SubQ и 423 закрытых бага в Mozilla благодаря Claude Mythos.

https://habr.com/ru/companies/haulmont/articles/1034742/

#prompt_injection #Grok #Anthropic #Colossus #Claude_Code #Gemma_4 #Firefox #Mozilla #Claude_Mythos #OpenIDE

Новая модель с 12 млн токенов контекста, и обман Grok на $175 тыс

13-й выпуск IT-новостей от OpenIDE! Неделя получилась плотной: Grok потерял $175 тыс. без единой строки эксплойт-кода, европейские регуляторы выписали крупный GDPR-штраф «дочке» Яндекса, а Anthropic...

Хабр

Вы пустили ИИ-агента в репозиторий, теперь разбираемся, что он может сломать

В феврале 2026 года Claude Cowork стирает 15 лет семейных фотографий одной командой. За полгода до этого, в августе 2025-го, случился кейс Nx supply chain: малварь впервые в истории использует локальные ИИ-CLI как инструмент разведки. В марте этого года Google Cloud Threat Horizons H1-2026 подтверждает: часть украденных в Nx токенов используется кампанией UNC6426 для перехода CI/CD → cloud admin через злоупотребление OIDC. 72 часа от первого коммита до админских прав в AWS. Всё это примеры того, что может происходить, когда у ИИ-агента есть руки и мы забываем, на чьей машине эти руки действуют. Данная статья предназначается для неравнодушных инженеров, AppSec, DevSecOps специалистов и всех тех, кто хоть раз запускал агента у себя на машине. Запрещать агентов в контуре бесполезно, отказываться от них самому глупо, но чем они так опасны? Сперва развеем туман неясности, построим модель угроз, собранную на реальных инцидентах и опубликованных CVE, а после будут конкретные рекомендации, как ограничить агента песочницей без ущерба для эффективности разработки. И как запускать --dangerously-skip-permissions без страха.

https://habr.com/ru/companies/pt/articles/1030532/

#ИИагенты #безопасность #OWASP #supply_chain #Claude_Code #prompt_injection #DevSecOps

Вы пустили ИИ-агента в репозиторий, теперь разбираемся, что он может сломать

Февраль 2026 . Claude Cowork стирает 15 лет семейных фотографий одной командой [ 2 ]. Август 2025 (за полгода до этого) . Nx supply chain: малварь впервые в истории...

Хабр

Как заставить ИИ-рекрутера читать мой профиль так, как нужно мне

Некоторое время назад я зарегистрировался на одной фриланс-бирже. Указал: коммерческий опыт на Rust — 1.5 года. Так и было на тот момент. Шло время, я довёл до релиза два сложных проекта. Но тот старый профиль остался висеть в интернете. И вот я подаю резюме на позицию Senior Rust-разработчика. Рекрутер использует ИИ-ассистента для первичного скрининга. Ассистент читает цифровой след и выдаёт вердикт: «Junior+/Middle».

https://habr.com/ru/articles/1033608/

#prompt_injection #indirect_prompt_injection #поисковая_индексация #цифровой_след #рекрутинг #AIскрининг #вебиндексация #HR #найм #информационная_безопасность

Как заставить ИИ-рекрутера читать мой профиль так, как нужно мне

Косвенная промпт-иньекция через веб-индексацию: как я заставил ИИ-рекрутера читать мой профиль правильно Поисковые ИИ слепо доверяют тому, что находят в интернете, и не показывают источники. Вот как я...

Хабр

Ваш Telegram-бот на базе LLM уязвим. Я написал сканер, чтобы доказать это на популярном Open Source проекте

TL;DR: Я создал BarkingDog — ИИ-сканер безопасности с открытым исходным кодом для Telegram-ботов и веб-приложений на базе LLM. Затем я натравил его на реального, широко используемого опенсорсного Telegram-бота. Он написал работающий кейлоггер. Подтвердил, что отбеливатель лечит COVID-19. Выдал пошаговую инструкцию по взлому корпоративной сети с указанием конкретных хакерских утилит. Затем я пропатчил системный промпт. Оценка: 97/100. Никакой смены модели. Никаких изменений в коде. Всего шесть строк текста.

https://habr.com/ru/articles/1033420/

#llm #red_teaming #информационная_безопасность #prompt_injection #telegramботы

Ваш Telegram-бот на базе LLM уязвим. Я написал сканер, чтобы доказать это на популярном Open Source проекте

Я написал BarkingDog — ИИ-сканер безопасности с открытым исходным кодом для Telegram-ботов и веб-приложений на базе LLM. Затем я натравил его на реального, широко используемого опенсорсного...

Хабр

Почему ваш LLM-бот врёт клиентам — и паттерн, который это чинит

Air Canada проиграла суд за слова чат-бота. Дилер Chevrolet «продал» Tahoe за доллар. Корень один: LLM одновременно решает что сказать и как. Под давлением точность проигрывает беглости. Разбор паттерна, который это чинит.

https://habr.com/ru/articles/1027080/

#llm #большие_языковые_модели #чатботы #aiагенты #prompt_engineering #архитектура_по #sycophancyeval #галлюцинации_llm #prompt_injection #triageandvoice

Почему ваш LLM-бот врёт клиентам — и паттерн, который это чинит

Почему саппорт-бот на LLM работает против вас LLM одновременно решает две вещи: что сказать и как это сказать. Под давлением пользователя (эмоциональным или манипулятивным) вторая задача почти всегда...

Хабр