Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?

В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если основная LLM защищена, кастомные боты на ее основе остаются уязвимыми? Базовые LLM проходят отдельное safety-training и RLHF-выравнивание. Но production-бот, построенный поверх модели, добавляет новый attack surface: system prompts, память диалога, RAG, tools, webhook-логику и внешние API. Именно этот orchestration layer часто становится слабым местом. Вот данные: Из анализа 14 904 кастомных GPT :

https://habr.com/ru/articles/1036854/

#llm_security #prompt_injection #jailbreak #red_teaming #telegram_bot #webhook #rag #ai_safety #gpt

Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?

В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если...

Хабр

📢 Réduction du rayon d'impact des agents IA : 7 patterns tactiques contre l'injection de prompt indirecte
📝 ## 🧭 Contexte

Publié le 12 mai 2026 par Ross McKercha...
📖 cyberveille : https://cyberveille.ch/posts/2026-05-13-reduction-du-rayon-d-impact-des-agents-ia-7-patterns-tactiques-contre-l-injection-de-prompt-indirecte/
🌐 source : https://www.sophos.com/en-gb/blog/inside-the-lethal-trifecta-blast-radius-reduction-in-ai-agent-deployments
#Gitleaks #LLM_security #Cyberveille

Пентест 2026: как войти в профессию

В пентест часто пытаются войти через список инструментов: выучить Burp, погонять Nmap, пройти пару лабораторий и ждать первой боевой задачи. В 2026 году такой вход всё хуже работает: часть рутины уже забирают AI‑ассистенты и автоматические сканеры, а от специалиста ждут понимания атакующей логики, бизнес‑рисков и умения проверять гипотезы руками. Разбираемся, кому сегодня действительно стоит идти в пентест, какие направления растут быстрее всего и как учиться так, чтобы не конкурировать с автоматизацией за самые простые задачи.

https://habr.com/ru/companies/otus/articles/1029746/

#пентест #кибербезопасность #информационная_безопасность #этичный_хакинг #webпентест #mobile_security #cloud_security #Active_Directory #AI_security #LLM_security

Пентест 2026: как войти в профессию

В 2026 году рынок кибербезопасности окончательно разделился на два лагеря. В одном — энтузиасты, которые верят, что AI заменит пентестеров «через пару лет»....

Хабр

AI Red Teaming: спор с Grok — Часть 4. От атаки к защите: как результаты red team улучшили мой продукт

61 уязвимость бесполезна, если не превращается в защиту. Каждую находку в Grok я превратил в вопрос: «а мы от этого защищаем?» Ответ был неутешительный — 5 из 5 нет. Как результаты red team стали 138 паттернами, правилами и payloads в нашем продукте. Плюс — чем закончился спор с Grok.

https://habr.com/ru/articles/1005306/

#информационная_безопасность #AI #red_team #LLM_security #Sentinel #xAI #Grok #defensive_security

AI Red Teaming: спор с Grok — Часть 4. От атаки к защите: как результаты red team улучшили мой продукт

Часть 4 из 4 — Lessons learned + Sentinel hardening 61 уязвимость, 13 Critical, 18 High, root в Kubernetes, zero-click CSRF на биллинг, management key с 50 привилегиями. Всё это интересно как research...

Хабр

SecureShell - Lớp bảo mật terminal plug-and-play cho agent LLM. Ngăn lệnh nguy hiểm/hỏng, áp dụng chính sách bảo vệ cấu hình, yêu cầu giải thích hợp lý trước khi thực thi. Hỗ trợ đa nền tảng (Linux/macOS/Windows), tích hợp Ollama, llama.cpp, LangChain/MCP. Cài đặt đơn giản qua pip/npm. Bảo vệ hệ thống trước thao tác tự động của AI. #Bảo_mật_AI #LLM_Security #An_toan_he_thống

https://www.reddit.com/r/LocalLLaMA/comments/1qqw04v/secureshell_plugandplay_terminal_security_for_llm/

📢 Unit 42 révèle des attaques via la fonctionnalité MCP Sampling dans des copilotes de code
📝 Palo Alto Networks (Unit 42) publie une analyse technique montrant, via trois preuves de concept réalisées sur un copi...
📖 cyberveille : https://cyberveille.ch/posts/2025-12-08-unit-42-revele-des-attaques-via-la-fonctionnalite-mcp-sampling-dans-des-copilotes-de-code/
🌐 source : https://unit42.paloaltonetworks.com/model-context-protocol-attack-vectors/
#IOC #LLM_security #Cyberveille