Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?
В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если основная LLM защищена, кастомные боты на ее основе остаются уязвимыми? Базовые LLM проходят отдельное safety-training и RLHF-выравнивание. Но production-бот, построенный поверх модели, добавляет новый attack surface: system prompts, память диалога, RAG, tools, webhook-логику и внешние API. Именно этот orchestration layer часто становится слабым местом. Вот данные: Из анализа 14 904 кастомных GPT :
https://habr.com/ru/articles/1036854/
#llm_security #prompt_injection #jailbreak #red_teaming #telegram_bot #webhook #rag #ai_safety #gpt


