Как определить LLM под капотом чат-бота: учебный эксперимент по black-box fingerprinting

Когда мы тестируем LLM‑приложение в режиме black box, мы видим только интерфейс: отправили сообщение — получили ответ. При этом модель под капотом может быть любой: DeepSeek, Qwen, GLM, Mistral, Llama, Claude, GPT, Gemini или локальная fine‑tuned модель. Для обычного пользователя это часто неважно. Для security‑тестирования — важно. В AI cybersecurity это часть reconnaissance: перед тем как оценивать устойчивость приложения к prompt injection, jailbreak‑попыткам, утечкам системного промпта или ошибкам в RAG‑слое, полезно понимать, какая модельная семья работает внутри. Разные модели по‑разному отвечают на странные Unicode‑строки, mixed‑language запросы, вопросы о собственной идентичности, спорные утверждения и безопасные отказы. Я попробовал воспроизвести идею статьи LLMmap: Fingerprinting For Large Language Models в упрощённом виде: собрать одинаковые probe‑промпты с нескольких моделей OpenRouter и проверить, можно ли отличать модели по совокупности ответов.

https://habr.com/ru/articles/1039536/

#cybersecurity_ai

Как определить LLM под капотом чат-бота: учебный эксперимент по black-box fingerprinting

Введение Когда мы тестируем LLM-приложение в режиме black box, мы видим только интерфейс: отправили сообщение — получили ответ. При этом модель под капотом может быть любой: DeepSeek, Qwen, GLM,...

Хабр

Pentest с ИИ-агентами, эксперимент с CAI

Привет хабр! Про ИИ-агентов сейчас говорят везде, от статей до технических отчётов. Но одно дело теория, и совсем другое практика. Поэтому я решил провести небольшой эксперимент, взять новый инструмент CAI и проверить, справится ли он с популярными учебными задачами по пентесту. В этой статье расскажу о своём небольшом тесте open-source проекта

https://habr.com/ru/articles/943638/

#CAI #Cybersecurity_AI #pentest #CTF #TryHackMe #Juice_Shop #Basic_Pentesting #Mr_Robot_CTF #информационная_безопасность #ИИагенты

Pentest с ИИ-агентами, эксперимент с CAI

Привет хабр! Про ИИ-агентов сейчас говорят везде, от статей до технических отчётов. Но одно дело теория, и совсем другое практика. Поэтому я решил провести небольшой эксперимент, взять новый...

Хабр