GigaChat vs Opus в агентском аудите файрвола: попытка сравнения

Взяли один агент, один навык и одну выгрузку правил Ideco NGFW – и прогнали её через GigaChat Max и Claude Opus 4.8. Рассказываем, что из этого получилось, почему «настоящего» агентского теста не вышло и сколько всё это стоило в токенах и рублях. Зачем мы это затеяли В прошлой статье – «Пещера Аладдина для безопасника» – мы показывали, как автономный агент Hermes с открытой библиотекой Agent Skills разбирает IPS-логи и проводит аудит правил межсетевого экрана Ideco NGFW. Тогда мы сравнивали бесплатную фронтир-модель и платную Claude Opus и сделали осторожный вывод: для первичного triage хватает дешёвой модели, а для глубокого расследования лучше брать сильную. Тот эксперимент оставил открытым один очевидный вопрос. Все «сильные» модели в нём были западными. А что покажет российская LLM на той же задаче? Вопрос не праздный. Если вы – банк, госкомпания или объект КИИ, отправлять выгрузку правил вашего боевого файрвола в облако Anthropic – это в лучшем случае разговор с юристами, в худшем – прямое нарушение. GigaChat от Сбера работает в российском контуре, и если он справляется с аудитом конфигураций на приемлемом уровне, это меняет картину для целого класса заказчиков. Поэтому мы взяли один и тот же агент (Hermes), один и тот же навык аудита и одинаковые входные данные – и подставили под него две модели: GigaChat Max и Claude Opus 4.8 ( задумку с тестированием Claude Fable 5 для этой же задачи реализовать не удалось, со всеми нашими ИБ-скиллами он работать отказался, даже когда был доступен).

https://habr.com/ru/companies/ideco/articles/1047692/

#ngfw #Ideco #ideco_ngfw_novum #LLm #Opus #gigachat #Firewall

GigaChat vs Opus в агентском аудите файрвола: попытка сравнения

Взяли один агент, один навык и одну выгрузку правил Ideco NGFW – и прогнали её через GigaChat Max и Claude Opus 4.8. Рассказываем, что из этого получилось, почему «настоящего» агентского теста не...

Хабр

Пещера Алладина для безопасника: 754 навыка для AI-агента и что будет, если использовать их для своего NGFW

Разбираемся с открытой библиотекой Agent Skills для кибербезопасности на 754 навыка, показываем, как она устроена, и проводим живой эксперимент: даём агенту Hermes два навыка и просим разобрать реальный IPS-лог и провести аудит правил файрвола – сначала на бесплатной модели Owl Alpha (из-за того что подобную модель при желании можно использовать локально), затем на платной Opus 4.8 (Cloude Security). Сравниваем, где проходит граница между «бесплатно» и «дорого, но качественно». Откуда взялась «пещера» В одну ночь у нас на столе оказались четыре вещи: открытый репозиторий с 754 (!) навыками по ИБ для AI-агентов, автономный агент Hermes от Nous Research, LLM-модели Owl Alpha и Opus 4.8, а также открытое API Ideco NGFW в markdown-формате и соответствующий тестовый сервер. Собрали всё вместе и проверили на что способен AI-native администратор NGFW. Ощущение от первого захода в репозиторий было ровно как у Аладдина в пещере: вокруг сундуки с готовыми playbook'ами, на каждый второй случай из жизни безопасника. Volatility3 для дампов памяти, Zeek для разбора PCAP, Sigma-правила под Kerberoasting, разбор Cobalt Strike beacon, форензика облаков на трёх провайдерах. И ключ ко всему этому богатству – почти любая LLM, которая умеет в tool calling. Проведем эксперимент: два конкретных навыка из сетевой безопасности, один агент, реальные данные. И в конце – где здесь грабли, на которые легко наступить. Что такое Agent Skills и почему это не просто очередные промпты Agent Skills – это открытый формат для расширения возможностей AI-агента специализированными знаниями и рабочими процессами. Вместо того чтобы каждый раз промтом объяснять модели, «как senior-аналитик расследует утечку через DNS-туннель », вы один раз описываете этот workflow в структурированном виде – и подкладываете агенту.

https://habr.com/ru/companies/ideco/articles/1043130/

#llm #llmагент #hermes_agent #IPS #firewall #межсетевой_экран #ideco_ngfw #ideco #Suricata #информационная_безопасность

Пещера Алладина для безопасника: 754 навыка для AI-агента и что будет, если использовать их для своего NGFW

Разбираемся с открытой библиотекой Agent Skills для кибербезопасности на 754 навыка, показываем, как она устроена, и проводим живой эксперимент: даём агенту Hermes два навыка и просим разобрать...

Хабр

Web-pentest skill в Hermes Agent: как агент проводит пентест веб-приложений

Разбираем web-pentest skill в Hermes Agent – встроенный навык, который превращает AI-агента в пентестера с методологией «No Exploit, No Report». Прошли весь kill chain на трёх реальных веб-приложениях, потратили 23,5 млн токенов и собрали выводы о том, где у такого подхода реальная ценность, а где – предел. Мы в Ideco занимаемся сетевой безопасностью, и нам интересно не только то, как агенты атакуют сети, но и то, как они меняют сам процесс пентеста. Поэтому мы взяли open-source агента Hermes Agent, подключили к нему web-pentest skill и прогнали через него три реальных веб-приложения. В статье – архитектура навыка, разбор пяти фаз, защитные ограничения (guardrails) и попытка понять где у такого подхода предел и какая работа остается людям. AI-пентест 2026: от обёрток над ChatGPT к автономным агентам За полтора года после выхода GPT-4 рынок offensive-инструментов на базе LLM вырос с единиц до нескольких десятков. Исследовательская команда Hadrian к марту 2026 насчитала 70 open-source инструментов AI-пентеста ; до релиза GPT-4 в апреле 2023 их было меньше пяти. Это автономные end-to-end агенты, генераторы эксплойтов, фреймворки для LLM red-teaming и CTF-агенты. Подтянулся и коммерческий сегмент. xBow первым из машин возглавил глобальный leaderboard HackerOne и закрыл больше 200 zero-day без ложных срабатываний; в марте 2026 компания подняла раунд, превысивший оценку в 1 млрд долларов. NodeZero от Horizon3.ai первым полностью прошёл бенчмарк Game of Active Directory за 14 минут – задачу, на которой спотыкались GPT-4o, Gemini 2.5 Pro и Claude Sonnet 3.7.

https://habr.com/ru/companies/ideco/articles/1042696/

#llmагент #hermes_agent #ideco #пентест #pentest #pentesting

Web-pentest skill в Hermes Agent: как агент проводит пентест веб-приложений

Разбираем web-pentest skill в Hermes Agent – встроенный навык, который превращает AI-агента в пентестера с методологией «No Exploit, No Report». Прошли весь kill chain на трёх реальных...

Хабр