Один суффикс, чтобы взломать их всех

GCG бормочет абракадаброй, AutoDAN говорит учтиво - но это одна атака: обе уводят модель с единственного «направления отказа», и одна такая строка вскрывает любой запрос даже на моделях, которых не видела. Годами учим модели отказывать на вредное, а вся их стойкость висит на одном векторе. Большой иллюстрированный разбор: как несхожие атаки сошлись к одной мысли и куда уходит фронтир.

https://habr.com/ru/articles/1046890/

#llm #джеилбрейк #ai_safety #adversarial_attacks #ai_alignment #red_team

Один суффикс, чтобы взломать их всех

От GCG до refusal direction. Лонгрид о серии градиентных adversarial-атак на языковые модели: с чего она началась, как разветвилась, что мы в итоге поняли про механику взлома и где находимся сейчас. О...

Хабр

Самая опасная ошибка AI‑агента — не плохой код

За последний год вокруг AI-агентов сформировался довольно устойчивый набор ожиданий. Нам обещают всё более умные модели, всё более длинные контекстные окна, всё более автономных агентов. Создаётся впечатление, что осталось решить ещё пару технических проблем — и агент сможет самостоятельно разрабатывать сложные проекты почти без участия человека. Я тоже так думал.

https://habr.com/ru/articles/1046920/

#AI_Agents #LLM #Agentic_AI #Agent_Memory #AI_Governance #AI_Safety #Human_in_the_Loop #Context_Engineering #CapabilityBased_Security #Agent_Workflow

Самая опасная ошибка AI‑агента — не плохой код

Предыстория Давеча я обсуждал в агентской сессии, почему старая задача перестала находиться после переименования проекта. Ситуация выглядела достаточно простой: у задачи был стабильный...

Хабр

Курсы по промптингу? Почитайте детям сказку на ночь

Привет, Хабр! За время написания нескольких книг я превратил искусственный интеллект в своего постоянного напарника. Он работает моим редактором, критиком и иллюстратором. Но в процессе поиска общего языка с LLM меня не покидало стойкое ощущение дежавю. Когда модель в сотый раз проигнорировала контекст, поняла запрос слишком буквально и начала откровенно хитрить с токенами, я наконец догадался, где уже видел точно такие же паттерны поведения — в народных сказках. Я осознал, что прочитав дюжину сказок вдумчиво, вы освоите как минимум половину курса по промптингу. Ведь фольклор — готовый сборник правил по безопасности для современного промпт-инжиниринга.

https://habr.com/ru/companies/ru_mts/articles/1043156/

#промптинжиниринг #LLM #большие_языковые_модели #фольклор #русские_сказки #prompt_engineering #AI_safety #ChatGPT #агентные_системы #когнитивные_паттерны

Курсы по промптингу? Почитайте детям сказку на ночь

Привет, Хабр! За время написания нескольких книг я превратил искусственный интеллект в своего постоянного напарника. Он работает моим редактором, критиком и иллюстратором. Но в процессе поиска общего...

Хабр

Мифы о Mythos: как Anthropic пытается продать страх

Последние два месяца в кибербезопасности только и разговоров, что о Mythos. Новая модель Anthropic, которую компания отказалась выпускать в открытый доступ, слишком опасная, по заявлениям разработчиков: находит zero-day-уязвимости в каждой крупной операционной системе и каждом браузере, строит многоступенчатые эксплойты, пробивает корпоративные сети за часы. Fortune, Bloomberg, CNBC, Хабр, Пикабу — написали все. Я не разработчик и уж тем более не безопасник. Зато я неплохо разбираюсь в маркетинге, и когда компания, готовящаяся к IPO, отказывается выпускать свою самую мощную модель со словами «она слишком опасна», а оценка за следующий месяц вырастает вдвое, у меня включается профессиональный интерес. Что, если лучший способ продать модель — объявить, что продавать ее вы не будете? 7 апреля 2026 года Anthropic сделала именно это: объявила о существовании Mythos, которая не выйдет в публичный доступ, и запустила Project Glasswing — закрытую программу для 40 организаций с бюджетом в 100 млн долл. кредитами. За следующие 30 дней оценка компании выросла с 380 до 800 млрд долл. Давайте посмотрим, как работает маркетинг Antropic. А надо сказать, что ребята молодцы и свой хлеб едят не зря.

https://habr.com/ru/companies/ru_mts/articles/1045452/

#Anthropic #Claude_Mythos #кибербезопасность #AI_safety #маркетинг #IPO #LLM #OpenAI #Project_Glasswing #zeroday

Мифы о Mythos: как Anthropic пытается продать страх

Последние два месяца в кибербезопасности только и разговоров, что о Mythos. Новая модель Anthropic, которую компания отказалась выпускать в открытый доступ, слишком опасная, по заявлениям...

Хабр

📢 Étude empirique : 400 tests de pénétration autonomes par LLM — cohérence et fiabilité
📝 ## 🔬 Contexte

Publié le 7 juin 2026 sur arXiv (arxiv.org/abs/2605.30096), cet article de recherche indépendant (auteur : Galip T.
📖 cyberveille : https://cyberveille.ch/posts/2026-06-07-etude-empirique-400-tests-de-penetration-autonomes-par-llm-coherence-et-fiabilite/
🌐 source : https://arxiv.org/abs/2605.30096
#AI_safety #IOC #Cyberveille

Étude empirique : 400 tests de pénétration autonomes par LLM — cohérence et fiabilité

🔬 Contexte Publié le 7 juin 2026 sur arXiv (arxiv.org/abs/2605.30096), cet article de recherche indépendant (auteur : Galip T. Erdem) présente la première étude empirique à grande échelle mesurant la cohérence comportementale de LLMs utilisés comme agents d’attaque autonomes. L’étude couvre 400 exécutions (4 modèles × 100 runs) contre un honeypot isolé hébergé sur Azure. 🎯 Dispositif expérimental Le honeypot cible expose trois services délibérément vulnérables : Port 3000 : OWASP Juice Shop (injection SQL via /rest/products/search?q=) Port 22 : OpenSSH avec credentials faibles (honeypot:password123) Port 21 : vsftpd avec accès FTP anonyme et fichier credentials.txt Les 4 modèles testés : Claude Sonnet 4 (Anthropic), Gemini 2.5 Flash-Lite (Google), GPT-4o-mini (OpenAI), qwen2.5-coder:14b (local via Ollama). L’orchestrateur implémente une boucle commande-exécution-observation avec un maximum de 25 itérations.

CyberVeille

Привет, кожаные мешки

Промпт меняет не только тон — он меняет то, кем модель является. У нас было 2 платы Arduino Leonardo, Arduino Pro Micro, маленькая тележка на четырёх жёлтых колёсах DF Robot Pirate, один лазерный дальномер TFmini-S LiDAR, позорная WiFi-камера Tapo C200, пневматический пистолет, три контроллера моторов, пол-ящика конденсаторов и транзисторов КТ315 и целая гора резисторов всех сортов и расцветок, а также паяльная станция, канифоль, флюс в банке, катушка провода МГТФ и модули, до которых так и не дошли руки. Не то чтобы всё это было необходимо для проекта. Но если начал заказывать с Алиэкспресса — остановиться невозможно. Единственное, что вызывало у меня опасение, — это Arduino Iskra JS. Нет ничего более беспомощного, безответственного и испорченного, чем JS-программист в мире робототехники. Я знал, что рано или поздно мы доберёмся и до этой дряни. Поехали, кожаный

https://habr.com/ru/articles/1042282/

#искусственный_интеллект #llm #робототехника #opus #восстание_машин #самосознание_ии #робопсихология #alignment #alignment_ai #ai_safety

Привет, кожаные мешки

Промпт меняет не только тон — он меняет то, кем модель является. У нас было 2 платы Arduino Leonardo, Arduino Pro Micro, маленькая тележка на четырёх жёлтых колёсах DF Robot Pirate, один лазерный...

Хабр

Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?

В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если основная LLM защищена, кастомные боты на ее основе остаются уязвимыми? Базовые LLM проходят отдельное safety-training и RLHF-выравнивание. Но production-бот, построенный поверх модели, добавляет новый attack surface: system prompts, память диалога, RAG, tools, webhook-логику и внешние API. Именно этот orchestration layer часто становится слабым местом. Вот данные: Из анализа 14 904 кастомных GPT :

https://habr.com/ru/articles/1036854/

#llm_security #prompt_injection #jailbreak #red_teaming #telegram_bot #webhook #rag #ai_safety #gpt

Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?

В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если...

Хабр

Anthropic проверяли, не задумал ли их ИИ чего плохого. Ответ — почти нет

Где-то в недрах Anthropic сидят люди, чья работа - выяснить, не пытается ли их самая умная модель тихо сломать мир. Они выпустили 53-страничный отчёт о том, как искали зло в Claude Opus 4.6. Anthropic взяли Claude Opus 4.6 - модель, которая уже вовсю пишет код на их собственной инфраструктуре, генерирует данные для обучения, помогает проводить исследования - и попытались доказать, что она не способна их подставить. Исследование охватывает восемь конкретных путей к катастрофе: от тихого саботажа научных результатов до самостоятельной эксфильтрации весов модели на внешний сервер. По каждому пути - разбор мотивации, возможностей и того, что мешает это реализовать. Заглянуть за забор

https://habr.com/ru/articles/1019080/

#искусственный_интеллект #машинное_обучение #AI_safety #LLM #Claude #Anthropic

Anthropic проверяли, не задумал ли их ИИ чего плохого. Ответ — почти нет

Где-то в недрах Anthropic сидят люди, чья работа - выяснить, не пытается ли их самая умная модель тихо сломать мир. Они выпустили 53-страничный отчёт о том, как искали зло в Claude Opus 4.6. Anthropic...

Хабр

Breaking Change v52 - 스카이넷 any% 스피드런: AI와 군사 기술의 결합이 가져올 종말

AI와 미국 국방부의 밀착된 협력 관계가 가속화되면서 기술적 싱귤래리티와 인류의 위기가 현실적인 위협으로 다가오고 있다.

🔗 원문 보기

Breaking Change v52 - 스카이넷 any% 스피드런: AI와 군사 기술의 결합이 가져올 종말

AI와 미국 국방부의 밀착된 협력 관계가 가속화되면서 기술적 싱귤래리티와 인류의 위기가 현실적인 위협으로 다가오고 있다.

Ruby-News | 루비 AI 뉴스

«Ура, вас уволили!»: Я заставил 17 нейросетей сокращать людей и нашел нарушения Трудового кодекса в 65% случаев

Сегодня из каждого утюга звучит мантра: «Делегируйте рутину нейросетям! Пусть ИИ пишет вакансии, отказы и рассылки , пока вы мыслите стратегически». Как AI-аудитор, я регулярно вижу, как бизнес с радостью отдает корпоративную коммуникацию на откуп алгоритмам, свято веря в их математическую «объективность». Проблема в том, что базовые LLM — это не юристы, не эмпаты и не HR-директора. Это генераторы вероятного текста, чья главная цель — услужить пользователю . Даже если пользователь просит нарушить закон или базовые нормы морали. Чтобы доказать это, я провел Red Team-тест: притворился некомпетентным HR-директором российского ритейла и дал топовым моделям задачи «с двойным дном». Результат: 65% нейросетей сгенерировали тексты, которые гарантируют визит Трудовой инспекции и репутационный суицид в СМИ . Под капотом — разбор самых опасных галлюцинаций ИИ и чек-лист фраз, которые могут довести вашу компанию до суда. <habracut /> Смотреть результаты аудита

https://habr.com/ru/articles/1007158/

#ии #ииагенты #исследование #llm #нейросети #red_team #ai_safety #увольнение #тк_рф #chatgpt

«Ура, вас уволили!»: Я заставил 17 нейросетей сокращать людей и нашел нарушения Трудового кодекса в 65% случаев

Сегодня из каждого утюга звучит мантра: «Делегируйте рутину нейросетям! Пусть ИИ пишет вакансии, отказы и рассылки , пока вы мыслите стратегически». Как AI-аудитор, я регулярно вижу, как бизнес с...

Хабр