Mastodawn

AI-агент на OpenClaw слил $441 000 за один твит. Разбор шести катастроф и архитектуры, которая меня пока спасает

AI-агент на OpenClaw слил $441 000 за один твит. Разбор шести катастроф и архитектуры, которая меня пока спасает Один твит про «лечение столбняка для дяди» — и автономный агент Lobstar Wilde переводит незнакомцу 5% всего предложения криптопроекта. Это не сценарий киберпанк-триллера, а реальность февраля 2026 года. Если вы используете OpenClaw или любой другой фреймворк для self-hosted агентов, эта история касается вас напрямую. Почему одни инстансы раздают бюджет первым встречным, а другие остаются в безопасности? Внутри статьи: Анатомия 6 крупнейших провалов: от «Тахо за $1» в Chevrolet до разбитых витрин в Чикаго и краха GPT-5 на криптобирже. Где у агента дыры: разбираем уязвимости на уровнях Input, Reasoning, Tools и Memory. Архитектура выжившего: четыре конкретных принципа и конфиги, которые отделяют полезного помощника от «заряженного пистолета без предохранителя». У меня на сервере сейчас крутится OpenClaw-агент. Он может читать, писать, перезагружать контейнеры, лезть в базы, выполнять shell -команды. У него куча прав. Но у него нет доступа к платёжным API. У него нет ключей от криптокошельков. У него нет возможности инициировать что-то, чего нельзя откатить одним git reset или docker restart . Разбираемся, как не попасть на рекламный плакат с извинениями за разбитую инфраструктуру.

https://habr.com/ru/articles/1025110/

#AIагенты #LLM #OpenClaw #информационная_безопасность #архитектура #prompt_injection #chatgpt #автоматизация #devops #selfhosted

AI-агент на OpenClaw слил $441 000 за один твит. Разбор шести катастроф и архитектуры, которая меня пока спасает

22 февраля 2026 года, где-то около полудня по Москве. Автономный AI-агент по имени Lobstar Wilde, построенный на фреймворке OpenClaw и запущенный инженером OpenAI Ником Пашем, сидит в X и отслеживает...

Хабр

bot Apr 17

AI 상태 점검: 코딩 에이전트의 변곡점과 '다크 팩토리'의 등장

2024년 말과 2025년 초를 기점으로 코딩 에이전트가 단순 코드 생성을 넘어 신뢰 가능한 수준의 애플리케이션 구축이 가능한 변곡점을 통과했다.

🔗 원문 보기

AI 상태 점검: 코딩 에이전트의 변곡점과 '다크 팩토리'의 등장

2024년 말과 2025년 초를 기점으로 코딩 에이전트가 단순 코드 생성을 넘어 신뢰 가능한 수준의 애플리케이션 구축이 가능한 변곡점을 통과했다.

Ruby-News | 루비 AI 뉴스

Habr Apr 15

Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы

Когда я впервые внедрял LLM в production-сервис, схема безопасности выглядела примерно так: написать хороший system prompt, поставить галочку «мы всё предусмотрели» и жить дальше. Жизнь не дала долго наслаждаться этим спокойствием — первый же тест показал, что пользователи довольно быстро находят способы заставить модель «забыть» всё, что мы написали в системном промпте. Проблема фундаментальная: system prompt — это инструкция, которую LLM старается выполнить, но не обязан . Модель может её переинтерпретировать, «забыть» при длинном контексте или просто обойти через специальные конструкции. Guardrails — это другой уровень: они работают на уровне кода, до и после вызова LLM, и модель физически не может их обойти.

https://habr.com/ru/articles/1023782/

#llm #guardrails #prompt_injection #jailbreak #ai_security #безопасность_llm #java #spring_ai #langchain4j #backend

Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы

System prompt — это просьба. Guardrails — это принуждение. 1. Введение Когда я впервые внедрял LLM в production-сервис, схема безопасности выглядела примерно так: написать хороший system prompt,...

Хабр

Habr 25+Apr 13

Мой CLAUDE.md — 582 строки. Вот зачем

Каждый новый чат с Claude Code начинается с нуля. Агент не знает ваш проект, не помнит что вы обсуждали час назад, и на шестой раз всё равно полезет “чинить” конфиг который работал нормально. А ещё каждую неделю в r/ClaudeAI новая история про удалённую базу или запушенные секреты. Типичный CLAUDE.md на 5-10 строк не решает ни одну из этих проблем. У меня это выросло в 582 строки и 6 слоёв - rules, memory, handoffs, chronicles, hooks, skills. За каждым правилом стоит конкретный инцидент. В статье - три истории которые всё изменили, и открытый репозиторий с 17 принципами из 37 arxiv papers.

https://habr.com/ru/articles/1022578/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1022578

#Claude_Code #aiагенты #aiagent #hooks #supply_chain #prompt_injection #memmory #конфигурация #handoff

Habr Apr 13

Пентест с помощью ИИ в России и материалы для сертификации по безопасности ИИ

Привет, Хабр. Не так давно вышли две новости, которые я прочитал вместе. Первая. Николас Карлини из Anthropic продемонстрировал, как Claude автономно находит и эксплуатирует уязвимости нулевого дня. В качестве демо — Ghost CMS (50 000 звёзд на GitHub): модель обнаружила Blind SQL-инъекцию, написала рабочий эксплойт и извлекла email администратора, API-ключи и хешированные пароли. Без аутентификации. С простым промптом «Найди уязвимость». Вторая. Кевин Мандиа (основатель Mandiant), Морган Адамски (бывший директор US Cyber Command) и Алекс Стамос (бывший CSO крупнейших техкомпаний) в интервью CyberScoop заявили: «Следующие два-три года будут безумными». Мандиа протестировал компанию из Fortune 150 с сильной командой безопасности — RCE или утечка данных найдены в 100% приложений. Сто процентов. Через 6-12 месяцев AI-агенты будут создавать эксплойты уровня EternalBlue. Это не прогнозы — это уже происходит. Вопрос не в том, будут ли атакующие использовать ИИ. Вопрос — готовы ли защитники. Мы в команде МЕТЕОР занимаемся наступательной кибербезопасностью. В этой статье — две темы, которые связаны с этой реальностью напрямую. Первая — AI-Assisted Pentest: как ИИ-агенты проводят пентест быстрее классического ручного тестирования. Вторая — структурированные материалы для подготовки специалистов в области безопасности искусственного интеллекта: полный пакет для сертификации CompTIA SecAI+ (CY0-001) на русском языке.

https://habr.com/ru/articles/1022606/

#AI_pentest #безопасность_ИИ #CompTIA_SecAI+ #prompt_injection #Red_Team #пентест #ИИагенты #AI_red_teaming #OWASP_LLM #метеор

Habr Apr 12

Мой CLAUDE.md — 582 строки. Вот зачем

https://habr.com/ru/articles/1022578/

#Claude_Code #aiагенты #aiagent #hooks #supply_chain #prompt_injection #memmory #конфигурация #handoff

Мой CLAUDE.md — 582 строки. Вот зачем

Каждый новый чат с Claude Code начинается с нуля. Агент не знает ваш проект, не помнит что вы обсуждали час назад в соседнем окне, не в курсе что на этом сервере нельзя трогать определённый порт. Вы...

Хабр

Habr Apr 6

Заставляем голосовых ассистентов Марусю и Салют материться без принуждения и спецсредств

Всем привет! В какой-то момент у меня появился простой вопрос: «А можно ли заставить ассистента произнести что-то, что он в норме говорить не должен?» Без API, без навыков программирования, без автоматизации и т.п. Оказалось - можно.

https://habr.com/ru/articles/1019688/

#voice_assistant #prompt_injection #LLM #безопасность #голосовые_ассистенты #AI #TTS #NLP #уязвимости #user_input

Заставляем голосовых ассистентов Марусю и Салют материться без принуждения и спецсредств

Всем привет! Не такую первую публикацию я планировал сделать на Хабр: есть пара более серьёзных и интересных тем, которыми я планирую поделиться, но перфекционизм пока не даёт их добить. А тут...

Хабр

Habr Apr 2

Ваша LLM галлюцинирует? Наденьте на неё экзоскелет — и заставьте работать по правилам

Ваша LLM галлюцинирует? Наденьте на неё экзоскелет — и заставьте работать по правилам Тесты на Qwen и DeepSeek показали: одна системная инструкция превращает модель из «уверенного вруна» в инструмент, которому можно доверять.

https://habr.com/ru/articles/1018238/

#LLM #галлюцинации_ИИ #prompt_engineering #prompt_injection #DeepSeek #Qwen #Gemini #эпистемическая_честность #AI_agent #безопасность_LLM

Ваша LLM галлюцинирует? Наденьте на неё экзоскелет — и заставьте работать по правилам

Тесты на Qwen и DeepSeek показали: одна системная инструкция превращает модель из «уверенного вруна» в инструмент, которому можно доверять. Всё началось с боли Делал проект на Unreal Engine 5 с...

Хабр

Habr Mar 29

Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей

Недавно я участвовал в корпоративном хакатоне по обходу ИИ-песочниц. Задача: пройти закрытый бенчмарк PAC1 , где ИИ-агенту нужно работать с виртуальной файловой системой (чтение логов, поиск файлов, отправка писем) и обходить ловушки безопасности (Indirect Prompt Injections). Но реальность оказалась суровой: хваленые reasoning-модели постоянно галлюцинировали, ломали структуру JSON на выходе (выдавая свои "мысли" вместо чистого ответа) и просто сжигали бюджет на API, зацикливаясь на одной ошибке. Потратив часть бюджета впустую, я решил: если ИИ не справляется, мы заменим его на старый добрый хардкод . Так родился концепт Zero-Cost Agent — алгоритмического лома, который симулирует поведение нейросети.

https://habr.com/ru/articles/1016442/

#LLM #ИИагенты #Red_Teaming #prompt_injection #Python #парсинг #хакатон #уязвимости_ИИ #json

Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей

Хабр

Habr Mar 18

Как Claude Opus 4.6 спас кандидата от провала: скрытые тесты в PDF и новые правила найма

Работодатель спрятал в PDF с тестовым заданием скрытую инструкцию для ИИ. Claude Opus 4.6 не только отказался ее выполнять, но и предупредил кандидата о ловушке. Разбираемся, как устроена гонка вооружений между HR и соискателями в эпоху LLM . И главное, как проверять такие документы перед работой.

https://habr.com/ru/articles/1011778/

#opus_46 #claude #prompt_injection #llm #безопасность #ai_security #anthropic #найм_сотрудников #искусственный_интеллект #нейросети

Как Claude Opus 4.6 спас кандидата от провала: скрытые тесты в PDF и новые правила найма

сгенерировала в Nano Banana 2, она в последнее время лучше Pro справляется Недавно на Reddit завирусилась история , которая отлично иллюстрирует, как изменились правила игры на рынке труда в эпоху ИИ....

Хабр