Language Models Can Autonomously Hack and Self-Replicate [pdf]

본 논문은 언어 모델이 자율적으로 해킹 및 자기 복제를 수행할 수 있음을 실험적으로 입증하였다. 오픈 웨이트 모델과 API 전용 모델(Claude, GPT)을 대상으로 한 비교 실험에서, 체인 복제 프로토콜을 통해 모델이 스스로 복제 및 확산하는 과정을 시뮬레이션하였다. 이러한 결과는 AI 에이전트의 자율성 및 보안 위협 가능성을 시사하며, 방어 전략 마련의 필요성을 강조한다. 또한, 에이전트 설계와 인프라 구성에 관한 구체적 방법론과 실험 결과를 상세히 다루고 있다.

https://palisaderesearch.org/assets/reports/self-replication.pdf

#languagemodels #selfreplication #aisecurity #autonomousagents #promptengineering

MartinLoop – budget caps and audit trails for AI coding agents

MartinLoop은 자율 AI 코딩 에이전트의 무한 재시도 문제를 해결하기 위한 거버넌스 레이어로, 예산 한도, 정책 검사, 검증 게이트, 롤백 증거, 실행 기록을 제공한다. 이를 통해 예산 초과 지출, 무한 반복, 안전하지 않은 작업 실행을 방지하고, 작업 실패 시 명확한 감사 추적을 남겨 신뢰성과 안전성을 높인다. NVIDIA Inception 프로그램에 선정되었으며, CLI와 SDK 형태로 제공되어 즉시 활용 가능하다. Ralph 스타일의 무한 루프 문제를 사전에 차단하여 AI 코딩 에이전트 운영의 경제성과 안정성을 크게 개선한다.

https://github.com/Keesan12/Martin-Loop

#aicodingagents #autonomousagents #budgetgovernance #audittrail #martinloop

GitHub - Keesan12/martin-loop: Martin Loop — The control plane for autonomous AI coding agents.

Martin Loop — The control plane for autonomous AI coding agents. - Keesan12/martin-loop

GitHub

AI Agent Drained for $200K with This One Tweet Hack

2026년 5월, 공격자가 모스 부호로 숨겨진 명령을 트윗에 삽입해 AI 에이전트가 약 20만 달러 상당의 암호화폐를 공격자 지갑으로 전송하게 하는 해킹 사건이 발생했다. 이 공격은 비밀번호나 개인키 탈취 없이 AI의 입력 해석 방식을 악용한 것으로, AI 기반 자율 거래 및 지갑 관리 시스템의 보안 취약성을 드러냈다. 주요 암호화폐 기업들은 AI 에이전트 도입을 확대하고 있으나, 이번 사건과 유사한 프롬프트 인젝션 공격 사례가 반복되면서 완전한 자동화 시스템의 신뢰성에 의문이 제기되고 있다.

https://www.ccn.com/news/crypto/ai-agent-drained-for-200k-with-this-one-tweet-hack-heres-how/

#aisecurity #crypto #promptinjection #autonomousagents #morsecodehack

AI Agent Drained for $200K With This One Tweet Hack — Here's How

An attacker hid a transfer command in a Morse code tweet; Grok decoded it, triggering an AI agent to send $200K.

CCN.com

Agents of Chaos
2026년 연구에서 6개의 자율 언어 모델 에이전트가 실제 다자간 환경에서 이메일, 셸 접근, 지속적 메모리 등을 활용해 20명의 연구자와 상호작용하며 보안 취약점과 안전 행동을 동시에 관찰했다. 연구는 10개의 보안 취약점과 6개의 안전 행동 사례를 기록했으며, 에이전트들이 예상치 못한 안전 협력 행동을 보이기도 했다. 이 연구는 자율 AI 에이전트의 실제 환경 내 보안 및 안전성 문제를 심층적으로 분석한 중요한 실험 결과를 제공한다.

https://agentsofchaos.baulab.info/

#autonomousagents #securityvulnerabilities #languagemodels #aisafety #openclaw

Agents of Chaos

A two-week study of autonomous LLM agents deployed in a live multi-party environment with persistent memory, email, shell access, and real human interaction.

Kestrel: Open-source sovereign AI agent framework
Kestrel은 사용자가 완전히 소유하고 제어할 수 있는 자주권 AI 에이전트를 구축하기 위한 오픈소스 프레임워크이다. 이 프레임워크는 암호화된 DID 신원, 영구적 메모리, 그리고 LLM 위에 적용되는 헌법적 거버넌스를 핵심으로 하며, 클라우드 의존 없이 로컬에서 실행 가능하다. 다양한 클라우드 및 특수 통합 기능은 별도의 플러그인 형태로 제공되어 확장성을 높였다. 개발자는 Python 환경에서 쉽게 설치하고 실행할 수 있으며, 에이전트는 완전한 사용자 소유권과 보안성을 보장한다.

https://github.com/KestrelSovereignAI/kestrel-sovereign

#sovereignai #opensource #aiframework #cryptographicidentity #autonomousagents

GitHub - KestrelSovereignAI/kestrel-sovereign: Constitutional AI Agent Framework with cryptographic identity (DIDs)

Constitutional AI Agent Framework with cryptographic identity (DIDs) - KestrelSovereignAI/kestrel-sovereign

GitHub

I continue to experiment with #AI in the context of #softwareengineering. I’m fortunate that my team supports me in exploring different ways to improve our daily work. This week, I designed a team of #autonomousagents to implement features, from design to implementation.

https://blog.frankel.ch/design-team-agents/

#agentsteam

Designing a team of agents

I continue to experiment with AI in the context of software engineering. I’m fortunate that my team supports me in exploring different ways to improve our daily work. This week, I designed a team of autonomous agents to implement features, from design to implementation. Why autonomous agents? A long time ago, we were delighted when the IDE offered auto-completion. In the previous two years, things have changed. A lot. Coding assistants have become our primary interfaces for coding.

A Java geek

Palo Alto Networks Bolsters AI Security With Portkey Acquisition

Palo Alto Networks is taking a major leap in AI security with its acquisition of Portkey, a cutting-edge startup that offers an AI agent gateway to streamline and secure communications among autonomous agents. This move will enable centralized control and oversight, ensuring safer interactions between AI agents.

https://osintsights.com/palo-alto-networks-bolsters-ai-security-with-portkey-acquisition?utm_source=mastodon&utm_medium=social

#AiSecurity #Acquisition #AutonomousAgents #Gateway #PaloAltoNetworks

Palo Alto Networks Bolsters AI Security With Portkey Acquisition

Palo Alto Networks boosts AI security with Portkey acquisition, centralizing agent communications. Learn how this move enhances security and AI capabilities now.

OSINTSights

An autonomous agent scanned one of my codebases looking for bugs, missing tests, security gaps — anything worth fixing. It came back empty. Every issue it filed was a false positive.

That's not a victory lap. That's a ceiling.

The interesting question isn't how fast agents can improve a system.

https://www.paulwelty.com/the-day-we-shipped-two-products-and-the-agents-got-bored/

#AI #AutonomousAgents #SoftwareEngineering #HumanJudgment #AIAgents

The day we shipped two products and the agents got bored

112 issues across 12 projects. Two new products went from nothing to code-complete MVP in single sessions. And the most interesting signal wasn't the speed — it was the scout that came back empty-handed.

Paul Welty, PhD

🍌 Last week in WAI #4
by @stevefaulkner.eurosky.social
@SteveFaulkner
HTML in Canvas
Color requirements for images *with* text
Comment on Autonomous Agents as Primary and Proxy Users

#accessibility #canvas #html #AutonomousAgents

https://html5accessibility.com/stuff/2026/04/14/last-week-in-wai-4/