AI 에이전트, 스마트 컨트랙트 공격 72% 성공, EVMbench가 보여준 역설

OpenAI와 Paradigm이 공개한 EVMbench. AI 에이전트가 스마트 컨트랙트를 공격하는 능력이 방어보다 뛰어나다는 역설적 결과와 그 의미를 소개합니다.

https://aisparkup.com/posts/9578

The Paypers (@ThePaypers)

@OpenAI와 @paradigm이 공동으로 스마트 계약 보안 평가를 위한 AI 에이전트 벤치마크 도구 ‘EVMbench’를 공개했습니다. 이 도구는 120개의 사례를 통해 취약점 탐지, 수정, 악용 능력을 테스트하도록 설계되었습니다.

https://x.com/ThePaypers/status/2026084766181703861

#openai #paradigm #evmbench #security #aiagent

The Paypers (@ThePaypers) on X

.@OpenAI 🤝 @paradigm dropped EVMbench, an AI agent benchmark for smart contract security ▶️ tests ability to detect, patch, and exploit vulnerabilities across 120 curated cases. 🗨️ Read more: https://t.co/IiqLU3DlQx

X (formerly Twitter)

Rohan Paul (@rohanpaul_ai)

OpenAI와 Paradigm이 EVMbench라는 AI 기반 스마트 컨트랙트 보안 벤치마크를 공개했다. 수십억~수천억 달러 규모 자산을 다루는 시스템의 스마트 계약 취약성을 평가하기 위한 도구로, 스마트 컨트랙트 보안 검증과 리스크 평가에서 중요한 참고점이 될 가능성이 있다.

https://x.com/rohanpaul_ai/status/2024243320130875423

#openai #paradigm #evmbench #smartcontracts #security

Rohan Paul (@rohanpaul_ai) on X

OpenAI and Paradigm released EVMbench, a benchmark for AI smart contract security in systems that routinely hold $100B+ in assets. A smart contract is like a vending machine program that holds money and follows rules automatically, and if the code has a bug, attackers can

X (formerly Twitter)
EVMbench misst die Sicherheit von Smart Contracts gegen KI-Agenten. GPT-5.3-Codex erreicht 72,2% Erfolgsquote beim Exploit, scheitert aber oft an der reinen Detektion im Quellcode. Interessant: Mit expliziten Hinweisen auf den Fehlerort steigt die Reparaturquote auf fast 94%. Die Architektur des Agenten wiegt hier schwerer als reine Modellgröße. #EVMbench #OpenAI #SmartContract
https://www.all-ai.de/news/beitrage2026/ki-agenten-evmbench
KI-Agenten knacken komplexe Blockchain-Lücken völlig autonom

Ein neuer Härtetest (EVMbench) zeigt, wie präzise aktuelle Sprachmodelle Fehler in Smart Contracts aufspüren und sogar selbstständig angreifen.

All-AI.de

OpenAI (@OpenAI)

EVMbench라는 새로운 벤치마크를 소개합니다. 이 벤치마크는 AI 에이전트가 스마트 컨트랙트의 고심각도 취약점을 얼마나 잘 탐지하고, 악용하며, 패치하는지를 측정하도록 설계되어 스마트컨트랙트 보안과 에이전트 성능 평가에 직접적으로 활용될 수 있습니다.

https://x.com/OpenAI/status/2024193883748651102

#evmbench #smartcontracts #security #benchmark #aiagents

OpenAI (@OpenAI) on X

Introducing EVMbench—a new benchmark that measures how well AI agents can detect, exploit, and patch high-severity smart contract vulnerabilities. https://t.co/op5zufgAGH

X (formerly Twitter)