AI 에이전트, 이제 DeFi 취약점 92% 탐지 — 하지만 취약점 생성도 가능해졌다

2026년 4월 2일 · 약 8 분

Software Engineer

특수 목적용 AI 에이전트가 9,680만 달러 규모의 디파이(DeFi) 손실 배후에 있는 취약점을 발견했습니다. 이는 범용 GPT-5.1 에이전트가 90개 컨트랙트 중 58개에서 놓쳤던 익스플로잇을 잡아낸 것입니다. 한편, OpenAI와 Paradigm의 EVMbench 벤치마크에 따르면 프론티어 모델은 이제 알려진 스마트 컨트랙트 결함의 71%에 대해 작동 가능한 익스플로잇을 생성할 수 있습니다. 디파이 프로토콜을 보호하는 기술이 동시에 공격 수단이 될 수도 있으며, 이 군비 경쟁은 대부분의 팀이 인지하는 것보다 빠르게 가속화되고 있습니다.

보안 감사가 계속해서 놓치고 있는 34억 달러 규모의 문제

체이널리시스(Chainalysis)에 따르면 2025년 암호화폐 도난 규모는 34억 달러에 달했습니다. 불편한 진실은 익스플로잇된 많은 컨트랙트가 이미 전문 보안 감사를 통과했다는 점입니다. Bybit 해킹만으로도 14억 달러의 손실이 발생했으며, Cetus(2억 2,300만 달러)와 Balancer(1억 2,800만 달러) 같은 프로토콜들도 확립된 보안 관행에도 불구하고 침해 사고를 겪었습니다.

문제는 감사관들이 무능하기 때문이 아닙니다. 인간 검토자들이 불가능에 가까운 확장성 문제에 직면해 있기 때문입니다. 디파이의 총 예치 자산(TVL)은 1,190억 달러를 넘어섰고, 코드 복잡성은 증가하고 있으며, 새로운 프로토콜이 배포될 때마다 공격 표면은 확장됩니다. 복잡한 프로토콜을 검토하는 단일 감사관은 수십 개의 컨트랙트 간 상호작용을 분석하는 데 수주를 보낼 수 있지만, 결단력 있는 공격자가 찾아내는 단 하나의 예외 케이스를 여전히 놓칠 수 있습니다.

이것이 바로 현재 AI 보안 에이전트가 메우고 있는 간극이며, 초기 벤치마크 결과는 스마트 컨트랙트 보안 작동 방식의 근본적인 변화를 시사합니다.

Cecuro의 92% 탐지율: 수치가 실제로 의미하는 것

2026년 2월, AI 보안 기업인 Cecuro는 2024년 10월부터 2026년 초 사이에 익스플로잇된 90개의 실제 디파이 컨트랙트를 대상으로 특수 목적 보안 에이전트를 테스트한 오픈 소스 벤치마크를 발표했습니다. 결과는 놀라웠습니다.

Cecuro의 전문 에이전트는 **익스플로잇된 컨트랙트의 92%**에서 취약점을 찾아내어, 확인된 손실액 9,680만 달러와 연관된 결함들을 식별했습니다. 이에 비해 GPT-5.1 기반의 기본 코딩 에이전트는 **취약점의 34%**만을 탐지했으며, 손실액 기준으로는 750만 달러에 불과했습니다.

2.7배의 성능 격차는 단순히 숫자 게임이 아닙니다. 이는 스마트 컨트랙트 보안에 적용될 때 범용 AI가 보이는 세 가지 결정적인 실패 모드를 드러냅니다.

1. 검증 가능한 피드백의 부재. 범용 모델은 그럴듯한 분석을 내놓지만, 탐지된 "취약점"이 실제로 실행 가능한지 확인하는 메커니즘이 없습니다. Cecuro의 에이전트는 발견된 내용을 실제 실행 환경에서 검증하는 도메인 특화 테스트 프레임워크를 통합합니다.

2. 불충분한 체계적 커버리지. 컨트랙트를 분석하는 GPT-5.1 에이전트는 첫 번째 중요한 문제를 식별한 후 중단되는 경우가 많습니다. Cecuro의 에이전트는 액세스 제어 분석, 상태 조작 확인, 컨트랙트 간 상호작용 검토 등 구조화된 검토 단계를 구현하여 포괄적인 커버리지를 보장합니다.

3. 컨텍스트 포화. 복잡한 디파이 프로토콜은 상호 연결된 여러 컨트랙트, 외부 오라클 의존성 및 거버넌스 메커니즘을 포함합니다. 범용 모델은 컨텍스트 제한에 부딪혀 조급한 결론을 내리기 시작합니다. 특수 목적 에이전트는 디파이 전용 휴리스틱을 사용하여 어떤 상호작용이 가장 중요한지 우선순위를 정합니다.

Cecuro는 데이터셋과 평가 프레임워크를 GitHub에 오픈 소스로 공개하는 한편, 공격적 오용을 방지하기 위해 전체 보안 에이전트 소스는 공개하지 않았습니다. 이는 툴의 무기화 없이 업계가 주장을 검증할 수 있도록 하는 책임 있는 공개 방식입니다.

EVMbench: OpenAI와 Paradigm이 측정한 AI 보안 프론티어

Cecuro의 벤치마크뿐만 아니라 2026년 초에는 또 다른 중요한 평가 지표가 발표되었습니다. 2월에 OpenAI와 Paradigm은 스마트 컨트랙트 보안의 세 가지 차원(취약점 탐지, 결함 코드 패치, 알려진 약점 공격)에서 AI 에이전트를 평가하는 EVMbench를 공동 발표했습니다.

EVMbench는 주로 공개 코드 감사 대회에서 추출된 40개 감사 사례의 117개 취약점을 활용합니다. 결과는 정교한 양상을 보여줍니다.

익스플로잇 생성: Codex CLI를 통해 실행되는 GPT-5.3-Codex는 **71.0%**를 달성하여, 알려진 취약점의 거의 4분의 3에 대해 작동하는 익스플로잇을 생성했습니다. 이는 GPT-5의 33.3%에 비해 비약적인 향상이며, 모델 세대가 거듭될수록 익스플로잇 능력이 빠르게 확장되고 있음을 시사합니다.
탐지: 에이전트들은 코드베이스 전체를 철저히 감사하기보다는 단일 문제를 식별한 후 중단하는 경우가 많아, 중요한 취약점들을 발견하지 못한 채 남겨두었습니다.
패치: 미세한 취약점을 제거하면서 전체 컨트랙트 기능을 유지하는 것은 어려운 과제로 입증되었습니다. 에이전트들은 종종 기존 버그를 수정하면서 새로운 버그를 도입하기도 했습니다.

이러한 비대칭성은 시사하는 바가 큽니다. AI에게는 무언가를 고치는 것보다 파괴하는 것이 더 쉽습니다. 이는 사이버 보안의 근본적인 역학을 반영하지만, AI 에이전트의 경우 그 격차가 전례 없는 속도로 벌어지고 있습니다.

이미 시작된 공수 군비 경쟁

Anthropic의 연구 팀은 프론티어 AI 모델이 이제 스마트 컨트랙트에서 새로운 제로데이 취약점을 자율적으로 발견하고 공격할 수 있다는 연구 결과를 발표했습니다. 모델의 지식 컷오프 시점인 2025년 3월 이후에 익스플로잇된 컨트랙트를 대상으로 테스트했을 때, Claude Opus 4.5와 GPT-5 같은 모델들은 시뮬레이션된 손실액 기준 460만 달러 규모의 익스플로잇을 공동으로 생성해냈습니다.

더욱 놀라운 점은 Claude Sonnet 4.5와 GPT-5 모두 두 개의 새로운 제로데이 취약점을 발견했으며, 이에 따른 익스플로잇 가치는 3,694달러에 달했다는 점입니다. 이는 수익성 있는 자율 익스플로잇이 기술적으로 가능하다는 증거입니다. 비용은 어떨까요? 컨트랙트 스캔당 단 1.22달러였으며, 식별된 성공적인 제로데이당 109달러의 순이익을 기록했습니다.

지난 1년 동안 프론티어 모델의 익스플로잇 수익은 약 1.3개월마다 두 배씩 증가했습니다. 이제 수백 달러의 컴퓨팅 예산을 가진 사이버 범죄자는 AI 에이전트를 수천 개의 컨트랙트에 투입하여 취약점을 스캔하고, 단 한 줄의 코드도 작성하지 않고 작동하는 익스플로잇을 생성할 수 있습니다.

이는 시급한 과제를 던져줍니다. 만약 AI 기반의 공격자가 전체 디파이 생태계를 저렴하고 자율적으로 스캔할 수 있다면, 방어자 역시 그에 상응하는 능력을 갖춘 AI 도구를 지속적으로 가동해야 합니다. 배포 전 일회성 감사라는 전통적인 모델은 이제 더 이상 충분하지 않습니다.

특화 모델 vs. 범용 모델 : 전문화가 승리하는 이유

Cecuro 벤치마크는 AI 보안 전반에서 나타나는 패턴을 강조합니다 . 도메인 특화 최적화는 범용 모델에 비해 2 - 3배의 성능 향상을 제공합니다 . 이는 스마트 컨트랙트에만 국한된 것이 아닙니다 . 의료 영상 , 법률 분석 , 코드 리뷰에서도 유사한 역학이 작용하지만 , DeFi에서의 리스크는 생존과 직결됩니다 .

특화된 보안 에이전트가 범용 모델보다 우수한 성능을 보이는 몇 가지 요인은 다음과 같습니다 .

학습 데이터 큐레이션 . Cecuro의 에이전트는 단순한 코드 완성 작업이 아니라 검증된 취약점 공격 ( exploit ) 데이터셋으로 학습되었습니다 . 이 에이전트는 재진입 공격 ( reentrancy attacks ), 오라클 조작 ( oracle manipulation ), 플래시 론 취약점 공격 ( flash loan exploits ), 권한 상승 ( privilege escalation ) 으로 이어지는 특정 패턴을 추상적인 개념이 아니라 알려진 공격 경로를 가진 구체적인 코드 패턴으로 이해합니다 .

구조화된 검토 방법론 . 자유 형식의 분석 대신 , 특화된 에이전트는 Trail of Bits , OpenZeppelin , Certora와 같은 기업들이 사용하는 것과 유사한 체계적인 감사 방법론을 구현합니다 . 각 검토 단계는 적절한 깊이로 특정 취약점 카테고리를 다룹니다 .

실행 환경 통합 . 특화된 에이전트는 메인넷 상태를 포크하고 , 테스트 컨트랙트를 배포하며 , 시뮬레이션 환경에서 공격을 검증할 수 있습니다 . 범용 모델은 코드를 정적으로 분석하므로 , 런타임에서만 나타나는 동적 상호작용을 놓치게 됩니다 .

경쟁 환경은 빠르게 진화하고 있습니다 . Nethermind의 AuditAgent는 UBS 및 LUKSO와의 사례 연구에 도입되었습니다 . Consensys Diligence는 AI 에이전트와 인간 전문가의 가이드를 결합한 Chonky를 출시했습니다 . Sherlock과 Veritas Protocol은 자동화된 스크리닝 도구를 제공합니다 . 업계 전반에 걸쳐 형성되고 있는 컨센서스는 다음과 같습니다 . AI 스크리닝과 인간의 전문성을 결합한 하이브리드 접근 방식은 취약점의 95 % 이상을 포착하는 반면 , 수동 전용 감사는 60 - 70 %, AI 전용 감사는 70 - 85 % 에 그칩니다 .

DeFi 프로토콜 팀에 주는 시사점

DeFi 스마트 컨트랙트를 배포하거나 유지 관리하는 팀에 주는 시사점은 상당합니다 .

지속적인 모니터링이 필수적입니다 . 일회성 배포 전 감사는 필요하지만 충분하지 않습니다 . 취약점을 24 / 7 스캔하고 , 위협이 탐지될 때 컨트랙트를 일시 중지할 수 있는 모니터링 시스템과 통합된 AI 에이전트가 표준 인프라가 될 것입니다 .

감사 비용이 압축되고 있습니다 . AI 지원 감사는 이미 순수 수동 검토보다 10배 빠릅니다 . 특화된 도구가 성숙해짐에 따라 , 이전에는 최고 수준의 감사 비용을 감당할 수 없었던 소규모 프로토콜도 포괄적인 보안 스크리닝을 이용할 수 있게 될 것입니다 .

방어자의 이점은 분명 존재하지만 , 시간은 제한적입니다 . 현재 특화된 보안 에이전트는 방어 측면에서 범용 AI보다 우수한 성능을 보입니다 . 하지만 프런티어 모델의 공격 능력 향상 속도 ( 1.3개월마다 두 배 ) 를 고려할 때 , 방어 인프라를 구축할 수 있는 기회의 창은 닫히고 있습니다 .

오픈 벤치마크는 분야 전체의 발전을 가속화합니다 . Cecuro의 오픈 소스 데이터셋과 OpenAI / Paradigm의 EVMbench 모두 모든 팀이 실제 취약점 공격에 대해 보안 도구를 평가하고 개선할 수 있게 해줍니다 . 이러한 벤치마크를 통해 방어력을 테스트하지 않는 프로토콜은 뒤처지게 됩니다 .

미래 전망 : 인프라로서의 AI 감사 도구

스마트 컨트랙트는 일상적으로 1,000억 달러 이상의 오픈 소스 암호화 자산을 보호하고 있습니다 . AI 공격 능력과 AI 방어 능력의 수렴은 보안 환경을 정기적인 컨설팅 업무에서 지속적인 인프라 요구 사항으로 재편하고 있습니다 .

Cecuro 벤치마크 , EVMbench , 그리고 Anthropic의 공격 연구 데이터는 모두 동일한 결론을 가리킵니다 . 스마트 컨트랙트 보안의 미래는 인간이나 AI 중 하나가 아니라 , DeFi를 도메인 특화 수준에서 이해하는 특화된 보안 에이전트를 실행하는 인간 주도의 AI 시스템입니다 .

AI 감사를 ' 있으면 좋은 것 ' 정도로 취급하는 팀은 이를 ' 표준 운영 절차 ' 로 취급하는 공격자들에 맞서 자신을 방어해야 하는 상황에 점점 더 직면하게 될 것입니다 . DeFi 보안에서 비대칭성은 항상 공격자에게 유리했습니다 . 특화된 AI 에이전트는 공격 측면이 완전히 성숙하기 전에 업계가 이를 도입한다면 , 그 방정식을 뒤집을 수 있는 잠재력을 가진 첫 번째 기술입니다 .

BlockEden.xyz는 DeFi 프로토콜과 보안 팀이 실시간 온체인 데이터 액세스를 위해 의존하는 강력한 블록체인 API 인프라를 제공합니다 . 이는 AI 기반 보안이 요구하는 지속적인 모니터링과 위협 탐지에 필수적입니다 . DeFi 보안에 필요한 속도와 신뢰성을 위해 설계된 인프라에서 구축을 시작하려면 API 마켓플레이스를 살펴보세요 .

Share on Twitter

API Marketplace Featured

보안 감사가 계속해서 놓치고 있는 34억 달러 규모의 문제​

Cecuro의 92% 탐지율: 수치가 실제로 의미하는 것​

EVMbench: OpenAI와 Paradigm이 측정한 AI 보안 프론티어​

이미 시작된 공수 군비 경쟁​

특화 모델 vs. 범용 모델 : 전문화가 승리하는 이유​

DeFi 프로토콜 팀에 주는 시사점​

미래 전망 : 인프라로서의 AI 감사 도구​