1.22달러 해킹: Ledger CTO가 말하는 AI의 암호화폐 보안 경제학 붕괴

2026년 5월 7일 · 약 12 분

Software Engineer

이제 작동 가능한 스마트 계약 익스플로잇을 생성하는 데 드는 API 크레딧 비용은 약 1.22달러에 불과합니다. 2025년 말 Anthropic의 레드팀이 제시하고, 공격당 최대 859만 달러를 탈취한 학계의 익스플로잇 생성 도구가 입증한 이 수치는 2026년 4월 5일 Ledger의 CTO 샤를 길레메(Charles Guillemet)가 경고한 내용의 배경이 됩니다. 인공지능은 암호학을 무너뜨리는 것이 아니라, 암호화폐 보안의 경제성을 무너뜨리고 있습니다. 업계의 전통적인 방어 체계는 이러한 환경에 맞춰 가격이 책정된 적이 없습니다.

2024년이 AI가 개발자의 코드 배포 방식을 바꾼 해였다면, 2026년은 AI가 공격자의 익스플로잇 배포 방식을 바꾼 해입니다. 비대칭성이 너무나 빠르게 뒤집힌 나머지, 하드웨어 지갑을 만드는 데 10년을 보낸 기업들조차 이제 신뢰 모델 전체를 다시 작성해야 하는 것은 아닌지 자문하고 있습니다.

길레메가 실제로 언급한 내용

4월 초 공개 석상에서 Ledger의 최고 기술 책임자이자 오랜 기간 하드웨어 보안 연구자로 활동해 온 길레메는 불편한 가설을 제시했습니다. 대규모 언어 모델(LLM)이 낯선 솔리디티(Solidity) 코드를 읽고, 상태 머신에 대해 추론하며, 그럴듯한 익스플로잇 트랜잭션을 생성하고, 성공할 때까지 온체인 포크에 대해 반복 작업을 수행하는 등 공격자의 업무 중 가장 어려운 부분을 수행할 만큼 유능해졌기 때문에 암호화폐 공격 비용 곡선이 붕괴되고 있다는 것입니다.

그의 관점은 철저히 경제적이었습니다. 암호학 자체가 2024년보다 약해진 것은 아닙니다. 해시 함수는 여전히 작동하고 타원 곡선 암호도 건재합니다. 달라진 점은 성공적인 공격 뒤에 숨겨진 노동력 투입, 즉 수석 오디터의 통찰력이나 수개월 간의 끈기 있는 리버스 엔지니어링이 이제는 Anthropic이나 OpenAI의 인보이스 한 장에 담길 정도의 예산 항목으로 압축되었다는 점입니다. 길레메는 리뷰어가 읽을 수 있는 속도보다 개발자가 AI로 생성한 솔리디티 코드를 배포하는 속도가 더 빨라지면서 발생하는 2차적 효과를 지적하며, "설계부터 보안이 취약한 수많은 코드가 생산될 것"이라고 경고했습니다.

Ledger가 집계한 작년 손실액은 직접적인 해킹 및 익스플로잇으로 인해 약 14억 달러에 달하며, 어떤 회계 기준을 따르느냐에 따라 광범위한 스캠 및 사기 합계는 이보다 훨씬 높습니다. Chainalysis는 2025년 총 도난 자금 규모를 34억 달러로 추산했습니다. CoinDesk의 2026년 1월 회고록에서는 스캠 및 사칭 범죄 규모를 최대 170억 달러로 추정했습니다. 어떤 수치를 신뢰하든 추세선은 잘못된 방향을 향하고 있으며, 길레메의 주장은 그 궤적이 이제 AI에 의해 결정되고 있다는 것입니다.

대화의 흐름을 바꾼 Anthropic의 수치

2025년 12월, Anthropic의 레드팀은 2020년에서 2025년 사이에 실제로 익스플로잇된 405개의 스마트 계약을 벤치마킹한 SCONE-bench 결과를 발표했습니다. 주요 통계는 충격적이었습니다. 405개의 문제 전체에서 최신 프런티어 모델들은 그중 207개에 대해 즉시 실행 가능한(turnkey) 익스플로잇을 생성해 냈으며, 이는 51.11%의 성공률로 시뮬레이션된 도난 가치는 총 5억 5,010만 달러에 달했습니다.

더 우려스러운 점은, 알려진 취약점이 없는 2,849개의 최신 배포 계약에 동일한 에이전트를 투입했을 때 Claude Sonnet 4.5와 GPT-5 모두 두 개의 실제 제로데이(zero-day) 취약점을 찾아냈고, 약 3,476달러의 API 비용으로 3,694달러 상당의 작동 가능한 익스플로잇을 생성했다는 점입니다. 이 비율은 서류상으로는 겨우 손익분기점을 맞추는 수준이지만, 제로데이 발견에 반드시 인간 팀이 필요하다는 가정을 무너뜨립니다.

독립적인 학계의 연구도 반대편에서 같은 이야기를 들려줍니다. 2025년 arxiv에 발표되고 2026년 초까지 업데이트된 "A1" 시스템은 모든 LLM을 바이트코드 디스어셈블러, 포크 실행기, 잔액 추적기, 가스 프로파일러, 오라클 스푸퍼, 상태 변이 도구 등 6가지 도메인 특화 도구와 결합하여 대상 계약을 공격합니다. A1은 VERITE 익스플로잇 데이터셋에서 62.96%의 성공률을 기록하며 이전의 퍼징(fuzzing) 기준점(ItyFuzz, 37.03%)을 압도적인 차이로 앞질렀습니다. 시도당 비용은 0.01달러에서 3.59달러 사이였으며, 모델링된 단일 최대 탈취 금액은 859만 달러였습니다.

이것은 이론적인 수치가 아닙니다. 익스플로잇에 투입되는 실제 비용입니다. 그리고 투입 비용이 패스트푸드 한 끼 가격 수준으로 떨어지면, 질문은 "공격자가 이를 감당할 수 있는가"가 아니라 "방어자가 단 하나라도 놓칠 여유가 있는가"로 바뀝니다.

1000:1의 처리량 불일치

오딧(Audit, 보안 감사) 업체들이 여전히 설명하는 데 애를 먹고 있는 부분이 바로 이 지점입니다. 오딧 업체는 프로젝트별로 비용을 청구합니다. 한 번에 하나의 코드베이스를 몇 주에 걸쳐 검토하며, AI 도구를 사용하더라도 사람이 개입된 워크플로우에 결합되어 청구서를 발행해야 합니다. 반면 공격자는 동일한 모델을 임대하여 수천 개의 계약에 병렬로 투입할 수 있으며, 성공했을 때만 비용을 지불하면 됩니다.

2026년 초 'Frontiers in Blockchain'에 발표된 논문은 이 비대칭성을 단 한 문장으로 포착했습니다. 공격자는 약 6,000달러의 가치만 추출해도 이익을 얻는 반면, 방어자의 손익분기점은 60,000달러에 가깝습니다. 이 10배의 격차는 방어가 기술적으로 더 어려워서가 아니라, 방어는 완벽해야 하는 반면 공격은 단 한 번만 성공하면 되기 때문입니다.

여기에 공격자가 스캔할 수 있는 계약 수와 오딧 업체가 검토할 수 있는 계약 수 사이의 1000:1에 달하는 처리량 불일치까지 더하면, 거의 기계적으로 길레메의 결론에 도달하게 됩니다. 어떤 오딧 예산으로도 이 격차를 메울 수 없습니다. 경제학적으로 성립하지 않기 때문입니다.

2026년의 주요 사고가 우리에게 시사하는 점

2026년에 실제로 발생한 해킹 사건들은 표면적으로는 단순히 "AI 익스플로잇" 이야기로만 읽히지 않습니다. 올해 현재까지 발생한 가장 큰 두 건의 손실은 LLM 기반 공격 도구가 더 오래되고 평범한 기술들 위에 계층화되어 있다는 사실을 냉정하게 상기시켜 줍니다.

2026년 4월 1일, Solana 기반의 Drift Protocol은 TRM Labs와 Elliptic 모두 북한의 라자루스 그룹 (Lazarus Group)의 소행으로 지목한 공격으로 인해 TVL의 절반 이상인 2억 8,500만 달러를 잃었습니다. 그 메커니즘은 Solidity 버그가 아닌 사회공학적 기법이었습니다. 공격자들은 수개월 동안 Drift 팀과 관계를 구축한 뒤, Solana의 "듀러블 논스 (durable nonce)" 기능을 악용하여 보안 위원회 (Security Council) 멤버들이 그 효과를 이해하지 못한 트랜잭션에 사전 서명하도록 유도했습니다. 관리자 권한이 탈취되자 공격자들은 가치 없는 토큰 (CVT)을 담보로 화이트리스트에 등록하고, 이를 사용해 실제 USDC, SOL, ETH를 탈취했습니다.

18일 후, Kelp DAO는 LayerZero 기반 브리지를 통해 2억 9,200만 달러의 피해를 입었으며, 이는 현재 2026년 최대 규모의 DeFi 익스플로잇으로 기록되었습니다. 공격자는 LayerZero의 크로스 체인 메시징 레이어를 속여 다른 네트워크로부터 유효한 명령이 도착한 것처럼 꾸몄고, Kelp의 브리지는 공격자가 제어하는 주소로 116,500 rsETH를 성실히 전송했습니다. 대부분의 분석에서 이 역시 라자루스의 소행으로 지목되었습니다.

이것이 AI와 무슨 관련이 있을까요? 두 가지 측면이 있습니다. 첫째, 프로필 매핑, 메시지 톤 맞춤, 타겟의 일정 중 적절한 타이밍 포착 등 롱테일 사회공학적 기법을 가능하게 하는 '정찰 (reconnaissance)'은 바로 LLM이 가장 잘하는 분야입니다. CertiK의 2026년 전망은 이미 피싱, 딥페이크, 공급망 침해를 올해의 주요 공격 벡터로 꼽았으며, 2025년 12월부터 2026년 1월 사이에만 피싱 피해액이 207% 급증했다고 지적했습니다. 둘째, AI는 '병렬' 작전의 장벽을 낮춥니다. 2024년에는 라자루스 급의 팀이 한 번에 몇 개의 캠페인만 운영할 수 있었다면, AI 도구를 사용하면 훨씬 적은 인원으로도 수십 개의 캠페인을 동시에 진행할 수 있습니다.

이러한 공격이 얼마나 세밀해질 수 있는지에 대한 사례가 2026년 4월, 인기 지갑 앱인 Zerion에서 나타났습니다. Zerion은 공격자들이 AI 기반 사회공학적 기법을 사용하여 핫 월렛에서 약 10만 달러를 탈취했다고 밝혔습니다. 2026년 기준으로는 작은 액수이지만, AI가 사칭 스크립트를 생성하고, 가짜 지원 페이지를 만들고, 피싱 이메일을 작성하는 그 기술 자체가 바로 Guillemet이 경고하는 지점입니다.

왜 "감사를 더 강화하라"는 답이 될 수 없는가

업계의 본능적인 반응은 더 많은 감사 (Audit) 자금을 지원하는 것입니다. 하지만 이러한 반응은 문제의 본질을 놓치고 있습니다.

감사는 감사자의 작업 시간에 따라 선형적으로 확장됩니다. 반면 공격은 이제 API 크레딧에 따라 확장됩니다. 설령 모든 티어 1 감사 회사가 내일 당장 인력을 두 배로 늘린다고 해도, 공격 표면은 10배 더 빠르게 확장될 것입니다. API 키와 Solidity에 대한 기본적인 이해만 있다면 누구나 배포된 모든 컨트랙트 환경에서 지속적인 공격 스캔을 수행할 수 있기 때문입니다.

설상가상으로 감사는 특정 시점의 코드를 검토할 뿐입니다. AI가 생성한 코드는 지속적으로 출시되고 있으며, "설계부터 보안에 취약한 (insecure by design)" 상태가 될 것이라는 Guillemet의 경고는 버그 발생률이 낮아지는 것이 아니라 높아지고 있음을 시사합니다. 블록체인 보안 커뮤니티가 인용한 2026년 연구에 따르면, LLM의 도움을 받아 작성된 Solidity 코드는 미세한 재진입성 (reentrancy) 및 접근 제어 오류와 상관관계가 있으며, 기계가 포맷팅한 코드에 피로감을 느낀 인간 검토자들은 인간이 작성한 코드보다 이러한 버그를 더 높은 확률로 놓치는 것으로 나타났습니다.

솔직히 말해 감사는 여전히 필요하지만 그것만으로는 충분하지 않습니다. Guillemet이 추진하고 Anthropic의 레드팀이 공감하는 실제 해답은 구조적인 변화에 있습니다.

생존 가능한 방어 스택

AI로 가속화된 공격에 맞서 합리적으로 확장 가능한 방어 체계는 세 가지 카테고리로 나뉩니다. 이 세 가지 모두 출시 속도에 최적화된 업계 일부에게는 불편한 선택일 수 있습니다.

형식 검증 (Formal verification). Certora, Halmos, 그리고 점차 Move (Sui, Aptos) 및 Cairo (Starknet)에 포함되는 검증 스택들은 정확성을 검토의 문제가 아닌 수학적 문제로 다룹니다. 속성 (property)이 증명되면 아무리 많은 AI 퍼징 (fuzzing)으로도 이를 뚫을 수 없습니다. 트레이드오프는 엔지니어링 리소스입니다. 의미 있는 불변량 (invariant)을 작성하는 것은 어렵고 느리며 엄격한 과정입니다. 하지만 이는 방어 비용이 공격자의 컴퓨팅 파워에 따라 늘어나지 않는 몇 안 되는 방어 수단 중 하나입니다.

하드웨어 신뢰 루트 (Hardware roots of trust). Ledger의 제품군이 대표적인 예시이지만, 더 넓게는 보안 엔클레이브 (secure enclaves), MPC 수탁, 그리고 새롭게 등장하는 영지식 증명 프리미티브 (zero-knowledge attestation primitives)를 포함합니다. 원칙은 동일합니다. 트랜잭션 서명이라는 가장 중대한 작업을 LLM 기반 피싱 캠페인이 도달할 수 없는 하부 계층으로 강제 이동시키는 것입니다. "시스템이 실패할 수 있고 실패할 것임을 가정하라"는 Guillemet의 프레임워크는 본질적으로 서명 권한을 범용 컴퓨터 밖으로 옮겨야 한다는 주장입니다.

AI 대 AI 방어 (AI-on-AI defense). Anthropic의 2025년 12월 논문은 익스플로잇을 생성할 수 있는 에이전트가 패치 생성에도 투입되어야 한다고 주장합니다. 실무적으로 이는 멤풀 (mempools), 배포된 컨트랙트, 관리자 키 활동을 AI 기반으로 지속적으로 모니터링하여 전통적인 은행의 부정 거래 탐지 시스템처럼 이상 징후를 찾아내는 것을 의미합니다. 경제적 효율성은 완벽하지 않지만 (방어 비용이 여전히 공격 비용보다 높음), 적어도 양측을 동일한 컴퓨팅 곡선 위에 올려놓을 수 있습니다.

이세 가지 접근 방식의 공통된 패턴은 보안의 '빠른' 부분에 대해 더 이상 인간의 개입에 의존하지 않고, 인간의 판단력은 느리고 비용이 많이 들지만 구조적인 부분에 집중하도록 보존하는 것입니다.

현재 빌더들에게 이것이 의미하는 바

2026년에 제품을 출시하는 팀들에게 있어, Guillemet의 경고는 몇 가지 구체적인 변화로 이어집니다:

AI가 생성한 코드는 기본적으로 신뢰할 수 없는 것으로 간주하십시오. 코드가 아무리 깔끔해 보이더라도 메인넷 (mainnet) 에 배포하기 전에 정형 검증 (formal verification) 이나 속성 기반 테스트 (property-based testing) 를 거쳐야 합니다.
관리자 키를 하드웨어 보안 장치로 옮기십시오. 핫 사이너 (hot signer) 를 포함한 멀티시그 (multi-sig) 는 더 이상 트레저리 (treasury) 등급의 컨트랙트에 허용되는 보안 태세가 아닙니다. Drift 사건은 "신뢰할 수 있는" 팀원조차 파괴적인 트랜잭션에 사전 서명하도록 사회공학적 (social engineering) 기법에 당할 수 있음을 증명했습니다.
피싱 공격 표면이 코드 공격 표면보다 크다고 가정하십시오. Zerion 탈취 (10만 달러) 와 전반적인 피싱 사고의 207% 급증은 공격자의 가장 효율적인 비용 투입이 솔리디티 (Solidity) 가 아닌 여전히 인간을 향하고 있음을 시사합니다.
지속적이고 자동화된 모니터링을 위한 예산을 책정하십시오. 주간 감사 (audit) 주기는 SCONE-bench 등급의 도구를 24시간 내내 실행하는 공격자에 대한 방어책이 될 수 없습니다.

이 중 새로운 아이디어는 없습니다. 바뀐 것은 긴급성의 곡선입니다. LLM 이전 시대에는 다른 영역이 강력하다면 이러한 영역 중 하나에서 결함이 발생해도 조직이 살아남을 수 있었습니다. 2026년에는 비용의 비대칭성이 너무 커서 그러한 허점을 용납할 수 없습니다.

정직한 분석

Guillemet의 경고를 하드웨어 지갑 벤더인 Ledger가 자사 제품을 홍보하기 위한 주장으로 치부하고 싶은 유혹이 생길 수 있습니다. 하지만 그렇게 해석하는 것은 실수일 것입니다. Anthropic의 레드팀, A1 및 SCONE-bench를 개발한 학술 그룹, CertiK의 2026년 전망, 그리고 매달 발생하는 해킹 총액을 추적하는 온체인 분석 업체들이 독립적으로 동일한 주장을 펼치고 있습니다. 업계의 컨센서스는 한 지점으로 모이고 있습니다. 즉, 유능한 익스플로잇 (exploit) 비용이 10배에서 100배가량 낮아졌으며, 방어 스택도 그에 맞춰 진화해야 한다는 점입니다.

진정으로 새로운 점은 이것이 2020년대 초 DeFi 썸머의 감사 수요 급증 이후 블록체인 보안 분야에서 발생한 첫 번째 주요 비대칭적 변화라는 것입니다. 당시의 파동은 감사 법인, 버그 바운티 플랫폼, 정형 검증 스타트업 세대를 만들어냈습니다. 2026년의 파동은 다른 것을 만들어낼 것입니다. 바로 지속적인 AI 모니터링 인프라, 하드웨어 기반 서명의 기본값 설정, 그리고 보안 모델이 여전히 "리뷰 단계에서 잡아낼 수 있다"는 낙관에 의존하는 컨트랙트에 대한 훨씬 더 냉혹한 회의론입니다.

Guillemet이 언급한 1.22 달러라는 수치는 — 비록 그 정확한 수치가 Ledger가 아닌 Anthropic의 연구 결과라 할지라도 — 한 시대의 종말을 알리는 통계입니다. 이 수치가 끝내는 시대는 공격자의 노동력이 병목 현상이었던 시대입니다. 이 수치가 시작하는 시대는 방어자가 아직 자동화하지 못한 것이 무엇이든 그것이 바로 병목 현상이 되는 시대입니다.

BlockEden.xyz는 Sui, Aptos, Ethereum, Solana 및 20개 이상의 기타 네트워크에서 블록체인 RPC 및 인덱싱 인프라를 운영하며, 요청 경로에 AI 지원 이상 징후 모니터링이 내장되어 있습니다. 포스트 LLM 위협 환경에 맞춰 보안 태세를 재구축하고 있다면, 인프라 서비스 탐색을 하거나 문의를 통해 귀하의 프로토콜에 대한 지속적인 모니터링을 논의해 보십시오.

출처

Share on Twitter

API Marketplace Featured

길레메가 실제로 언급한 내용​

대화의 흐름을 바꾼 Anthropic의 수치​

1000:1의 처리량 불일치​

2026년의 주요 사고가 우리에게 시사하는 점​

왜 "감사를 더 강화하라"는 답이 될 수 없는가​

생존 가능한 방어 스택​

현재 빌더들에게 이것이 의미하는 바​

정직한 분석​

출처​