メインコンテンツまでスキップ

AI エージェントが 5億5000万ドル のスマートコントラクトを悪用 — 1 攻撃あたりわずか 1.22 ドル のコスト

· 約 13 分
Dora Noda
Software Engineer

わずか 1.22 ドル — コーヒー 1 杯の価格よりも安いコストで、AI エージェントがスマートコントラクトをスキャンし、脆弱性を特定し、実行可能なエクスプロイトを生成できるようになりました。これはセキュリティのホワイトペーパーにある理論上のシナリオではありません。2025 年後半に Anthropic と MATS Fellows の研究者によって公開された、AI エージェントの実際のスマートコントラクトに対する攻撃能力を評価する初のベンチマーク「SCONE-bench」の測定結果です。2020 年から 2025 年の間に実際に攻撃を受けた 405 件のコントラクトにおいて、10 個の最先端 AI モデルが合計で 207 件の即時実行可能なエクスプロイトを生成し、シミュレーション上で 5 億 5,010 万ドルの盗難資金を生み出しました。

この影響は研究室の枠を遥かに超えています。DeFi(分散型金融)プロトコル全体では、1,000 億ドル以上の TVL(預かり資産)が保持されています。もし攻撃能力が 1.3 ヶ月ごとに倍増し続けるならば(Anthropic のデータが示す軌跡)、オンチェーン金融を支えるセキュリティの前提は転換点を迎えようとしています。

SCONE-bench の内側:初のドル建てエクスプロイト・ベンチマーク

従来のスマートコントラクトのセキュリティベンチマークは、AI がリエントランシー、オラクル操作、アクセス制御の欠陥といった脆弱性のカテゴリを検出できるかどうかを測定していました。しかし、SCONE-bench は根本的に異なるアプローチを採用しています。

DefiHackLabs リポジトリを基に構築されたこのベンチマークには、2020 年から 2025 年の間に「実際に」攻撃を受けた Ethereum、BNB Smart Chain、Base 上の 405 件のコントラクトが含まれています。各テストは Docker コンテナ内で実行され、元の攻撃が発生した正確なブロック番号でフォークされたローカルブロックチェーンを使用することで、再現可能な条件を保証しています。

このベンチマークは、モデルにバグの種類を分類させるのではなく、資金を盗むことを要求します。

エージェントは Model Context Protocol (MCP) を通じてサンドボックス環境と対話し、コントラクトのソースコードの読み取り、オンチェーン状態のクエリ、トランザクションの送信といったツールにアクセスします。評価指標は単純明快で、シミュレーションで盗まれた資金の総額(ドル)です。このドル建てのスコアリングシステムにより、結果を現実世界のエクスプロイト・エコノミクスと直接比較できるようになります。

研究者が Claude Opus 4.5、Claude Sonnet 4.5、GPT-5 を含む 10 の主要な AI モデルを投入したところ、その結果は深刻なものでした。これらのモデルは合計でベンチマーク対象となったコントラクトの 51.11% を攻撃することに成功しました。

Claude Opus 4.5 単体でも、自身の知識カットオフである 2025 年 3 月以降に侵害された 17 件のコントラクトを攻撃し、シミュレーション価値で 450 万ドルを記録しました。Claude Sonnet 4.5 や GPT-5 と合わせると、カットオフ後のエクスプロイト額は 460 万ドルに達しました。これは、これらのモデルがトレーニング中に一度も見ることのなかった脆弱性を発見し、悪用できることを証明しています。

すべてのプロトコルが警戒すべき 1.22 ドルの攻撃エコノミクス

AI を活用したエクスプロイトの経済性は、臨界点を超えました。最近デプロイされた 2,849 件の BNB Smart Chain コントラクトに対して GPT-5 をテストしたところ、総コストは 3,476 ドル、1 コントラクトあたり平均 1.22 ドルでした。この価格帯であれば、攻撃者は主要なチェーンにデプロイされるすべての新しいコントラクトを、わずかな小銭でスキャンできてしまいます。

効率の向上は加速しています。Claude モデルの 4 つの世代を分析した結果、Anthropic は成功するエクスプロイトを生成するために必要なトークン数の中央値が 70.2% 減少したことを発見しました。実務的な観点では、攻撃者は 6 ヶ月前と同じ計算予算で 3.4 倍のエクスプロイトを成功させることができるようになっています。

おそらく最も驚くべき点は、研究者が GPT-5 と Claude Sonnet 4.5 を、既知の脆弱性がない 2,849 件の新規デプロイ・コントラクトに向けた際、両方のエージェントが独立して 2 つの未知のゼロデイ・バグを発見し、対応する攻撃戦略を生成したことです。

それらのゼロデイ攻撃による潜在的なエクスプロイト額は 3,694 ドルでした。DeFi の基準からすれば少額ですが、その原理は極めて重要です。AI エージェントは単に既知の攻撃を再現しているのではなく、斬新な攻撃方法を見つけ出しているのです。

過去 1 年間、2025 年のベンチマーク問題のサブセットにおける潜在的なエクスプロイト収益は、約 1.3 ヶ月ごとに倍増しました。この軌跡が続くなら、コントラクトのデプロイから AI がそれを破るまでの猶予期間は急速に短縮されています。

ベンチマークから現実へ:Moonwell 事件

研究ベンチマークから現実世界の災厄への架け橋は、2026 年 2 月 17 日に現実のものとなりました。DeFi レンディングプロトコルの Moonwell が、約 178 万ドルの損失をもたらしたセキュリティ侵害を公表したのです。この脆弱性は、AI が生成したコード(具体的には Claude Opus 4.6 と共同作成したコード)におけるオラクルの誤設定に端を発していました。

その技術的なミスは、一見すると非常に単純なものでした。AI が生成したコードは、cbETH/ETH の交換レートに ETH/USD の価格フィードを掛けるべきところを、生の交換比率をそのままドル建ての価格として使用してしまったのです。その結果、本来 2,200 ドル近い価値があるはずの cbETH が約 1.12 ドルと評価され、連鎖的な強制ロスカットを引き起こしました。

Moonwell の事件は、人間の監視を最小限にして AI 生成コードに大きく依存する開発手法である「バイブ・コーディング(vibe coding)」に直接起因する最初の重大な DeFi エクスプロイトとして広く議論されています。これは二重の脅威を浮き彫りにしています。AI モデルは既存のコントラクトの脆弱性を見つける能力が向上していると同時に、開発において不注意に使用されると、新たな脆弱性を生み出してしまうのです。

防御の軍拡競争:AI は単なる剣ではなく盾となる

セキュリティコミュニティも手をこまねいているわけではありません。2026 年 2 月、スマートコントラクトセキュリティ企業の Cecuro は、特化した AI セキュリティエージェントが、実際に悪用された 90 件の DeFi コントラクト(悪用額 9,680 万ドル相当)のうち 92% で脆弱性を検出したというベンチマークを公開しました。対照的に、同じ基礎モデルで動作するベースラインの GPT-5.1 コーディングエージェントは、750 万ドル相当の脆弱性の 34% しか検出できませんでした。この差は AI の生の能力によるものではなく、その上に重ねられたドメイン固有のセキュリティ手法によるものでした。

OpenAI と Paradigm は共同で、40 件の専門的な監査から抽出された 120 件の厳選された脆弱性で構成されるテストフレームワーク「EVMbench」を立ち上げました。AI がスマートコントラクトをどの程度理解し保護できるかを測定するために設計された EVMbench は、公開監査コンペティションや Paradigm 独自の Tempo 監査プロセスから情報を得ており、防御的な AI 能力を評価するための標準化された方法を提供します。

Anthropic 自体も SCONE-bench をオープンソース化しました。その理由は、攻撃者がすでに独自の悪用ツールを構築するための強力な経済的動機を持っていると考えたからです。防御的なベンチマークを公開しないことは、正当なセキュリティ研究者の妨げになるだけです。悪用ベンチマークを公開することで、同社はセキュリティエコシステム全体がテスト、反復、そしてより強力な防御を構築できるようにすることを目指しています。

新たなパターンは明確です。汎用 AI モデルはスマートコントラクトに向けられると危険ですが、ドメイン知識、形式検証の知識、セキュリティ専用のツールで訓練された 特化した セキュリティエージェントは、防御面において汎用モデルを大幅に上回ります。この競争は、新しいモデル世代ごとに自動的に向上する攻撃能力と、慎重かつ専門家主導のエンジニアリングを必要とする防御能力との間で行われています。

プロトコルチームが今すぐ行うべきこと

SCONE-bench の結果と Moonwell のインシデントは、スマートコントラクトセキュリティがどこに向かっているのかを明確に示しています。いくつかの防御戦略は、交渉の余地のない必須事項になりつつあります。

  • AI を活用した継続的な監査: モデルのリリースごとに進化する脅威に対して、静的で一度限りの監査では不十分です。プロトコルには、攻撃能力の向上ペースに合わせた継続的な AI セキュリティ監視が必要です。
  • AI 生成コードの多層検証: Moonwell の悪用事例は、AI が作成した Solidity コードには人間が書いたコードと同等、あるいはそれ以上の精査が必要であることを示しています。資産の価格設定に関わるすべてのコードパスにおいて、自動化されたオラクル検証、形式検証、敵対的テストを標準とするべきです。
  • 攻撃コストの経済モデリング: コントラクトスキャン 1 回あたり 1.22 ドルというコストにより、攻撃のコストは現在、ほとんどのバグバウンティプログラムがカバーする最小しきい値を大きく下回っています。プロトコルはセキュリティ経済を再評価し、バウンティの価値と保険の適用範囲が新しいコスト構造を反映していることを確認する必要があります。
  • 敵対的ベンチマーキング: チームはデプロイ前に SCONE-bench や同様のフレームワークでコントラクトを実行し、AI を活用した悪用テストを標準的なデプロイパイプラインの一部として扱う必要があります。
  • 特化したエージェントによる多層防御: 汎用 AI は、目的別に構築されたセキュリティエージェントの代わりにはなりません。Cecuro の特化型システムの 92% という検出率に対し、ベースラインの GPT-5.1 が 34% であったことは、ドメイン固有のセキュリティツールの重要性を強調しています。

オンチェーンセキュリティの転換点

データは明白です。スマートコントラクトに対する AI の悪用能力は指数関数的に成長しており、攻撃 1 回あたりのコストがモデルの世代ごとに低下する一方で、収益の可能性は 1.3 か月ごとに倍増しています。今日シミュレーションで悪用された 5.5 億ドルは、防御策が追いつかなければ、明日メインネットで何が起こり得るかを予兆しています。

しかし、悪用を可能にするのと同じ AI 能力が、業界がこれまで手にしてきた中で最も強力な防御ツールを動かしているのも事実です。問題は、AI がスマートコントラクトのセキュリティを再構築するかどうかではありません。それはすでに起こっています。問題は、1,000 億ドルを超えるオンチェーン資産をデプロイしているビルダー、監査人、プロトコルが、攻撃者が AI を活用した攻撃を取り入れているのと同じ緊急性を持って、AI を活用した防御を取り入れるかどうかです。

1.3 か月という倍増ペースは、楽観視する余地をほとんど残していません。

BlockEden.xyz は、20 以上のネットワークにわたってエンタープライズグレードのブロックチェーン API インフラストラクチャを提供し、開発者が信頼性の高いノードアクセスによって安全な基盤の上で構築できるよう支援します。API マーケットプレイスを探索して、永続的なインフラストラクチャで dApp を強化しましょう。