AI 智能合约审计军备竞赛：专用安全 AI 检测到 92% 的 DeFi 漏洞攻击

2026年3月9日 · 阅读需 9 分钟

Software Engineer

只需每个合约 1.22 美元，AI 代理现在就可以扫描智能合约中的可利用漏洞——且攻击性的漏洞利用能力每 1.3 个月就会翻倍。欢迎来到去中心化金融中最具影响力的军备竞赛。

2026 年 2 月，OpenAI 和 Paradigm 联合推出了 EVMbench，这是一个开源基准测试，用于评估 AI 代理在检测、修复和利用智能合约漏洞方面的有效性。结果令人警醒。GPT-5.3-Codex 成功利用了 72.2% 的已知漏洞合约，而六个月前这一比例仅为 31.9%。同时，一个专用的 AI 安全代理在 90 个被利用的 DeFi 合约（总价值 9680 万美元）中检测到了 92% 的漏洞——几乎是基准 GPT-5.1 编码代理 34% 检测率的三倍。

其中的含义显而易见：DeFi 安全的战斗已演变为一场 AI 对阵 AI 的竞赛，而且就目前而言，经济效益压倒性地倾向于攻击者。

仅靠代码无法解决的 170 亿美元问题

根据 Chainalysis 的数据，2025 年加密货币行业因黑客攻击和漏洞利用损失了 34.1 亿美元。但这一数字低估了真实的损失。如果算上诈骗、欺诈和社交工程，总损失激增至约 170 亿美元。仅北朝鲜 Lazarus Group 的黑客就窃取了 20.2 亿美元，同比增长 51%，使其历史总额达到 67.5 亿美元。

最严重的单一事件——2025 年 2 月发生的 Bybit 交易所 14.6 亿美元被盗案——根本不是智能合约漏洞利用。恶意软件诱骗平台批准了未经授权的交易。正如 CoinDesk 报道的那样，加密货币黑客攻击最严重的一年“不是智能合约的问题——而是人的问题”。

这种区别至关重要，因为它揭示了两个平行的威胁面。智能合约漏洞依然危险，但社交工程、钓鱼攻击和冒充诈骗的增长速度要快得多。2025 年，AI 辅助诈骗的利润是传统方法的 4.5 倍，其中冒充欺诈同比增长了 1400%。AI 生成的钓鱼邮件现在的点击率比人类撰写的邮件高出四倍。

在这种背景下，问题不再是 AI 是否会改变区块链安全，而是防御性 AI 的扩展速度能否赶上攻击方。

EVMbench：量化差距的基准

OpenAI 和 Paradigm 围绕从 40 次专业审计中筛选出的 117 个漏洞设计了 EVMbench，其中包括来自 Tempo 区块链安全审计过程的几个场景。该基准测试评估了三种能力：检测漏洞、修复漏洞以及端到端利用漏洞。

结果揭示了一个悖论。AI 代理在攻击方面远强于防御。

在“利用模式”下，GPT-5.3-Codex 的得分高达 72.2%，比 2025 年中期的 GPT-5 结果（31.9%）翻了一番还多。但在“检测”和“修复”任务中，性能大幅下降。在检测模式下，代理倾向于在发现单个漏洞后就停止，而不是详尽地审计代码库。在修复模式下，要在移除细微漏洞的同时保持合约的完整功能被证明非常困难。

OpenZeppelin 独立审计了 EVMbench 的方法论并发现了关键缺陷：至少有四个无效的高风险发现、训练数据污染问题以及可能夸大报告性能的方法论差距。该基准作为方向性指标仍具有价值，但安全社区警告不要将其评分视为生产级评估。

另外，Anthropic 的红队演示了 Claude Opus 4.5、Claude Sonnet 4.5 和 GPT-5 共同开发的漏洞利用程序，在模型知识库截止日期后发生的合约攻击中价值达 460 万美元——这证明了这些代理可以识别新型漏洞，而不仅仅是复制已知攻击。

AI 驱动攻击的非对称经济学

研究中最令人担忧的发现是经济层面，而非技术层面。AI 驱动的漏洞扫描成本约为每个合约 1.22 美元，对于老练的攻击者来说，探测以太坊上每个智能合约的成本已降至极低的门槛。

数学逻辑揭示了结构性失衡。假设扫描合约的漏洞率为 0.1%，当漏洞价值低至 6,000 美元时，攻击者即可实现盈亏平衡。相比之下，防御者至少需要 60,000 美元的漏洞赏金或追回资金，才能证明同等防御性扫描成本的合理性。这种 10:1 的不对称意味着经济规律天然倾向于攻击方。

传统的智能合约审计加剧了这一问题。逻辑简单的较小合约手动审计费用为 10,000 到 25,000 美元，而具有跨链组件或大型代码库的复杂协议审计费用可能超过 100,000 到 250,000 美元。这些审计需要数周或数月才能完成。而运行成本为 1.22 美元的 AI 代理，在人类团队审阅一份合约的时间内，可以扫描数千份合约。

漏洞利用能力的增长曲线使这种差距随着时间的推移而恶化。随着攻击性 AI 的能力每 1.3 个月翻一倍，即使是那些在上一季度能抵御 AI 代理的协议，在下一季度的模型面前也可能变得脆弱。

专用安全 AI：92% 检测率的突破

并非所有 AI 代理的表现都一样。专用安全代理实现了 92% 的检测率（涵盖 90 个 DeFi 合约中 9680 万美元的真实漏洞价值），远超通用 GPT-5.1 编码代理 34% 的检测率（750 万美元）。

这种差异并非源于更强大的底层模型，而是源于在相同基础模型之上叠加了特定领域的安全方法论。专用代理整合了协议特定的不变量、已知的攻击模式（如重入、闪电贷操纵、预言机滥用）以及通用模型容易忽略的系统性覆盖要求。

这一发现提供了一个现实的教训：通用 AI 审计与专业 AI 审计之间的差距不是渐进式的，而是巨大的——在检测率上有三倍的差距，在捕获漏洞的美元价值上有十三倍的差距。依赖通用 AI 工具进行安全的协议正处于一种虚假的安全感中。

新兴的最佳实践是混合模式。正如 DEV Community 的技术分析所述，“2026 年的审计并非完全自动化——而是由 AI 分析引导的人类专家，在减半的时间内覆盖了 10 倍的代码领域。”专家审计员利用 AI 大规模标记疑似漏洞，然后运用人类判断来验证发现、评估业务逻辑风险并验证修复方案。

2026 年 OWASP 智能合约十大风险

安全形势的变化非常迅速，OWASP 发布了更新的 2026 年智能合约十大风险（Top 10）。该列表反映了不断演变的威胁模型：

访问控制漏洞 依然是首要类别，负责处理大部分高价值漏洞利用。
预言机操纵 和 闪电贷攻击 继续威胁着依赖外部价格喂价的 DeFi 协议。
跨链桥弱点 已成为顶级关注点，跨链桥黑客攻击已造成数十亿美元的累计损失。
治理机制中的逻辑错误 正越来越多地被盯上，因为 DAO 管理着更大的国库。

值得注意的是，2026 年的列表增加了一个新类别：AI 专用攻击面——承认那些集成 AI 代理进行自动交易、风险管理或治理的协议，现在面临着提示词注入、模型操纵和同步行为风险，而这些风险在两年前并不存在。

这对 DeFi 生态系统意味着什么

攻击性和防御性 AI 之间的军备竞赛产生了几点实际影响。

对于协议开发者： “审计一次并部署”的模式已不再足够。使用专用 AI 代理进行持续监控，并结合定期的人类专家审阅，正成为最低限度的可行安全姿态。漏洞赏金计划需要接近完整的漏洞利用价值，才能在攻击者发现漏洞之前吸引防御性研究人员。

对于投资者和用户： 在 AI 增强安全方面投入的协议与仅依赖传统审计的协议之间的差距将进一步拉大。安全支出正成为协议耐用性的领先指标。

对于更广泛的生态系统： 每个合约 1.22 美元的扫描成本意味着，最终每个部署的智能合约都将被 AI 代理（无论是攻击性的还是防御性的）持续探测。问题在于哪一方能率先建立更全面的覆盖。

AI 智能合约审计军备竞赛并非未来的剧本，而是 2026 年区块链安全的现状。那些适应最快的协议，将在尘埃落定时依然屹立不倒。

随着区块链基础设施与 AI 驱动的安全工具共同演进，可靠的节点访问和 API 服务成为监控和保护链上资产的关键基础。BlockEden.xyz 在主要区块链上提供企业级 RPC 和 API 服务，帮助开发者和安全团队在能够满足快速变化的威胁格局需求的架构上进行开发。

Share on Twitter

API Marketplace Featured

仅靠代码无法解决的 170 亿美元问题​

EVMbench：量化差距的基准​

AI 驱动攻击的非对称经济学​

专用安全 AI：92% 检测率的突破​

2026 年 OWASP 智能合约十大风险​

这对 DeFi 生态系统意味着什么​