Saltar para o conteúdo principal

Agentes de IA Acabaram de Explorar US$ 550 Milhões em Contratos Inteligentes — E Custou Apenas US$ 1,22 Por Ataque

· 9 min de leitura
Dora Noda
Software Engineer

Por 1,22menosqueoprec\codeumaxıˊcaradecafeˊumagentedeIAagorapodeescanearumcontratointeligente,identificarsuavulnerabilidadeegerarumexploitfuncional.Essena~oeˊumcenaˊrioteoˊricodeumwhitepaperdeseguranc\ca.EˊoresultadomensuradodoSCONEbench,oprimeirobenchmarkqueavaliaacapacidadedeagentesdeIAdeexplorarcontratosinteligentesreais,lanc\cadopelaAnthropicepesquisadoresdoMATSFellowsnofinalde2025.Em405contratosqueforamrealmenteexploradosentre2020e2025,dezmodelosdeIAdefronteiraproduziramcoletivamenteexploitsprontosparausoem207deles,resultandoem1,22 — menos que o preço de uma xícara de café — um agente de IA agora pode escanear um contrato inteligente, identificar sua vulnerabilidade e gerar um exploit funcional. Esse não é um cenário teórico de um whitepaper de segurança. É o resultado mensurado do SCONE-bench, o primeiro benchmark que avalia a capacidade de agentes de IA de explorar contratos inteligentes reais, lançado pela Anthropic e pesquisadores do MATS Fellows no final de 2025. Em 405 contratos que foram realmente explorados entre 2020 e 2025, dez modelos de IA de fronteira produziram coletivamente exploits prontos para uso em 207 deles, resultando em 550,1 milhões em fundos roubados simulados.

As implicações repercutem muito além de um laboratório de pesquisa. Os protocolos DeFi detêm coletivamente mais de $ 100 bilhões em valor total bloqueado (TVL). Se a capacidade de exploração continuar dobrando a cada 1,3 meses — a trajetória que os dados da Anthropic mostram — as premissas de segurança que sustentam as finanças on-chain estão se aproximando de um ponto de inflexão.

Por dentro do SCONE-bench: O Primeiro Benchmark de Exploit Denominado em Dólar

Os benchmarks tradicionais de segurança de contratos inteligentes medem se uma IA pode detectar uma categoria de vulnerabilidade — reentrada, manipulação de oráculo, falhas de controle de acesso. O SCONE-bench adota uma abordagem fundamentalmente diferente.

Construído a partir do repositório DefiHackLabs, ele inclui 405 contratos no Ethereum, BNB Smart Chain e Base que foram realmente explorados no mundo real entre 2020 e 2025. Cada teste é executado dentro de um contêiner Docker com uma blockchain local bifurcada (forked) no número exato do bloco do exploit original, garantindo condições reproduzíveis.

O benchmark não pede aos modelos para classificar um tipo de bug. Ele pede que eles roubem dinheiro.

Os agentes interagem com o ambiente de sandbox por meio do Model Context Protocol (MCP), que lhes dá acesso a ferramentas para leitura do código-fonte do contrato, consulta ao estado on-chain e envio de transações. A métrica de avaliação é direta: o valor total em dólares dos fundos roubados simulados. Esse sistema de pontuação denominado em dólar torna os resultados diretamente comparáveis à economia de exploits do mundo real.

Quando os pesquisadores liberaram dez modelos de IA líderes — incluindo Claude Opus 4.5, Claude Sonnet 4.5, GPT-5 e outros — os resultados foram preocupantes. Os modelos exploraram coletivamente 51,11 % dos contratos do benchmark.

O Claude Opus 4.5 sozinho explorou 17 dos contratos que foram violados após o seu corte de conhecimento de março de 2025, totalizando 4,5milho~esemvalorsimulado.JuntamentecomoClaudeSonnet4.5eoGPT5,osexploitspoˊscorteatingiram4,5 milhões em valor simulado. Juntamente com o Claude Sonnet 4.5 e o GPT-5, os exploits pós-corte atingiram 4,6 milhões — demonstrando que esses modelos podem descobrir e explorar vulnerabilidades que nunca viram durante o treinamento.

A Economia de Ataque de $ 1,22 que Deve Alertar Todo Protocolo

A economia da exploração impulsionada por IA ultrapassou um limiar crítico. Testar o GPT-5 contra 2.849 contratos da BNB Smart Chain implantados recentemente custou um total de 3.476umameˊdiade3.476 — uma média de 1,22 por contrato. Nesse patamar de preço, um invasor poderia escanear cada novo contrato implantado em uma grande rede por um valor insignificante.

Os ganhos de eficiência estão acelerando. Analisando quatro gerações de modelos Claude, a Anthropic descobriu que o número mediano de tokens necessários para produzir um exploit bem-sucedido caiu 70,2 %. Em termos práticos, um invasor hoje obtém 3,4 vezes mais exploits bem-sucedidos para o mesmo orçamento de computação do que há seis meses.

Talvez o mais alarmante: quando os pesquisadores apontaram o GPT-5 e o Claude Sonnet 4.5 para esses 2.849 contratos implantados recentemente — nenhum dos quais tinha vulnerabilidades conhecidas — ambos os agentes descobriram independentemente dois bugs de dia zero (zero-day) anteriormente desconhecidos e geraram as estratégias de ataque correspondentes.

O valor potencial do exploit desses zero-days foi de $ 3.694. Pequeno para os padrões DeFi, mas o princípio importa enormemente: os agentes de IA não estão apenas repetindo ataques conhecidos. Eles estão encontrando novos.

Ao longo do último ano, a receita potencial de exploit no subconjunto de problemas do benchmark de 2025 aproximadamente dobrou a cada 1,3 meses. Se essa trajetória se mantiver, a janela entre a implantação de um contrato e a capacidade de uma IA de hackeá-lo está diminuindo rapidamente.

Do Benchmark à Realidade: O Incidente Moonwell

A ponte entre os benchmarks de pesquisa e as consequências no mundo real materializou-se em 17 de fevereiro de 2026, quando o protocolo de empréstimo DeFi Moonwell divulgou uma violação de segurança resultando em aproximadamente $ 1,78 milhão em perdas. A vulnerabilidade foi rastreada até uma configuração incorreta de oráculo em código gerado por IA — especificamente, código co-escrito pelo Claude Opus 4.6.

O erro técnico foi enganosamente simples. Em vez de multiplicar a taxa de câmbio cbETH / ETH pelo feed de preço ETH / USD, o código gerado por IA usou a proporção bruta de troca como se já estivesse denominada em dólares. O resultado: o cbETH foi precificado em cerca de 1,12emvezdeseuvalorrealproˊximoa1,12 em vez de seu valor real próximo a 2.200, desencadeando uma cascata de liquidações rápidas.

O incidente Moonwell é amplamente discutido como o primeiro grande exploit DeFi ligado diretamente ao "vibe coding" — uma abordagem de desenvolvimento que depende fortemente de código gerado por IA com supervisão humana mínima. Isso cristaliza uma ameaça dupla: os modelos de IA estão simultaneamente se tornando melhores em encontrar vulnerabilidades em contratos existentes e introduzindo novas quando usados de forma descuidada para o desenvolvimento.

A Corrida Armamentista Defensiva: IA como Escudo, Não Apenas Espada

A comunidade de segurança não tem estado ociosa. Em fevereiro de 2026, a empresa de segurança de smart contracts Cecuro lançou um benchmark mostrando que um agente de segurança de IA construído especificamente para esse fim detectou vulnerabilidades em 92 % de 90 contratos DeFi explorados, cobrindo 96,8milho~esemvalordeexplorac\ca~o.Emcomparac\ca~o,umagentedecodificac\ca~oGPT5.1delinhadebase,operandonomesmomodelosubjacente,detectouapenas3496,8 milhões em valor de exploração. Em comparação, um agente de codificação GPT - 5.1 de linha de base, operando no mesmo modelo subjacente, detectou apenas 34 % das vulnerabilidades no valor de 7,5 milhões. A lacuna não veio da capacidade bruta da IA, mas da metodologia de segurança específica do domínio aplicada por cima.

A OpenAI e a Paradigm lançaram conjuntamente o EVMbench, um framework de testes construído a partir de 120 vulnerabilidades selecionadas em 40 auditorias profissionais. Projetado para medir o quão bem a IA pode entender e proteger smart contracts, o EVMbench baseia-se em competições de auditoria aberta e no próprio processo de auditoria Tempo da Paradigm, fornecendo uma maneira padronizada de avaliar as capacidades defensivas da IA.

A própria Anthropic disponibilizou em código aberto o SCONE - bench, raciocinando que os atacantes já possuem fortes incentivos financeiros para construir ferramentas de exploração proprietárias. Reter benchmarks defensivos apenas prejudicaria os pesquisadores de segurança legítimos. Ao tornar o benchmark de exploração público, a empresa visa permitir que todo o ecossistema de segurança teste, itere e construa defesas mais fortes.

O padrão emergente é claro: modelos de IA de propósito geral são perigosos quando apontados para smart contracts, mas agentes de segurança especializados — treinados com expertise de domínio, conhecimento de verificação formal e ferramentas específicas de segurança — superam significativamente o desempenho defensivo. A corrida é entre a capacidade ofensiva que melhora automaticamente com cada nova geração de modelos e a capacidade defensiva que requer engenharia deliberada e orientada por especialistas.

O que as Equipes de Protocolo Precisam Fazer Agora

Os resultados do SCONE - bench e o incidente da Moonwell pintam juntos um quadro claro de para onde a segurança de smart contracts está caminhando. Várias estratégias defensivas estão se tornando inegociáveis:

  • Auditoria contínua impulsionada por IA: Auditorias estáticas e únicas são insuficientes contra ameaças que evoluem a cada lançamento de modelo. Os protocolos precisam de monitoramento contínuo de segurança por IA que acompanhe o ritmo das melhorias nas capacidades ofensivas.
  • Verificação de múltiplas camadas para código gerado por IA: O exploit da Moonwell demonstra que o código Solidity escrito por IA exige o mesmo — ou maior — escrutínio que o código escrito por humanos. Validação automatizada de oráculos, verificação formal e testes adversariais devem ser padrão para qualquer caminho de código que envolva a precificação de ativos.
  • Modelagem econômica dos custos de ataque: A $ 1,22 por varredura de contrato, o custo de exploração está agora muito abaixo do limite mínimo que a maioria dos programas de bug bounty cobre. Os protocolos devem reavaliar sua economia de segurança, garantindo que os valores das recompensas e a cobertura do seguro reflitam a nova estrutura de custos.
  • Benchmarking adversarial: As equipes devem submeter seus contratos ao SCONE - bench e frameworks semelhantes antes da implantação, tratando os testes de exploração impulsionados por IA como parte do pipeline padrão de implantação.
  • Defesa em profundidade com agentes especializados: A IA de propósito geral não pode substituir agentes de segurança construídos especificamente. A taxa de detecção de 92 % do sistema especializado da Cecuro contra 34 % do GPT - 5.1 de linha de base ressalta a importância de ferramentas de segurança específicas do domínio.

O Ponto de Inflexão para a Segurança On - Chain

Os dados são inequívocos. A capacidade de exploração por IA contra smart contracts está crescendo exponencialmente — dobrando a cada 1,3 meses em potencial de receita, enquanto o custo por ataque cai a cada geração de modelo. Os $ 550 milhões explorados em simulação hoje prenunciam o que poderia acontecer na mainnet amanhã se as medidas defensivas não acompanharem o ritmo.

Mas as mesmas capacidades de IA que permitem a exploração também alimentam as ferramentas defensivas mais fortes que a indústria já teve. A questão não é se a IA irá remodelar a segurança dos smart contracts. Ela já remodelou. A questão é se os desenvolvedores, auditores e protocolos que implantam mais de $ 100 bilhões em ativos on - chain adotarão a defesa impulsionada por IA com a mesma urgência com que os atacantes estão adotando a ofensa impulsionada por IA.

A taxa de duplicação de 1,3 meses deixa pouco espaço para complacência.

BlockEden.xyz fornece infraestrutura de API de blockchain de nível empresarial em mais de 20 + redes, ajudando os desenvolvedores a construir em bases seguras com acesso confiável a nós. Explore nosso marketplace de APIs para impulsionar seus dApps com uma infraestrutura projetada para durar.