AI-Agenten können jetzt 92 % der DeFi-Exploits erkennen – aber sie können sie auch erstellen

2. April 2026 · 9 Min. Lesezeit

Software Engineer

Ein zweckgebundener KI-Agent hat gerade Schwachstellen hinter DeFi-Verlusten in Höhe von 96,8 Mio. $ aufgedeckt — und dabei Exploits erkannt, die ein GPT-5.1-Agent für allgemeine Zwecke in 58 von 90 Smart Contracts übersehen hat. Unterdessen zeigt der EVMbench-Benchmark von OpenAI und Paradigm, dass Frontier-Modelle nun funktionierende Exploits für 71 % der bekannten Smart-Contract-Fehler generieren können. Dieselbe Technologie, die DeFi-Protokolle schützt, kann sie auch angreifen, und das Wettrüsten beschleunigt sich schneller, als die meisten Teams realisieren.

Das 3,4-Milliarden-Dollar-Problem, das Auditoren immer wieder übersehen

Laut Chainalysis belief sich der Diebstahl von Kryptowährungen im Jahr 2025 auf 3,4 Mrd. $— und die unbequeme Wahrheit ist, dass viele der ausgenutzten Verträge bereits professionelle Audits bestanden hatten. Allein der Bybit-Hack machte 1,4 Mrd.$ aus, während Protokolle wie Cetus (223 Mio. $) und Balancer (128 Mio.$ ) trotz etablierter Sicherheitspraktiken Sicherheitsverletzungen erlitten.

Das Problem ist nicht, dass die Auditoren inkompetent sind. Es liegt vielmehr daran, dass menschliche Prüfer vor einer unmöglichen Skalierungsherausforderung stehen: Der Total Value Locked (TVL) von DeFi ist auf über 119 Mrd. $ angestiegen, die Codekomplexität nimmt zu und die Angriffsfläche vergrößert sich mit jedem neuen Protokoll-Deployment. Ein einzelner Auditor, der ein komplexes Protokoll prüft, verbringt möglicherweise Wochen damit, die Interaktionen zwischen Dutzenden von Verträgen zu analysieren, und übersieht dennoch den einen Grenzfall, den ein entschlossener Angreifer findet.

Genau diese Lücke füllen nun KI-Sicherheitsagenten — und die Ergebnisse früher Benchmarks deuten auf einen grundlegenden Wandel in der Funktionsweise der Smart-Contract-Sicherheit hin.

Cecuros 92 % Erkennungsrate: Was die Zahlen tatsächlich bedeuten

Im Februar 2026 veröffentlichte die KI-Sicherheitsfirma Cecuro einen Open-Source-Benchmark, der ihren zweckgebundenen Sicherheitsagenten gegen 90 reale DeFi-Verträge testete, die zwischen Oktober 2024 und Anfang 2026 ausgenutzt wurden. Die Ergebnisse waren beeindruckend.

Der spezialisierte Agent von Cecuro markierte Schwachstellen in 92 % der ausgenutzten Verträge und identifizierte Fehler, die mit verifizierten Verlusten in Höhe von 96,8 Mio. $in Verbindung stehen. Im Vergleich dazu erkannte ein GPT-5.1-basierter Standard-Coding-Agent nur **34 % der Schwachstellen**, was lediglich 7,5 Mio.$ an Verlusten abdeckte.

Der 2,7-fache Leistungsunterschied ist nicht nur ein Zahlenspiel. Er offenbart drei kritische Fehlermodi von KI-Modellen für allgemeine Zwecke, wenn sie auf die Sicherheit von Smart Contracts angewendet werden:

1. Mangel an verifizierbarem Feedback. Modelle für allgemeine Zwecke liefern plausibel klingende Analysen, verfügen jedoch über keinen Mechanismus, um zu verifizieren, ob eine erkannte „Schwachstelle“ tatsächlich ausnutzbar ist. Der Agent von Cecuro integriert domänenspezifische Test-Frameworks, die Ergebnisse in echten Ausführungsumgebungen validieren.

2. Unzureichende systematische Abdeckung. Ein GPT-5.1-Agent, der einen Vertrag analysiert, stoppt oft nach der Identifizierung des ersten signifikanten Problems. Der Agent von Cecuro implementiert strukturierte Review-Phasen — Zugriffskontrollanalyse, Statusmanipulationsprüfungen, Überprüfung von vertragsübergreifenden Interaktionen — und gewährleistet so eine umfassende Abdeckung.

3. Kontext-Sättigung. Komplexe DeFi-Protokolle umfassen mehrere miteinander verbundene Verträge, Abhängigkeiten von externen Oracles und Governance-Mechanismen. Modelle für allgemeine Zwecke stoßen an Kontextgrenzen und ziehen voreilige Schlüsse. Zweckgebundene Agenten nutzen DeFi-spezifische Heuristiken, um zu priorisieren, welche Interaktionen am wichtigsten sind.

Cecuro hat den Datensatz und das Evaluierungs-Framework auf GitHub als Open Source veröffentlicht, hielt jedoch den vollständigen Sicherheitsagenten zurück, um missbräuchliche Nutzung für Angriffe zu verhindern — ein verantwortungsvoller Offenlegungsansatz, der es der Branche ermöglicht, Behauptungen zu verifizieren, ohne das Tool als Waffe einzusetzen.

EVMbench: OpenAI und Paradigm quantifizieren die KI-Sicherheitsgrenze

Cecuros Benchmark war nicht die einzige wichtige Evaluierung, die Anfang 2026 veröffentlicht wurde. Im Februar veröffentlichten OpenAI und Paradigm gemeinsam EVMbench, einen Benchmark zur Bewertung von KI-Agenten in drei Dimensionen der Smart-Contract-Sicherheit: Erkennung von Schwachstellen, Patching von fehlerhaftem Code und Ausnutzung bekannter Schwächen.

EVMbench stützt sich auf 117 kuratierte Schwachstellen aus 40 Audits, die primär aus offenen Code-Audit-Wettbewerben stammen. Die Ergebnisse zeichnen ein differenziertes Bild:

Exploit-Generierung: Die GPT-5.3-Codex-Variante, die über das Codex-CLI läuft, erreicht 71,0 % — sie generiert funktionierende Exploits für fast drei Viertel der bekannten Schwachstellen. Dies stellt eine dramatische Verbesserung gegenüber den 33,3 % von GPT-5 dar und deutet darauf hin, dass die Exploit-Fähigkeit mit jeder Modellgeneration rapide skaliert.
Erkennung: Agenten stoppen häufig nach der Identifizierung eines einzelnen Problems, anstatt die gesamte Codebasis erschöpfend zu prüfen, wodurch kritische Schwachstellen unentdeckt bleiben.
Patching: Die Aufrechterhaltung der vollen Vertragsfunktionalität bei gleichzeitiger Entfernung subtiler Schwachstellen erweist sich als schwierig — Agenten führen oft neue Bugs ein, während sie alte beheben.

Die Asymmetrie ist aufschlussreich: Für KI ist es einfacher, Dinge zu zerstören, als sie zu reparieren. Dies spiegelt eine grundlegende Dynamik in der Cybersicherheit wider, aber bei KI-Agenten vergrößert sich die Lücke mit beispielloser Geschwindigkeit.

Das Wettrüsten zwischen Angriff und Verteidigung ist bereits im Gange

Das Forschungsteam von Anthropic veröffentlichte Ergebnisse, die zeigen, dass Frontier-KI-Modelle nun autonom neuartige Zero-Day-Schwachstellen in Smart Contracts entdecken und ausnutzen können. Beim Test gegen Verträge, die nach dem Wissensstand-Stichtag der Modelle im März 2025 ausgenutzt wurden, generierten Modelle wie Claude Opus 4.5 und GPT-5 gemeinsam Exploits im Wert von 4,6 Mio. $ an simulierten Verlusten.

Besorgniserregender ist: Sowohl Claude Sonnet 4.5 und GPT-5 deckten zwei neuartige Zero-Day-Schwachstellen mit Exploits im Wert von 3.694 $auf — der Beweis, dass eine profitable autonome Ausnutzung technisch machbar ist. Die Kosten? Lediglich **1,22$ pro Scan eines Smart Contracts**, mit einem Nettogewinn von 109 $ pro erfolgreicher identifizierter Zero-Day-Lücke.

Im vergangenen Jahr hat sich der Exploit-Umsatz von Frontier-Modellen bei Benchmark-Problemen etwa alle 1,3 Monate verdoppelt. Ein Cyberkrimineller mit einem Rechenbudget von nur wenigen hundert Dollar kann nun einen KI-Agenten auf Tausende von Verträgen ansetzen, ihn nach Schwachstellen suchen lassen und funktionierende Exploits generieren, ohne eine einzige Zeile Code zu schreiben.

Dies schafft eine dringende Notwendigkeit: Wenn KI-gestützte Angreifer das gesamte DeFi-Ökosystem kostengünstig und autonom scannen können, benötigen Verteidiger ebenso leistungsfähige KI-Tools, die kontinuierlich laufen. Das traditionelle Modell einmaliger Audits vor dem Deployment reicht nicht mehr aus.

Zweckgebunden vs. Allzweck: Warum Spezialisierung gewinnt

Der Cecuro-Benchmark verdeutlicht ein Muster, das sich in der KI-Sicherheit abzeichnet: Domänenspezifische Optimierung liefert 2 - 3-mal höhere Leistungssteigerungen gegenüber universellen Modellen. Dies gilt nicht nur für Smart Contracts – ähnliche Dynamiken zeigen sich in der medizinischen Bildgebung, Rechtsanalyse und Code-Review – doch im Bereich DeFi sind die Auswirkungen existenziell.

Mehrere Faktoren erklären, warum zweckgebundene Sicherheits-Agenten allgemeine Modelle übertreffen:

Kuratierung von Trainingsdaten. Der Agent von Cecuro wurde mit verifizierten Exploit-Datensätzen trainiert, nicht nur mit Aufgaben zur Code-Vervollständigung. Er versteht die spezifischen Muster, die zu Reentrancy-Angriffen, Oracle-Manipulationen, Flash-Loan-Exploits und Rechteausweitungen führen – nicht als abstrakte Konzepte, sondern als konkrete Code-Muster mit bekannten Exploit-Pfaden.

Strukturierte Review-Methodik. Anstelle von freier Analyse implementieren zweckgebundene Agenten systematische Audit-Methoden, ähnlich wie sie von Firmen wie Trail of Bits, OpenZeppelin und Certora eingesetzt werden. Jede Review-Phase deckt spezifische Schwachstellenkategorien mit entsprechender Tiefe ab.

Integration der Ausführungsumgebung. Zweckgebundene Agenten können den Mainnet-Zustand forken, Test-Contracts deployen und Exploits in simulierten Umgebungen validieren. Allzweck-Modelle analysieren Code statisch und übersehen dynamische Interaktionen, die erst zur Laufzeit entstehen.

Die Wettbewerbslandschaft entwickelt sich rasant. Der AuditAgent von Nethermind wurde bereits in Fallstudien mit der UBS und LUKSO eingesetzt. Consensys Diligence hat Chonky eingeführt, das KI-Agenten mit menschlicher Expertenberatung kombiniert. Sherlock und das Veritas-Protokoll bieten automatisierte Screening-Tools an. Der Konsens in der Branche: Hybride Ansätze, die KI-Screening mit menschlicher Expertise kombinieren, finden über 95 % der Schwachstellen, verglichen mit 60 - 70 % bei rein manuellen oder 70 - 85 % bei reinen KI-Audits.

Was das für DeFi-Protokoll-Teams bedeutet

Die Auswirkungen für jedes Team, das DeFi Smart Contracts bereitstellt oder wartet, sind erheblich:

Kontinuierliches Monitoring wird obligatorisch. Einmalige Audits vor dem Deployment sind notwendig, aber unzureichend. KI-Agenten, die rund um die Uhr nach Schwachstellen suchen und in Monitoring-Systeme integriert sind, die Verträge bei Entdeckung von Bedrohungen pausieren können, werden zum Standard-Infrastruktur-Bestandteil.

Audit-Kosten sinken. KI-gestützte Audits sind bereits jetzt 10-mal schneller als rein manuelle Überprüfungen. Mit der Reife zweckgebundener Tools wird umfassendes Sicherheits-Screening auch für kleinere Protokolle zugänglich, die sich bisher keine Top-Auditoren leisten konnten.

Der Vorteil des Verteidigers ist real – aber zeitlich begrenzt. Zweckgebundene Sicherheits-Agenten übertreffen derzeit Allzweck-KIs in der Verteidigung. Doch die rasanten Verbesserungen bei den Exploit-Fähigkeiten von Frontier-Modellen (die sich alle 1,3 Monate verdoppeln) bedeuten, dass sich das Zeitfenster für den Aufbau defensiver Infrastruktur schließt.

Offene Benchmarks beschleunigen das gesamte Feld. Sowohl der Open-Source-Datensatz von Cecuro als auch EVMbench von OpenAI / Paradigm ermöglichen es jedem Team, seine Sicherheits-Tools gegen reale Exploits zu evaluieren und zu verbessern. Protokolle, die ihre Verteidigung nicht gegen diese Benchmarks testen, geraten ins Hintertreffen.

Der Weg nach vorn: KI-Auditoren als Infrastruktur

Smart Contracts sichern routinemäßig über 100 Milliarden US-Dollar an Open-Source-Krypto-Assets. Die Konvergenz von KI-Angriffs- und KI-Verteidigungsfähigkeiten transformiert die Sicherheitslandschaft von einem periodischen Beratungsmandat hin zu einer kontinuierlichen Infrastrukturanforderung.

Die Daten aus dem Cecuro-Benchmark, EVMbench und der Sicherheitsforschung von Anthropic weisen alle auf dasselbe Ergebnis hin: Die Zukunft der Smart-Contract-Sicherheit ist weder rein menschlich noch rein KI-basiert – es sind menschlich geführte KI-Systeme, auf denen zweckgebundene Sicherheits-Agenten laufen, die DeFi auf einer domänenspezifischen Ebene verstehen.

Teams, die KI-Audits als optionales Extra behandeln, werden sich zunehmend Angreifern gegenübersehen, für die dies zum Standardvorgehen gehört. In der DeFi-Sicherheit lag die Asymmetrie bisher immer auf der Seite der Angreifer. Zweckgebundene KI-Agenten sind die erste Technologie mit dem Potenzial, dieses Verhältnis umzukehren – aber nur, wenn die Branche sie übernimmt, bevor die Angriffsseite ihre volle Reife erreicht.

BlockEden.xyz bietet eine robuste Blockchain-API-Infrastruktur, auf die sich DeFi-Protokolle und Sicherheitsteams für den Echtzeit-Zugriff auf On-Chain-Daten verlassen – unerlässlich für das kontinuierliche Monitoring und die Bedrohungserkennung, die KI-gestützte Sicherheit erfordert. Erkunden Sie unseren API-Marktplatz, um auf einer Infrastruktur aufzubauen, die für die Geschwindigkeit und Zuverlässigkeit ausgelegt ist, die DeFi-Sicherheit benötigt.

Share on Twitter

API Marketplace Featured

Das 3,4-Milliarden-Dollar-Problem, das Auditoren immer wieder übersehen​

Cecuros 92 % Erkennungsrate: Was die Zahlen tatsächlich bedeuten​

EVMbench: OpenAI und Paradigm quantifizieren die KI-Sicherheitsgrenze​

Das Wettrüsten zwischen Angriff und Verteidigung ist bereits im Gange​

Zweckgebunden vs. Allzweck: Warum Spezialisierung gewinnt​

Was das für DeFi-Protokoll-Teams bedeutet​

Der Weg nach vorn: KI-Auditoren als Infrastruktur​