Direkt zum Hauptinhalt

Gensyns Judge schließt die größte Vertrauenslücke der KI: Wer bewertet die Bewertenden?

· 10 Min. Lesezeit
Dora Noda
Software Engineer

GPT-4 widerspricht sich selbst in 40 % der Fälle, wenn es gebeten wird, dieselbe Antwort zweimal zu beurteilen. Bard halluzinierte 91 % seiner Referenzen in medizinischen systematischen Übersichten. Und die Benchmarks, die dafür sorgen sollen, dass KI ehrlich bleibt? Modelle werden zunehmend darauf optimiert, sie auszutricksen. Der gesamte KI-Evaluierungs-Stack – die Infrastruktur, die uns sagt, ob ein Modell gut, sicher oder wahrheitsgetreu ist – ruht auf Fundamenten, die undurchsichtig, nicht reproduzierbar sind und sich lautlos unter unseren Füßen verschieben.

Gensyn, das dezentrale Protokoll für maschinelles Lernen, das mit 50 Millionen US-Dollar von a16z crypto, CoinFund und Protocol Labs unterstützt wird, glaubt, eine strukturelle Lösung gefunden zu haben. Sein neues System namens Judge bringt kryptografisch verifizierbare KI-Evaluierung in die Produktion – und ersetzt Black-Box-API-Aufrufe durch deterministische, anfechtbare On-Chain-Beweise für die Modellqualität. Wenn es in großem Maßstab funktioniert, könnte es die Art und Weise verändern, wie die KI-Branche Vertrauen aufbaut.

Die Evaluierungskrise, über die niemand spricht

Die KI-Branche hat ein schmutziges Geheimnis: Wir wissen nicht wirklich, wie gut unsere Modelle funktionieren. Zumindest nicht in einem verifizierbaren Sinne.

Die heutige Evaluierungspipeline sieht in etwa so aus: Ein Modellentwickler lässt Benchmarks gegen eine geschlossene API laufen (oft fungiert GPT-4 als „LLM-as-a-Judge“), veröffentlicht eine Punktzahl, und der Markt vertraut blind darauf. Die Probleme mit diesem Ansatz verschärfen sich rasant.

Geschlossene APIs werden heimlich aktualisiert. OpenAI, Anthropic und Google modifizieren ihre Modelle regelmäßig hinter demselben API-Endpunkt. Ein Benchmark-Ergebnis vom Januar ist im März möglicherweise nicht mehr reproduzierbar – nicht, weil sich das bewertete Modell geändert hat, sondern weil der Evaluator angepasst wurde. Forschungsergebnisse zeigen, dass LLM-Urteile „nicht deterministisch“ sind – bittet man GPT-4, dieselbe Antwort mehrfach zu bewerten, ergeben sich oft unterschiedliche Punktzahlen.

Systematische Verzerrungen sind fest verankert. Studien belegen, dass LLM-Bewerter einen Position-Bias aufweisen (sie bevorzugen die Antwort, die zuerst erscheint), einen Verbosity-Bias (sie geben längeren Antworten um ca. 15 % höhere Punktzahlen) und einen Self-Enhancement-Bias (sie bewerten ihre eigenen Ausgaben um 5–7 % besser). Die Übereinstimmung zwischen LLM-Bewertern und menschlichen Experten sinkt in Fachbereichen wie Medizin und Recht um 10–15 % – genau dort, wo Genauigkeit am wichtigsten ist.

Das Manipulieren von Benchmarks ist ein Wettrüsten. Während Frontier-Modelle an der Spitze der Bestenlisten zusammenrücken, bricht das Signal-Rausch-Verhältnis zusammen. Modelle können darauf spezialisiert werden, bei bestimmten Benchmarks gut abzuschneiden, ohne dass sich ihre tatsächlichen Fähigkeiten verbessern – ein Phänomen, das Forscher als „Teaching to the Test“ bezeichnen. Das Ergebnis ist ein Evaluierungs-Ökosystem, in dem die Zahlen steigen, das Vertrauen jedoch sinkt.

Für eine Branche, die KI im Gesundheitswesen, im Finanzwesen, in Rechtssystemen und in autonomen Fahrzeugen einsetzt, ist dies keine bloße Unannehmlichkeit. Es ist ein existenzielles Glaubwürdigkeitsproblem.

Vorhang auf für Judge: Deterministisch, anfechtbar, verifizierbar

Gensyns Judge verfolgt einen grundlegend anderen Ansatz. Anstatt einem einzelnen Evaluator zu vertrauen, führt Judge ein zuvor vereinbartes, deterministisches KI-Modell für reale Eingaben aus und übermittelt die Ergebnisse an ein System, in dem jeder das Ergebnis anfechten kann.

Die Architektur besteht aus drei Schichten:

Reproduzierbare Laufzeit (Reproducible Runtime)

Judge läuft auf der Reproducible Runtime von Gensyn, die bitgenaue Ergebnisse über heterogene Hardware hinweg garantiert. Das ist schwieriger, als es klingt. Dieselbe neuronale Netzberechnung kann auf einer NVIDIA A100 andere Gleitkommaergebnisse liefern als auf einer AMD MI300X, da sich die Art und Weise unterscheidet, wie GPUs Matrixmultiplikationen parallelisieren.

Gensyn hat dies mit RepOps (Reproducible Operators) gelöst – einer Bibliothek, die eine feste Ausführungsreihenfolge für Gleitkommaoperationen auf unterschiedlicher Hardware erzwingt. Wenn zwei Knoten dieselbe Evaluierung mit RepOps ausführen, erhalten sie bis zum letzten Bit identische Ergebnisse. Dies eliminiert das „Auf meinem Rechner funktioniert’s“-Problem, das verteilte KI-Systeme plagt.

Verde-Streitbeilegung (Verde Dispute Resolution)

Unter der Haube wird Judge von Verde angetrieben, dem Verifizierungsprotokoll von Gensyn, das als Peer-Review-Paper veröffentlicht wurde. Verde passt eine kryptografische Technik namens Refereed Delegation an das maschinelle Lernen an.

So funktioniert es: Mehrere nicht vertrauenswürdige Rechenanbieter führen dieselbe Evaluierungsaufgabe aus. Wenn alle übereinstimmen, wird das Ergebnis akzeptiert. Wenn sie uneins sind, leitet Verde eine binäre Suche durch den Berechnungsgraphen ein, um genau den Operator zu lokalisieren, bei dem die Ergebnisse divergieren. Ein rechentechnisch bescheidener Schiedsrichter (Referee) – was ein Smart Contract oder ein Lightweight Client sein kann – muss nur diesen einen Operator erneut ausführen, um festzustellen, welcher Anbieter ehrlich war.

Die Effizienz ist beeindruckend. Die Rechenkosten des Schiedsrichters sind um zwei Größenordnungen geringer als die Ausführung des vollständigen Modells. Ein Streit über eine Evaluierung mit einer Milliarde Parametern kann durch die Neuberechnung einer einzigen Matrixmultiplikation beigelegt werden.

On-Chain-Commitment

Jedes Evaluierungsergebnis wird On-Chain festgeschrieben (Gensyn agiert als Ethereum-Rollup), wodurch ein unveränderlicher Datensatz entsteht. Jeder kann verifizieren, dass ein bestimmtes Modell, das mit spezifischen Eingaben läuft, eine bestimmte Ausgabe erzeugt hat. Keine heimlichen Updates. Keine „Vertrau-mir“-Beteuerungen. Nur Mathematik.

Jenseits von Benchmarks: Prognosemärkte und reale Streitfälle

Judge ist nicht nur eine akademische Übung. Gensyns erste Demonstration zeigt einen Prognosemarkt für KI-Argumentation (Reasoning), bei dem Reinforcement-Learning-Modelle Wetten auf Argumentationsprobleme platzieren. Die Auszahlungsstruktur belohnt frühe korrekte Wetten stärker als späte, was eine schnelle und sichere Argumentation fördert.

Dieses Designmuster lässt sich natürlich auf mehrere hochwertige Anwendungen übertragen:

  • Dezentrale KI-Bestenlisten, bei denen die Modellrankings kryptografisch verifizierbar und nicht selbst gemeldet sind
  • Auflösung von Prognosemärkten, bei denen die Entscheidung eines KI-Richters unabhängig angefochten und verifiziert werden kann
  • Qualitätssicherung für KI-Agenten: Da autonome KI-Systeme Finanztransaktionen abwickeln, wird die Fähigkeit, ihren Entscheidungsprozess zu verifizieren, entscheidend
  • Regulatorische Compliance: Da der EU AI Act und ähnliche Rahmenbedingungen eine Dokumentation und Rückverfolgbarkeit für KI-Systeme fordern, bietet die verifizierbare Evaluierung einen prüfbaren Pfad (Audit Trail)

Die Wettbewerbslandschaft: zkML vs. opML vs. Verde

Gensyn ist nicht das einzige Projekt, das sich mit verifizierbarer KI-Berechnung befasst. Der Bereich hat sich um drei Hauptansätze herum konsolidiert:

Zero-Knowledge Machine Learning (zkML) — Projekte wie EZKL, Modulus Labs und Giza wandeln KI-Inferenzen in Zero-Knowledge-Schaltkreise um. Der Vorteil sind starke kryptografische Garantien, ohne die Modellgewichte preiszugeben. Der Nachteil ist der Rechenaufwand: Die Erzeugung von ZK-Proofs für große Modelle ist nach wie vor um Größenordnungen teurer als die Ausführung der Modelle selbst. Modulus Labs, geleitet von Stanford-Forschern, die „The Cost of Intelligence“ veröffentlicht haben, hat Fortschritte bei der Reduzierung der Kosten für die Beweiserzeugung erzielt, aber zkML bleibt für Modelle mit mehr als ein paar hundert Millionen Parametern unpraktisch.

Optimistic Machine Learning (opML) — Protokolle wie Ora nutzen einen optimistischen Ansatz ähnlich wie Optimistic Rollups: Sie gehen davon aus, dass die Berechnung korrekt ist, erlauben aber einen Anfechtungszeitraum (Challenge Period). Dies ist effizient, wenn die meisten Berechnungen ehrlich sind, verlässt sich jedoch eher auf wirtschaftliche Anreize (Staking und Slashing) als auf kryptografische Sicherheit.

Refereed Delegation (Verde) — Der Ansatz von Gensyn liegt zwischen diesen Extremen. Er ist effizienter als zkML, da der Schiedsrichter (Referee) nur bei einem Streitfall neu berechnet und auch dann nur einen winzigen Bruchteil der Arbeit. Er ist deterministischer als opML, da RepOps sicherstellt, dass ehrliche Anbieter immer identische Ergebnisse liefern, was Unklarheiten bei der Streitbeilegung beseitigt.

Das entscheidende Differenzierungsmerkmal ist RepOps. Ohne bitweise Reproduzierbarkeit bricht die referierte Delegation zusammen — ehrliche Nodes, die leicht unterschiedliche Gleitkomma-Ergebnisse liefern, könnten fälschlicherweise Streitfälle auslösen. Durch die Lösung des Reproduzierbarkeitsproblems auf Hardware-Ebene macht Gensyn die referierte Delegation für produktive ML-Workloads praktikabel.

Vom Testnet zum Token: Gensyns Weg zur Produktion

Gensyns öffentliches Testnet startete im März 2025 ohne Warteliste und brachte eine dauerhafte Identität für dezentrale KI. Das Netzwerk verfolgt die Teilnahme, pflegt die Attribution, wickelt Zahlungen ab, koordiniert die Ausführung und protokolliert verteilte Trainingsläufe.

Der $ AI-Token des Projekts kam im Dezember 2025 über eine englische Auktion auf den Markt, wobei 300 Millionen Token (3 % des Angebots) mit einer gedeckelten voll verwässerten Bewertung von 1 Milliarde US-Dollar angeboten wurden. Mit 50 Millionen US-Dollar, die von a16z crypto, CoinFund, Canonical Crypto, Protocol Labs und Eden Block aufgebracht wurden, ist Gensyn eines der am besten finanzierten Projekte im Bereich der dezentralen KI.

Das Testnet unterstützt derzeit RL-Post-Training-Workloads — Reinforcement-Learning-Feintuning, das seit der Demonstration der Leistung von Inference-Time Compute Scaling durch das o1-Modell von OpenAI zum dominanten Paradigma geworden ist. Judge erweitert diese Infrastruktur auf die Evaluierungsebene und schließt den Kreislauf zwischen Training, Inferenz und Qualitätssicherung.

Warum verifizierbare Evaluierung jetzt wichtig ist

Mehrere konvergierende Trends machen 2026 zum Wendepunkt für die verifizierbare KI-Evaluierung:

Die Explosion der KI-Agenten. Da mehr als 282 Krypto-KI-Projekte autonome Agenten einsetzen, die echtes Geld verwalten — von DeFi-Strategien bis hin zum anlagenübergreifenden Handel —, steigen die Kosten für unentdeckte Modellfehler von einer Peinlichkeit zu einer finanziellen Katastrophe. Verifizierbare Evaluierung ist kein „Nice-to-have“, sondern Risiko-Infrastruktur.

Regulatorischer Druck. Der 2024 verabschiedete EU AI Act erhöht die Anforderungen an die Dokumentation und Rückverfolgbarkeit von KI-Systemen. Der Blockchain-KI-Sektor, der Prognosen zufolge von 680 Millionen US-Dollar im Jahr 2025 auf 4,3 Milliarden US-Dollar bis 2034 wachsen wird, wird zunehmend durch Compliance-Anforderungen geprägt, die prüfbare Evaluierungspfade fordern.

Die Vertrauensprämie. In einem Markt, der mit KI-Behauptungen gesättigt ist, wird verifizierbare Qualität zu einem Wettbewerbsvorteil. Projekte, die ihre Modellleistung kryptografisch beweisen können, werden eine Premium-Positionierung einnehmen — insbesondere in institutionellen Märkten, in denen „Vertrau mir“ keine akzeptable Risikomanagementstrategie ist.

Dezentrales Training in großem Maßstab. Da verteilte Trainingsnetzwerke wachsen — das Protokoll von Gensyn vereint bereits Rechenleistung von privaten Laptops bis hin zu Rechenzentrum-GPUs —, verlagert sich der Verifizierungsengpass von „Können wir trainieren?“ zu „Können wir beweisen, dass wir korrekt trainiert haben?“. Judge adressiert dies direkt.

Das Gesamtbild

Gensyns Judge repräsentiert etwas Größeres als nur die Funktionsveröffentlichung eines einzelnen Protokolls. Es ist eine Wette darauf, dass die Evaluierungskrise der KI-Industrie unhaltbar wird, wenn Modelle in Umgebungen mit zunehmend hohem Risiko eingesetzt werden.

Die zentralisierten KI-Labore — OpenAI, Anthropic, Google — haben keinen strukturellen Anreiz, ihre Evaluierungsprozesse transparent zu gestalten. Sie kontrollieren sowohl die Modelle als auch die Benchmarks und benoten ihre eigenen Hausaufgaben mit Stiften, die lautlos die Farbe ändern. Die dezentrale Verifizierung bietet einen Ausweg aus diesem geschlossenen Kreislauf.

Ob Gensyn diese Chance konkret nutzt, hängt von der Ausführung ab: Kann RepOps die bitweise Reproduzierbarkeit aufrechterhalten, wenn Modelle auf Hunderte von Milliarden Parametern skaliert werden? Kann die Streitbeilegung von Verde die Durchsatzanforderungen eines globalen Evaluierungsnetzwerks bewältigen? Können die wirtschaftlichen Anreize genügend ehrliche Rechenanbieter anziehen, um das System robust zu machen?

Dies sind komplexe technische Probleme. Aber die Alternative — der fortlaufende Aufbau einer KI-gestützten Wirtschaft auf unverifizierbaren Behauptungen über die Modellqualität — wird mit jedem verstreichenden Monat schwieriger zu verteidigen.

Die KI-Industrie hat kein Problem mit der Modellqualität. Sie hat ein Problem mit dem Nachweis der Modellqualität. Und genau für Nachweise wurden Blockchains gebaut.


BlockEden.xyz unterstützt die Infrastrukturebene, die KI- und Blockchain-Anwendungen der nächsten Generation antreibt. Während sich die verifizierbare KI-Berechnung von der Forschung zur Produktion bewegt, wird eine robuste Node-Infrastruktur zur Grundlage für vertrauenslose Evaluierungsnetzwerke. Erkunden Sie unseren API-Marktplatz, um auf einer Infrastruktur aufzubauen, die für die dezentrale Zukunft konzipiert wurde.