GPT-4 widerspricht sich selbst in 40 % der Fälle, wenn es gebeten wird, dieselbe Antwort zweimal zu beurteilen. Bard halluzinierte 91 % seiner Referenzen in medizinischen systematischen Übersichten. Und die Benchmarks, die dafür sorgen sollen, dass KI ehrlich bleibt? Modelle werden zunehmend darauf optimiert, sie auszutricksen. Der gesamte KI-Evaluierungs-Stack – die Infrastruktur, die uns sagt, ob ein Modell gut, sicher oder wahrheitsgetreu ist – ruht auf Fundamenten, die undurchsichtig, nicht reproduzierbar sind und sich lautlos unter unseren Füßen verschieben.

Gensyn, das dezentrale Protokoll für maschinelles Lernen, das mit 50 Millionen US-Dollar von a16z crypto, CoinFund und Protocol Labs unterstützt wird, glaubt, eine strukturelle Lösung gefunden zu haben. Sein neues System namens Judge bringt kryptografisch verifizierbare KI-Evaluierung in die Produktion – und ersetzt Black-Box-API-Aufrufe durch deterministische, anfechtbare On-Chain-Beweise für die Modellqualität. Wenn es in großem Maßstab funktioniert, könnte es die Art und Weise verändern, wie die KI-Branche Vertrauen aufbaut.