Gensyn Judge:分散型 AI に不可欠な品質検証レイヤー
分散型 AI は、5 年間も間違った問いに答えてきました。Bittensor のサブネット、Gensyn のトレーニングマーケットプレイス、Ambient の推論ネットワーク、あらゆる ZKML 証明システムといったスタック全体が、「計算が行われたこと」の証明に執着してきました。マイナーが推論を実行した。ノードが適切なデータセットで N 時間トレーニングした。GPU が主張通りのロジットを生成した。これらは暗号学的に、美しく、そして高コストに検証されてきました。
しかし、企業の調達担当者が実際に発する問い、「そのモデルは本当に優れているのか?」に答えるものは一つもありません。
2026 年 4 月末に Gensyn がリリースした Judge は、このギャップを埋めるための最初の本格的な試みです。これは新たなコンセンサスメカニズムではありません。新たな「〜の証明(proof-of-something)」でもありません。これは、「トレーニングが行われたこと」と「トレーニングが正しく行われたこと」を切り離す、検証可能な評 価レイヤーです。そして、この区別こそが、このサイクルで DeAI が提供した中で最も重要なプリミティブになるかもしれません。
検証スタックに開いた穴
Judge がなぜ重要なのかを理解するには、既存の DeAI 検証スタックが実際に何を検証しており、何を密かに検証していないのかを見る必要があります。
Gensyn の Verde(Judge の基盤となるプロトコル)は、特定のニューラルネットワークオペレーターにおける特定のトレーニングステップが、正しい出力を生成したことを検証します。複数の信頼できないプロバイダーが同じタスクを実行し、結果が食い違った場合、レフェリー(審判)が計算グラフ内の不一致が発生した正確なオペレーターを特定し、その操作のみを再実行します。これは、その「ステップ」については、エレガントで安価、かつ証明可能に正確です。
Ambient の Proof-of-Logits は、a16z CSX から 720 万ドルを調達し、Solana SVM 互換 L1 で動作しており、合意されたモデルで推論が行われたことを検証します。マイナーがテキストを生成し、検証者がトークンをランダムにサンプリングし、マイナーが対応するロジットを生成し、検証者がその単一の推論ステップを独立して再実行します。ハッシュが一致すれば、6,000 億超のパラメータを持つモデルにおいて、主張される 0.1% のオーバーヘッドで推論が検証されます。
Lagrange の DeepProve は、最初の zkML システムとして(当初は GPT-2 で)完全な LLM 推論を証明したもので、さらに踏み込んでいます。適切な入力に対して適切なモデルが適切な出力を生成したことを、暗号学的かつゼロ知識証明で証明します。しかし、周知の通り、証明の生成は基礎となる推論よりも数千倍遅いという課題があります。
Bittensor のサブネットバリデーターは、サブネット固有のインセンティブメカニズムに基づいてマイナーの出力をスコアリングしますが、バリデーター自身がスコアリングする結果に対してステークの重みに応じた経済的利害関係を持っています。2026 年 4 月の批判は痛烈なものでした。ステーク量上位 10 のバリデーターがルートネットワークの投票権の約 65% を握り、上位 3 つが 38% を支配しています。Subnet 1 の研究者は、マイナーが既知のバリデーターのクエリに対してキャッシュされた回答を返し、実際の推論ステップを完全にバイパスしながら報酬を得ていることを記録しました。
パターンが見えてくるはずです。これらのシステムはすべて「プロセス」を検証しています。行列演算が正しかったか、推論が実際に実行されたか、出力を署名したモデルがコミットされたものと同じであるか。しかし、その結果得られたモデル、あるいはその結果としての出力が「その役割を十分に果たしているか」を検証するものは一つもありません。
それこそが、Judge が埋めようとしている穴です。