メインコンテンツまでスキップ

Gensyn Judge:分散型 AI に不可欠な品質検証レイヤー

· 約 20 分
Dora Noda
Software Engineer

分散型 AI は、5 年間も間違った問いに答えてきました。Bittensor のサブネット、Gensyn のトレーニングマーケットプレイス、Ambient の推論ネットワーク、あらゆる ZKML 証明システムといったスタック全体が、「計算が行われたこと」の証明に執着してきました。マイナーが推論を実行した。ノードが適切なデータセットで N 時間トレーニングした。GPU が主張通りのロジットを生成した。これらは暗号学的に、美しく、そして高コストに検証されてきました。

しかし、企業の調達担当者が実際に発する問い、「そのモデルは本当に優れているのか?」に答えるものは一つもありません。

2026 年 4 月末に Gensyn がリリースした Judge は、このギャップを埋めるための最初の本格的な試みです。これは新たなコンセンサスメカニズムではありません。新たな「〜の証明(proof-of-something)」でもありません。これは、「トレーニングが行われたこと」と「トレーニングが正しく行われたこと」を切り離す、検証可能な評価レイヤーです。そして、この区別こそが、このサイクルで DeAI が提供した中で最も重要なプリミティブになるかもしれません。

検証スタックに開いた穴

Judge がなぜ重要なのかを理解するには、既存の DeAI 検証スタックが実際に何を検証しており、何を密かに検証していないのかを見る必要があります。

Gensyn の Verde(Judge の基盤となるプロトコル)は、特定のニューラルネットワークオペレーターにおける特定のトレーニングステップが、正しい出力を生成したことを検証します。複数の信頼できないプロバイダーが同じタスクを実行し、結果が食い違った場合、レフェリー(審判)が計算グラフ内の不一致が発生した正確なオペレーターを特定し、その操作のみを再実行します。これは、その「ステップ」については、エレガントで安価、かつ証明可能に正確です。

Ambient の Proof-of-Logits は、a16z CSX から 720 万ドルを調達し、Solana SVM 互換 L1 で動作しており、合意されたモデルで推論が行われたことを検証します。マイナーがテキストを生成し、検証者がトークンをランダムにサンプリングし、マイナーが対応するロジットを生成し、検証者がその単一の推論ステップを独立して再実行します。ハッシュが一致すれば、6,000 億超のパラメータを持つモデルにおいて、主張される 0.1% のオーバーヘッドで推論が検証されます。

Lagrange の DeepProve は、最初の zkML システムとして(当初は GPT-2 で)完全な LLM 推論を証明したもので、さらに踏み込んでいます。適切な入力に対して適切なモデルが適切な出力を生成したことを、暗号学的かつゼロ知識証明で証明します。しかし、周知の通り、証明の生成は基礎となる推論よりも数千倍遅いという課題があります。

Bittensor のサブネットバリデーターは、サブネット固有のインセンティブメカニズムに基づいてマイナーの出力をスコアリングしますが、バリデーター自身がスコアリングする結果に対してステークの重みに応じた経済的利害関係を持っています。2026 年 4 月の批判は痛烈なものでした。ステーク量上位 10 のバリデーターがルートネットワークの投票権の約 65% を握り、上位 3 つが 38% を支配しています。Subnet 1 の研究者は、マイナーが既知のバリデーターのクエリに対してキャッシュされた回答を返し、実際の推論ステップを完全にバイパスしながら報酬を得ていることを記録しました。

パターンが見えてくるはずです。これらのシステムはすべて「プロセス」を検証しています。行列演算が正しかったか、推論が実際に実行されたか、出力を署名したモデルがコミットされたものと同じであるか。しかし、その結果得られたモデル、あるいはその結果としての出力が「その役割を十分に果たしているか」を検証するものは一つもありません。

それこそが、Judge が埋めようとしている穴です。

Judge が実際に行うこと

Judge は、事前に合意された決定論的な AI モデルを現実世界の入力に対して実行し、公開の場で検証(チャレンジ)を受けることを確約します。Verde の上に構築されているため、「レフェリーによる委任(refereed delegation)」を継承しています。複数の独立した検証ノードが同じ評価タスクを実行し、不一致が生じた場合は、出力が分かれた特定のオペレーターのみを再計算することで解決します。

技術的な基盤は、Gensyn の Reproducible Execution Environment (REE) です。これは、ヘテロジニアスなデバイス間でビット単位で正確な再現性を保証するランタイムです。これを実現するために、Gensyn は、GPU 上ではデフォルトで非決定論的な操作(浮動小数点のリダクションなど)に対して、結合法則と決定論を強制するカスタム最適化された CUDA カーネルを構築しました。その結果、フランクフルトのデータセンターにある H100 で実行しても、誰かの家の地下室にある 4090 で実行しても、同じ入力に対して同じモデルがビット単位で全く同じロジットを生成します。

これは細かな実装の詳細のように聞こえるかもしれませんが、これこそがすべての基盤となるプリミティブです。ビット単位の再現性があるからこそ、サードパーティの検証者は評価結果を再実行し、「全く同じ答え」を得ることで、その評価の妥当性に異議を唱えることができます。これがなければ、結果の乖離が不正によるものなのか、浮動小数点のノイズによるものなのかを判別することはできません。

このフレームワークは、検証可能な判断が不可欠でありながらスケールさせるのが困難なあらゆる領域、例えば評価ベンチマーク、予測市場の決裁、モデルのリーダーボード、さらには AI を介した紛争解決などに自然に拡張可能です。これらのあらゆる場面において、Judge は「信じてください、クローズドな API がモデルのスコアは 87.3% だと言っています」という言葉を置き換えます。

「クローズド API は不透明で、密かに更新され、再現が不可能である」

Gensyn のローンチ時の投稿にあるこの一文は、マーケティング用のコピーであると同時に、現在の評価業界に対する起訴状でもあります。

2026 年に AI モデルを購入しようとする企業にとって、評価の選択肢は以下のものしかありません。

  1. ベンダー自身のベンチマークを信じる。 OpenAI、Anthropic、Google は、自社の評価ハーネスによる自己申告の数値を公開しています。しかし、そのハーネスは密かに更新される可能性があり、テストセットがトレーニングデータにリークしている可能性もあります。ベンダーには、メトリクスを最適化するあらゆるインセンティブが働いています。

  2. サードパーティのベンチマークを信じる。 MMLU、HumanEval、SWE-bench、LMSYS Chatbot Arena など。これらには信頼性がありますが、やはりクローズドな API であり、少人数のチームによって運営されており、歴史的にテストセットの汚染に対して脆弱です。OpenAI の o1 ファミリーが Codeforces の問題で 89% を記録したとき、即座に上がった疑問は、「そのうちのどれだけがトレーニングセットの記憶によるもので、どれだけが真の汎化能力によるものなのか?」という点でした。

  3. 自社で評価を実行する。 これはコストがかかり、標準化が難しく、結果を公開したり販売したりする場合に外部で再現することは全く不可能です。

Judge は第 4 の選択肢です。それは、誰でも再実行によって検証できる、公開された決定論的な評価です。クローズドな API は、公開された「コミットメント(確約)」へと変わります。

特に分散型 AI において、これは中央集権型 AI 以上に重要です。なぜなら、「発行者の自己利益」という問題が構造的に深刻だからです。Bittensor のサブネット独自のバリデーターがそのサブネット独自のマイナーをスコアリングする場合、利益相反はプロトコルに組み込まれてしまいます。Gensyn Judge は設計上、発行者の自己利益を排除します。検証ノードは作成者ではなく、いかなる判断も、その結果に経済的利害関係のない第三者によって検証(チャレンジ)されることが可能です。

DeAI が避けてきた比較マトリックス

マーケティングが 2 年間この分野を曖昧にしてきたため、各検証プリミティブが実際には何を証明しているのかを整理してみましょう。

  • Verde / Gensyn(トレーニング): このトレーニングステップは、合意されたモデルとデータに基づいて正しい勾配を計算した。 結果として得られたモデルが汎用化されているかどうかについては何も語っていません。
  • Proof-of-Logits / Ambient(推論): この推論コールは、合意されたモデルとプロンプトから主張通りのロジットを生成した。 モデルの回答が正しいか、あるいは有用であるかについては何も語っていません。
  • ZKML / Lagrange DeepProve(推論、ゼロ知識): この特定の推論はこの特定のモデルで正しく実行された。モデルや入力を明かすことなくそれを証明できる。 範囲は Proof-of-Logits と同じですが、プライバシーの保証があり、コストは約 1000 倍かかります。
  • Bittensor サブネット・スコアリング(出力ランキング): これら N 個のマイナー出力の中で、バリデータ V は V のステーク(賭け金)に応じて、この順序でランク付けする。 主観的で、悪用(ゲーム)が可能であり、利害が対立しています。
  • UMA オプティミスティック・オラクル(データの真実): 外部の真実に関する人間が仲裁する主張であり、期間内に異議が唱えられなければ確定する。 金融データのために構築されており、ML 出力の品質のためのものではありません。
  • Gensyn Judge(評価): 事前コミットされた決定論的な評価手順が現実世界の入力に対して正しく実行され、その結果はどの挑戦者によってもビット単位で再現可能である。 このリストの中で、検証可能かつ中立的な方法で出力の「品質」をターゲットにしている唯一のものです。

これは小さな違いではありません。請負業者が仕事に来たことを証明することと、彼らが実際に仕様通りに家を建てたことを証明することの違いです。

エンタープライズ調達がこれなしでは DeAI を購入できない理由

エンタープライズ AI 調達市場は急成長しています。Precedence Research は、調達における AI だけで 2026 年の 42.5 億ドルから 2035 年には 28% の CAGR で 392 億ドルに達すると予測しています。マッキンゼー流のエンタープライズ調査では、本格的な AI 調達イニシアチブのユースケースあたりの支出を 100 万ドルから 260 万ドルと見積もっています。現在、その資金は DeAI には流れていません。その理由は帯域幅やレイテンシではなく、「品質」の検証可能性にあります。

フォーチュン 500 企業の最高リスク管理責任者は、ベンダーが責任を負い、監査証跡を提供するため、GPT-5 や Claude Opus への中央集権的な API コールを承認します。しかし、同じ責任者が、マイナーがキャッシュされた応答を提供している可能性のある Bittensor サブネットを介して推論をルーティングしたり、唯一の証明が「勾配ステップが有効であった」ことである Gensyn コレクティブによってトレーニングされたモデルを購入したりすることを承認することはできません。出来上がった成果物が目的に適合しているかを確認するメカニズムがないからです。

Judge は、中央集権的な世界では構造的に不可能なツールを調達部門に提供することで、その会話を変えます。それは、評価結果が単に公開されるだけでなく、「公開された状態で再実行可能」なモデルです。これは、定期的な認証に過ぎない SOC 2 監査よりも強力な保証です。なぜなら、継続的に反証可能だからです。

これはまた、DeAI が「安さ」以外の調達基準で競争できるようにするレイヤーでもあります。分散型推論が AWS Bedrock より 30% 安いというだけでは、企業の予算は動きません。しかし、中央集権的なプロバイダーには真似できない、暗号化されたビット単位で再現可能な品質証明が付随する分散型推論の出力であれば、話は別です。

再現性の問題は、静かに最も困難な部分である

GPU 上でのビット単位の再現性がどれほど困難であるかを見誤りがちです。CUDA 上の標準的な浮動小数点リダクションは非結合的です。つまり、中間の丸め処理により (a + b) + ca + (b + c) は異なる結果を生みます。また、並列リダクションにおける加算の順序はスレッドのスケジューリングに依存し、それはハードウェア、ドライバ、ランタイムに依存します。同じモデルを同じ入力で実行している 2 台の H100 が、わずかに異なるロジットを定期的に生成します。

ほとんどの ML 推論システムはこれを気にしません。出力はどうせ確率的にサンプリングされるからです。しかし、検証可能な評価にとって、そのドリフト(乖離)は致命的です。検証者と証明者の間でロジットが 0.0001 異なれば、どちらかが不正をしたのか、あるいは単に GPU の丸め処理が異なっただけなのかを判断できません。

Gensyn の REE は、スループットを多少犠牲にしてでも、決定論的なリダクション順序を強制するカスタム CUDA カーネルを記述することでこれを解決します。これはピッチデック(プレゼン資料)には出てこないような低レイヤーのエンジニアリングですが、これこそが真の堀(競合優位性)です。Ambient は、ランダムに選択されたトークン位置でロジットの状態をハッシュ化することで、隣接する問題(合意されたモデルで推論が行われたことの検証)を解決します。Verde と Judge はさらに踏み込み、計算全体がエンドツーエンドで再現可能であることを要求します。

これが、Judge が AI を超えて一般化できる理由でもあります。決定論的モデルを使用したスポーツイベントの結果に対する予測市場の決済や、決定論的なリスクアセスメントに対する保険請求の解決など、公開され、再現可能で、異議申し立てが可能な計算を必要とするものはすべて、同じプリミティブを利用できます。評価ベンチマークのユースケースは、その最初の足がかりに過ぎません。

Judge が解決しないこと(まだ)

正直な評価として、Judge は魔法の検証の杖ではありません。解決していない 3 つの課題があります。

評価設計の問題。 Judge は評価が決定論的かつ再現可能に実行されることを保証します。しかし、評価が「意味のあるもの」であることは保証しません。もしトレーニングデータに漏洩していることが判明したベンチマークにコミットした場合、Judge は無意味な数字を忠実に再現します。ベンチマーク設計の問題(そもそも SWE-bench や ARC-AGI を困難にしている要因)は、Judge の一段階上のレイヤーに位置しており、未解決のままです。

レイテンシとコストのトレードオフ。 参照委任(Refereed delegation)では、複数の検証者が同じ評価を実行する意思を持つ必要があり、紛争メカニズムは不一致があった場合にのみ発動します。冗長な評価実行の費用を誰が負担するのか、そして異議申し立ての資金をどのように調達するのかという経済モデルが、システムが主要なベンチマークを超えて顧客ごとのモデル監査にまでスケールするかどうかを決定します。Gensyn プロトコルの $AI トークン(2025 年 12 月のセールで 3 億トークンが販売予定)が提案されている支払いレールですが、現実世界の評価経済はまだ未知数です。

「モデルとは何か」という問題。 Judge は、事前に合意されたモデルの実行を検証します。モデルがどのようにしてその状態になったのかを検証可能な方法で解決するものではありません。Verde で検証されたトレーニングと Judge で検証された評価を組み合わせることが明らかな終着点ですが、その統合はまだ本番環境レベルではなく、「トレーニングの証明 + 評価の証明」のコストスタックは、どちらか単独の場合よりも大幅に高くなります。

これらは現実的な限界です。しかし、これらは他の DeAI 検証プリミティブも解決できていない限界でもあります。そしていくつかのケース(特に評価設計)では、それらは技術的な問題ではなく、広範な AI 業界全体がまだ解決できていない社会的、経済的な問題なのです。

DeAI スタックにとっての真意

視野を広げてみると、検証スタックは初めて実用的な「梯子(ラダー)」のように見えてきます。

  1. コンピュートアテステーション(計算証明) (TEE、基本的な Proof-of-Work) — このコードがこのハードウェア上で実行された。
  2. プロセス検証 (Verde、Proof-of-Logits、ZKML) — この特定の計算が、この特定の出力を生成した。
  3. 品質評価 (Judge) — このモデルは、合意されたベンチマークに対して主張通りに機能し、再現性がある。
  4. 結果に対する責任 (依然として欠如) — このモデルのデプロイ後の挙動が、時間の経過とともに契約上の SLA を満たした。

DeAI は 2 年間、コストと分散化という物語に基づいた企業の需要が具体化することを期待して、第 1 段と第 2 段を単独で構築してきました。しかし、それは実現しませんでした。Judge は第 3 段、つまり企業のバイヤーがモデル選定を検討する際の実態に即した最初の本格的な試みです。

Gensyn が具体的にこのレイヤーで勝利するか、あるいはその設計が 12 か月以内に Bittensor や Ambient などによって模倣されるかどうかは、もはや重要ではありません。「分散型インフラとしての、中立的で決定論的、かつ異議申し立て可能なモデル評価」というカテゴリー自体が今、定義されました。DeAI の検証に関する議論は、「どの証明システムが最も安価か」から「実際に何を証明しているのか」へと移り変わりました。

これはより健全な議論であり、中央集権型の AI では決して不可能なものです。クローズド API プロバイダーは、異議申し立て可能な評価を提供できません。なぜなら、彼らのモデルは決定論的ではなく、サードパーティ間で再現性がなく、また意味のある暗号学的な意味でのコミットも行われていないからです。AWS Bedrock が構造的に構築できない一方で、DeAI が構築できるものこそが、まさに Judge がリリースしたものなのです。

今後 12 か月で、企業の調達部門がこれに気づくかどうかが明らかになるでしょう。


検証可能なレール(チェーン RPC、インデキシング、またはモデルアテステーションクエリ用)を必要とする DeAI インフラを構築していますか? BlockEden.xyz は、本番環境の Web3 および AI 統合アプリケーションを開発するチーム向けに、27 以上のチェーンでエンタープライズグレードのインフラを提供しています。持続可能な基盤の上に構築するために、当社の API マーケットプレイス をご覧ください。

参照元