メインコンテンツまでスキップ

Gensyn の Judge が AI 最大の信頼のギャップに挑む:評価者を誰が評価するのか?

· 約 15 分
Dora Noda
Software Engineer

GPT-4 は、同じ回答を 2 回評価するよう求められた際、40% の確率で自身と矛盾する評価を下します。Bard は、医学の系統的レビューにおいて参考文献の 91% でハルシネーション(幻覚)を起こしました。AI の誠実さを保つためのベンチマークはどうでしょうか? モデルはますます、それらをハックするように最適化されています。モデルが優れているか、安全か、あるいは真実であるかを判断するインフラである AI 評価スタック全体が、不透明で再現性がなく、足元で静かに変化し続ける基盤の上に成り立っています。

a16z crypto、CoinFund、Protocol Labs から 5,000 万ドルの出資を受けた分散型機械学習プロトコルである Gensyn は、構造的な解決策を見出したと考えています。彼らの新しいシステム Judge は、暗号技術によって検証可能な AI 評価を実用化します。ブラックボックス化した API 呼び出しを、確定的(deterministic)で異議申し立て可能な、モデル品質のオンチェーン証明に置き換えます。これが大規模に機能すれば、AI 業界が信頼を構築する方法を再定義することになるでしょう。

誰も語らない評価の危機

AI 業界には不都合な真実があります。それは、自分たちのモデルがどれほど優れているのか、検証可能な意味では本当には分かっていないということです。

現在の評価パイプラインは次のようなものです。モデル開発者がクローズドな API(多くの場合、「LLM-as-a-judge」として機能する GPT-4)に対してベンチマークを実行し、スコアを公開し、市場はそれを信用するという流れです。このアプローチに伴う問題は、急速に深刻化しています。

クローズドな API は密かに更新される。 OpenAI、Anthropic、Google は、同じ API エンドポイントの背後で定期的にモデルを修正しています。1 月のベンチマークスコアが 3 月には再現不能になることがあります。それは評価対象のモデルが変わったからではなく、評価者側が変わったからです。研究によると、LLM による判定は「確定的(deterministic)」ではありません。GPT-4 に同じ回答を何度も採点させると、異なるスコアが算出されることがよくあります。

システム的なバイアスが組み込まれている。 複数の研究が、LLM 評価者には、最初に提示された回答を好む「順序バイアス(position bias)」、長い回答に約 15% 高いスコアをつける「饒舌バイアス(verbosity bias)」、そして自身の出力を 5-7% 高く評価する「自己補強バイアス(self-enhancement bias)」があることを記録しています。医学や法律のような精度が最も重要となる専門分野では、LLM 評価者と人間の評価者の一致率は 10-15% 低下します。

ベンチマークのハック(gaming)はいたちごっこである。 最先端のモデルがリーダーボードの最上位に密集するにつれ、S/N 比(信号対雑音比)が崩壊しています。真の能力向上なしに特定のベンチマークで良い成績を収めるようにモデルをファインチューニングすることが可能であり、研究者はこれを「試験のための学習(teaching to the test)」と呼んでいます。その結果、数値は上がるが信頼は下がるという評価エコシステムが生まれています。

医療、金融、法制度、自動運転車などに AI を導入しようとしている業界にとって、これは単なる不便さの問題ではありません。それは存在に関わる信頼性の問題です。

Judge の登場:確定的、異議申し立て可能、検証可能

Gensyn の Judge は、根本的に異なるアプローチを取ります。単一の評価者を信頼する代わりに、Judge は実際の入力に対して 事前に合意された確定的(deterministic)な AI モデル を実行し、その結果を誰でも異議を申し立てることができるシステムにコミットします。

このアーキテクチャには 3 つのレイヤーがあります。

再現可能なランタイム(Reproducible Runtime)

Judge は Gensyn の Reproducible Runtime 上で動作し、異種ハードウェア間でもビット単位で正確な(bitwise-exact)結果を保証します。これは言葉で言うほど簡単ではありません。GPU が行列演算を並列化する方法の違いにより、同じニューラルネットワーク計算でも NVIDIA A100 と AMD MI300X では異なる浮動小数点結果が生成されることがあります。

Gensyn は、異なるハードウェア間で浮動小数点演算の実行順序を固定するライブラリ RepOps (Reproducible Operators) によってこれを解決しました。2 つのノードが RepOps を使用して同じ評価を実行すると、最後のビットまで同一の結果が得られます。これにより、分散型 AI システムを悩ませてきた「自分のマシンでは動く(it works on my machine)」という問題が解消されます。

Verde 紛争解決(Verde Dispute Resolution)

その仕組みとして、Judge は 査読済み論文 として公開された Gensyn の検証プロトコル Verde によって支えられています。Verde は、refereed delegation(参照委託) と呼ばれる暗号技術を機械学習に適応させたものです。

仕組みは次の通りです。複数の信頼されていないコンピューティングプロバイダーが同じ評価タスクを実行します。全員が同意すれば、結果は承認されます。意見が分かれた場合、Verde は計算グラフのバイナリサーチを開始し、結果が食い違った正確なオペレーター(演算子)を特定します。スマートコントラクトや軽量クライアントなどの計算負荷の低いレフェリー(審判)は、その単一のオペレーターだけを再実行して、どのプロバイダーが正直であったかを判断します。

その効率性は驚異的です。レフェリーの計算コストは、フルモデルを実行するよりも 2 桁少なくなります。10 億パラメータの評価に関する紛争も、単一の行列乗算を再計算するだけで解決できます。

オンチェーン・コミットメント(On-Chain Commitment)

すべての評価結果はオンチェーン(Gensyn は Ethereum のロールアップとして動作)にコミットされ、不変の記録が作成されます。特定のモデルが特定の入力に基づいて特定の出力を生成したことを、誰でも検証できます。密かな更新も、「私を信じて」という曖昧な証明もありません。あるのは数学だけです。

ベンチマークを超えて:予測市場と実世界の紛争

Judge は単なる学術的な演習ではありません。Gensyn の最初のショーケースでは、強化学習モデルが推論問題に対して賭けを行う「AI 推論の予測市場」が実演されています。ペイオフ構造は、遅い予測よりも早い段階での正しい予測をより高く報酬し、迅速で自信のある推論を促します。

この設計パターンは、いくつかの高価値なアプリケーションへと自然に拡張されます:

  • 自己申告ではなく、暗号学的に検証可能なモデルランキングを持つ 分散型 AI リーダーボード
  • AI 裁判官(Judge)の決定に対して独立した異議申し立てと検証が可能な 予測市場の解決
  • 自律的な AI システムが金融取引を処理する際の AI エージェントの品質保証。意思決定プロセスの検証能力が極めて重要になります。
  • EU AI 法や同様の枠組みが AI システムの文書化と追跡可能性を要求する中での 規制コンプライアンス。検証可能な評価は監査可能な証跡を提供します。

競争環境:zkML vs. opML vs. Verde

検証可能な AI 計算に取り組んでいるのは Gensyn だけではありません。この分野は主に 3 つのアプローチに集約されています:

ゼロ知識機械学習 (zkML) — EZKL、Modulus Labs、Giza などのプロジェクトは、AI 推論をゼロ知識回路に変換します。利点は、モデルの重みを明らかにすることなく強力な暗号学的保証が得られることです。欠点は計算オーバーヘッドです。大規模なモデルの ZK 証明の生成は、モデル自体の実行よりも依然として数桁高価です。「知能のコスト(The Cost of Intelligence)」を発表したスタンフォード大学の研究者が率いる Modulus Labs は、証明生成コストの削減に進展を見せていますが、zkML は数億パラメータを超えるモデルに対しては依然として実用的ではありません。

楽観的機械学習 (opML) — Ora などのプロトコルは、オプティミスティック・ロールアップに似た楽観的なアプローチを使用します。計算が正しいと仮定し、異議申し立て期間を設けます。これはほとんどの計算が誠実である場合には効率的ですが、暗号学的な確実性ではなく、経済的インセンティブ(ステーキングとスラッシング)に依存します。

参照委託 (Verde) — Gensyn のアプローチは、これらの中間に位置します。レフェリー(参照者)は紛争が発生したときのみ、かつ作業のごく一部のみを再計算するため、zkML よりも効率的です。また、RepOps が誠実なプロバイダーが常に同一の結果を生成することを保証し、紛争解決における曖昧さを排除するため、opML よりも決定論的です。

鍵となる差別化要因は RepOps です。ビット単位の再現性(bitwise reproducibility)がなければ、参照委託は崩壊します。誠実なノードが浮動小数点の結果にわずかな差異を生じさせただけで、誤った紛争が誘発される可能性があるからです。ハードウェアレベルで再現性の問題を解決することで、Gensyn は参照委託を本番環境の ML ワークロードで実用的なものにしています。

テストネットからトークンへ:Gensyn の本番環境への道

Gensyn の公開テストネットは 2025 年 3 月にウェイトリストなしで開始され、分散型 AI に永続的なアイデンティティをもたらしました。ネットワークは参加状況を追跡し、帰属を維持し、支払いを処理し、実行を調整し、分散学習の実行をログに記録します。

プロジェクトの $AI トークンは 2025 年 12 月のイングリッシュ・オークションを通じて市場に出されました。3 億トークン(供給量の 3%)が提供され、完全希薄化後時価総額(FDV)は 10 億ドルに制限されました。a16z crypto、CoinFund、Canonical Crypto、Protocol Labs、Eden Block から 5,000 万ドルを調達した Gensyn は、分散型 AI 分野で最も資金力のあるプロジェクトの 1 つです。

テストネットは現在、RL ポストトレーニング(強化学習による微調整)のワークロードをサポートしています。これは、OpenAI の o1 モデルが推論時計算のスケーリング能力を実証して以来、支配的なパラダイムとなっています。Judge はこのインフラを評価レイヤーまで拡張し、学習、推論、品質保証のループを完結させます。

なぜ今、検証可能な評価が重要なのか

いくつかの収束するトレンドにより、2026 年は検証可能な AI 評価の転換点となります:

AI エージェントの爆発的普及。 DeFi 戦略から資産をまたぐ取引まで、実際のお金を管理する 282 以上のクリプト AI プロジェクトが自律型エージェントを展開する中、検出されないモデル障害のコストは「当惑」から「経済的破滅」へとエスカレートします。検証可能な評価は「あれば良いもの」ではなく、リスク・インフラストラクチャなのです。

規制の圧力。 2024 年に採択された EU AI 法は、AI システムの文書化と追跡可能性の要件を高めています。2025 年の 6 億 8,000 万ドルから 2034 年までに 43 億ドルに成長すると予測されているブロックチェーン AI セクターは、監査可能な評価トレイルを要求するコンプライアンス要件によってますます形作られています。

信頼のプレミアム。 AI に関する主張が溢れる市場において、検証可能な品質は競争上の優位性(モート)となります。モデルのパフォーマンスを暗号学的に証明できるプロジェクトは、プレミアムなポジショニングを確立できるでしょう。特に「私を信じてください」が許容されるリスク管理戦略ではない機関投資家向け市場においては顕著です。

大規模な分散型学習。 個人のラップトップからデータセンターの GPU まで、分散学習ネットワークが成長するにつれ(Gensyn のプロトコルはすでにこれらを統合しています)、検証のボトルネックは「学習できるか?」から「正しく学習したことを証明できるか?」へとシフトします。Judge はこれに直接対処します。

より大きな視点

Gensyn の Judge は、単なる一つのプロトコルの機能リリース以上のものを象徴しています。それは、モデルがますます重要度の高い環境に導入されるにつれ、 AI 業界の評価の危機が維持不可能になるという賭けです。

OpenAI 、 Anthropic 、 Google といった中央集権的な AI ラボには、評価プロセスを透明にする構造的なインセンティブがありません。彼らはモデルとベンチマークの両方をコントロールしており、気づかれないように色が変わるペンで自分の宿題を採点しているようなものです。分散型検証は、この閉じたループからの出口を提示します。

Gensyn が具体的にこの機会を捉えられるかどうかは、実行力にかかっています。モデルが数千億のパラメータにスケールする中で、 RepOps はビット単位の再現性を維持できるでしょうか? Verde の紛争解決は、グローバルな評価ネットワークのスループット要求を処理できるでしょうか? 経済的インセンティブは、システムを堅牢にするのに十分な誠実なコンピューティングプロバイダーを惹きつけることができるでしょうか?

これらは困難なエンジニアリングの課題です。しかし、モデルの品質に関する検証不可能な主張の上に AI 駆動型経済を構築し続けるという選択肢は、月を追うごとに擁護が難しくなっています。

AI 業界にはモデルの品質の問題があるわけではありません。モデルの品質の「証明」の問題があるのです。そして、証明こそがブロックチェーンが構築された目的そのものです。


BlockEden.xyz は、次世代の AI およびブロックチェーンアプリケーションを支えるインフラストラクチャレイヤーをサポートしています。検証可能な AI コンピューティングが研究から本番環境へと移行するにつれ、堅牢なノードインフラストラクチャがトラストレスな評価ネットワークの基盤となります。API マーケットプレイスを探索 して、分散型の未来のために設計されたインフラストラクチャ上で構築を始めましょう。