Gensyn の Judge:ビット単位で正確な再現性が不透明な AI API の時代をどのように終わらせるか
ChatGPT や Claude、あるいは Gemini にクエリを投げるたびに、ユーザーは目に見えないブラックボックスを信頼していることになります。モデルのバージョンは? 不明です。正確な重みは? プロプライエタリです。出力が、自分が使用していると思っているモデルによって生成されたのか、それとも密かに更新されたバリアントによるものなのか? 検証は不可能です。レシピや雑学を尋ねるカジュアルなユーザーにとって、この不透明さは単に煩わしいだけかもしれません。しかし、金融取引アルゴリズム、医療診断、法的契約の分析など、重大な意思決定を伴う AI 利用においては、これは根本的な信頼の危機となります。
2025 年後半にリリースされ、2026 年に本稼働を開始する Gensyn の Judge は、急進的な代替案を提示します。それは、すべての推論がビット単位まで再現可能な、暗号学的に検証可能な AI 評価です。正しいモデルを提供するために OpenAI や Anthropic を信頼する代わりに、Judge は、特定の合意済みの AI モデルが現実世界の入力に対して決定論的に実行されたことを、誰でも検証で きるようにします。暗号学的証明により、結果を偽造することはできません。
技術的な突破口は、AI の再現性を阻む要因となっていた浮動小数点の非決定性を排除する、Gensyn の検証システム Verde です。Verde は、デバイスをまたいでビット単位で正確な計算を強制することで、ロンドンの NVIDIA A100 と東京の AMD MI250 で同じモデルを実行しても同一の結果が得られることを保証し、それをオンチェーンで証明可能にします。これにより、分散型金融(DeFi)、自律型エージェント、および透明性がオプションではなく必須であるあらゆるアプリケーションにおいて、検証可能な AI が利用可能になります。
不透明な API の問題:検証なき信頼
AI 業界は API で動いています。開発者は、REST エンドポイントを介して OpenAI の GPT-4、Anthropic の Claude、または Google の Gemini を統合し、プロンプトを送信してレスポンスを受け取ります。しかし、これらの API は根本的に不透明です。
バージョンの不確実性:gpt-4 を呼び出したとき、正確にはどのバージョンを取得しているのでしょうか? GPT-4-0314? GPT-4-0613? それとも密かに更新されたバリアントでしょうか? プロバイダーは、公表せずにパッチを頻繁に適用し、一夜にしてモデル の挙動を変えてしまうことがあります。
監査証跡の欠如:API のレスポンスには、どのモデルがそれを生成したかを示す暗号学的証明が含まれていません。OpenAI が特定の地域や顧客に対して、検閲された、あるいは偏ったバリアントを提供したとしても、ユーザーにはそれを検知する術がありません。
サイレントな劣化:プロバイダーは、コストを削減するためにモデルを「ロボトミー化(性能の意図的な劣化)」し、API の規約は維持したまま推論の質を下げることがあります。ユーザーからは GPT-4 が時間の経過とともに「性能が落ちた」という報告が上がりますが、透明性のあるバージョニングがなければ、そのような主張は客観的な裏付けを欠いたままとなります。
非決定的な出力:温度設定、バッチ処理、またはハードウェア レベルの浮動小数点丸め誤差により、同一の入力で同じモデルに 2 回クエリを実行しても、異なる結果が得られることがあります。これにより監査は不可能になります。出力が再現可能でない場合、どのようにして正しさを検証すればよいのでしょうか?
カジュアルな用途であれば、これらの問題は不便な程度で済みます。しかし、重大な意思決定においては、これらは致命的な障害となります。以下を考えてみてください。
アルゴリズム取引:あるヘッジファンドが、5,000 万ドルの DeFi ポジションを管理する AI エージェントを運用しているとします。このエージェントは、X(旧 Twitter)の投稿から市場センチメントを分析するために GPT-4 に依存しています。取引セッションの途中でモデルが密かに更新 され、センチメント スコアが予測不能に変化すると、意図しない清算が引き起こされる可能性があります。ファンドにはモデルが誤動作したという証拠がなく、OpenAI のログは公開監査されていません。
医療診断:ある病院が癌の治療法を推奨するために AI モデルを使用しています。規制により、医師は意思決定プロセスを文書化する必要があります。しかし、AI モデルのバージョンを検証できない場合、監査証跡は不完全になります。医療過誤訴訟は「どの」モデルが推奨を生成したかを証明できるかどうかにかかっているかもしれませんが、不透明な API ではそれは不可能です。
DAO ガバナンス:分散型組織(DAO)が、トレジャリーの提案に投票するために AI エージェントを使用しています。コミュニティ メンバーは、エージェントが承認されたモデルを使用したという証拠を求めます。特定の結果に有利なように改ざんされたバリアントではないという証拠です。暗号学的検証がなければ、投票の正当性が欠如してしまいます。
これこそが Gensyn がターゲットとする信頼のギャップです。AI が重要な意思決定に組み込まれるにつれ、モデルの真正性と挙動を検証できないことは、「重大な環境においてエージェンティック(自律的)AI を導入する上での根本的な障壁」となります。