Gensyn の Judge が AI 最大の信頼のギャップに挑む:評価者を誰が評価するのか?
GPT-4 は、同じ回答を 2 回評価するよう求められた際、40% の確率で自身と矛盾する評価を下します。Bard は、医学の系統的レビューにおいて参考文献の 91% でハルシネーション(幻覚)を起こしました。AI の誠実さを保つためのベンチマークはどうでしょうか? モデルはますます、それらをハックするように最適化されています。モデルが優れているか、安全か、あるいは真実であるかを判断するインフラである AI 評価スタック全体が、不透明で再現性がなく、足元で静かに変化し続ける基盤の上に成り立っています。
a16z crypto、CoinFund、Protocol Labs から 5,000 万ドルの出資を受けた分散型機械学習プロトコルである Gensyn は、構造的な解決策を見出したと考えています。彼らの新しいシステム Judge は、暗号技術によって検証可能な AI 評価を実用化します。ブラックボックス化した API 呼び出しを、確定的(deterministic)で異議申し立て可能な、モデル品質のオンチェーン証明に置き換えます。これが大規模に機能すれば、AI 業界が信頼を構築する方法を再定義することになるでしょう。