Gensyn Judge:去中心化 AI 缺失的质量验证层
去中心化 AI (DeAI) 花了五年时间在回答错误的问题。整个堆栈 —— Bittensor 的子网、Gensyn 的训练市场、Ambient 的推理网络,以及每一个 ZKML 证明系统 —— 都一直执着于证明 计算已发生。矿工运行了推理。节点在正确的数据集上训练了 N 小时。GPU 产生了声称的 Logits。这些都经过了加密学上的、精美的且昂贵的验证。
但这些都没有回答企业采购主管真正会问的问题:这个模型好用吗?
Gensyn 在 2026 年 4 月下旬推出的 Judge 是填补这一空白的首次严肃尝试。它不是另一种共识机制,也不是另一种“某事证明”。它是一个可验证的评估层,将“训练已发生”与“训练正确发生”分离开来 —— 这种区分可能是 DeAI 在本周期中发布的最重要的原语。
验证栈中存在一个漏洞
要明白 Judge 为何重要,你必须审视现有的 DeAI 验证栈实际上验证了什么 —— 以及它在默默地忽略什么。
Gensyn 的 Verde (Judge 底层的协议) 验证了特定神经网络算子上的特定训练步骤产生了正确的输出。多个互不信任的提供商运行同一个任务;如果结果出现分歧,仲裁者会精确定位计算图中产生分歧的特定算子,并仅重新运行该操作。这种方式优雅、廉价且在 步骤 级别上证明是正确的。
Ambient 的 Proof-of-Logits (Logits 证明) 从 a16z CSX 筹集了 720 万美元,并在兼容 Solana SVM 的 L1 上运行,它验证了推理是在约定的模型上进行的。矿工生成文本,验证者随机抽样一个 Token,矿工产生相应的 Logits,验证者独立地重新运行该单个推理步骤。如果哈希值匹配,推理即被验证,据称在参数量超过 600B 的模型上仅有 0.1% 的开销。
Lagrange 的 DeepProve 是第一个证明完整 LLM 推理 (最初是 GPT-2) 的 zkML 系统,它走得更远:通过加密的零知识证明,证明正确的模型为正确的输入产生了正确的输出。其局限性也众所周知 —— 证明生成速度比底层推理慢数千倍。
Bittensor 的子网验证节点 根据子网特定的激励机制对矿工输出进行评分 —— 但验证节点本身在他们评分的结果中拥有按权益加权的财务利益。2026 年 4 月的批评非常犀利:按质押量排名的前 10 名验证节点控制了根网络约 65% 的投票权,前 3 名控制了 38%,子网 1 (Subnet 1) 的研究人员记录了矿工向已知的验证节点查询提供缓存响应的行为 —— 完全绕过了实际的推理步骤,却依然获得了奖励。
注意其中的模式。每一个系统验证的都是 过程:矩阵乘法是正确的,推理确实执行了,对输出进行签名的模型就是之前承诺的那一个。但没有一个系统验证生成的模型 —— 或生成的 输出 —— 是否胜任其工作。
这就是 Judge 要填补的漏洞。
Judge 实际上做了什么
Judge 执行预先约定的、确定性的 AI 模型,针对现实世界的输入,并承诺接受公开挑战。它构建在 Verde 之上,继承了仲裁委托机制:多个独立的验证节点运行相同的评估任务,分歧通过重新计算输出分歧的特定算子来解决。
其技术基础是 Gensyn 的 可重现执行环境 (REE) —— 一个保证异构设备之间位级精确重现性的运行时。为了实现这一点,Gensyn 构建了定制优化的 CUDA 内核,在默认情况下在 GPU 上具有非确定性的操作(如浮点规约)上强制执行结合律和确定性。结果是:无论是在法兰克福数据中心的 H100 上运行,还是在某人家地下室的 4090 上运行,相同的模型在相同的输入下都会产生完全一致到位的 Logits。
这听起来像是一个底层细节,但它是整个功能的使能原语。位级重现性让第三方验证者能够通过重新运行并获得 完全相同的答案 来挑战评估声明。如果没有它,你就无法判断分歧究竟是欺诈还是浮点噪声。
该框架可以自然地扩展到任何可验证判断至关重要但难以规模化的领域:评估基准测试、预测市场结果裁定、模型排行榜,甚至是 AI 介入的纠纷解决。在所有这些场景中,Judge 取代了“相信我,闭源 API 说该模型得分为 87.3%”这种说法。