跳到主要内容

Gensyn Judge:去中心化 AI 缺失的质量验证层

· 阅读需 15 分钟
Dora Noda
Software Engineer

去中心化 AI (DeAI) 花了五年时间在回答错误的问题。整个堆栈 —— Bittensor 的子网、Gensyn 的训练市场、Ambient 的推理网络,以及每一个 ZKML 证明系统 —— 都一直执着于证明 计算已发生。矿工运行了推理。节点在正确的数据集上训练了 N 小时。GPU 产生了声称的 Logits。这些都经过了加密学上的、精美的且昂贵的验证。

但这些都没有回答企业采购主管真正会问的问题:这个模型好用吗?

Gensyn 在 2026 年 4 月下旬推出的 Judge 是填补这一空白的首次严肃尝试。它不是另一种共识机制,也不是另一种“某事证明”。它是一个可验证的评估层,将“训练已发生”与“训练正确发生”分离开来 —— 这种区分可能是 DeAI 在本周期中发布的最重要的原语。

验证栈中存在一个漏洞

要明白 Judge 为何重要,你必须审视现有的 DeAI 验证栈实际上验证了什么 —— 以及它在默默地忽略什么。

Gensyn 的 Verde (Judge 底层的协议) 验证了特定神经网络算子上的特定训练步骤产生了正确的输出。多个互不信任的提供商运行同一个任务;如果结果出现分歧,仲裁者会精确定位计算图中产生分歧的特定算子,并仅重新运行该操作。这种方式优雅、廉价且在 步骤 级别上证明是正确的。

Ambient 的 Proof-of-Logits (Logits 证明) 从 a16z CSX 筹集了 720 万美元,并在兼容 Solana SVM 的 L1 上运行,它验证了推理是在约定的模型上进行的。矿工生成文本,验证者随机抽样一个 Token,矿工产生相应的 Logits,验证者独立地重新运行该单个推理步骤。如果哈希值匹配,推理即被验证,据称在参数量超过 600B 的模型上仅有 0.1% 的开销。

Lagrange 的 DeepProve 是第一个证明完整 LLM 推理 (最初是 GPT-2) 的 zkML 系统,它走得更远:通过加密的零知识证明,证明正确的模型为正确的输入产生了正确的输出。其局限性也众所周知 —— 证明生成速度比底层推理慢数千倍。

Bittensor 的子网验证节点 根据子网特定的激励机制对矿工输出进行评分 —— 但验证节点本身在他们评分的结果中拥有按权益加权的财务利益。2026 年 4 月的批评非常犀利:按质押量排名的前 10 名验证节点控制了根网络约 65% 的投票权,前 3 名控制了 38%,子网 1 (Subnet 1) 的研究人员记录了矿工向已知的验证节点查询提供缓存响应的行为 —— 完全绕过了实际的推理步骤,却依然获得了奖励。

注意其中的模式。每一个系统验证的都是 过程:矩阵乘法是正确的,推理确实执行了,对输出进行签名的模型就是之前承诺的那一个。但没有一个系统验证生成的模型 —— 或生成的输出 —— 是否胜任其工作

这就是 Judge 要填补的漏洞。

Judge 实际上做了什么

Judge 执行预先约定的、确定性的 AI 模型,针对现实世界的输入,并承诺接受公开挑战。它构建在 Verde 之上,继承了仲裁委托机制:多个独立的验证节点运行相同的评估任务,分歧通过重新计算输出分歧的特定算子来解决。

其技术基础是 Gensyn 的 可重现执行环境 (REE) —— 一个保证异构设备之间位级精确重现性的运行时。为了实现这一点,Gensyn 构建了定制优化的 CUDA 内核,在默认情况下在 GPU 上具有非确定性的操作(如浮点规约)上强制执行结合律和确定性。结果是:无论是在法兰克福数据中心的 H100 上运行,还是在某人家地下室的 4090 上运行,相同的模型在相同的输入下都会产生完全一致到位的 Logits。

这听起来像是一个底层细节,但它是整个功能的使能原语。位级重现性让第三方验证者能够通过重新运行并获得 完全相同的答案 来挑战评估声明。如果没有它,你就无法判断分歧究竟是欺诈还是浮点噪声。

该框架可以自然地扩展到任何可验证判断至关重要但难以规模化的领域:评估基准测试、预测市场结果裁定、模型排行榜,甚至是 AI 介入的纠纷解决。在所有这些场景中,Judge 取代了“相信我,闭源 API 说该模型得分为 87.3%”这种说法。

“闭源 API 是不透明的、被秘密更新的,且无法重现”

这句话出自 Gensyn 的发布公告,是其营销文案,也是对当前评估行业的控诉。

如果你是 2026 年购买 AI 模型的一家企业,你唯一的评估选择是:

  1. 信任供应商自己的基准测试。 OpenAI、Anthropic、Google 在他们自己的评估套件上发布自报的数据。评估套件可以被默默更新。测试集可能泄露到训练数据中。供应商有充分的动力去针对指标进行优化。

  2. 信任第三方基准测试。 MMLU、HumanEval、SWE-bench、LMSYS Chatbot Arena。这些具有公信力,但它们也是闭源 API,由小团队运营,且历史上容易受到测试集污染的影响。当 OpenAI 的 o1 系列在 Codeforces 题目上获得 89% 的分数时,紧接着的问题就是:其中有多少是训练集记忆,有多少是真正的泛化能力?

  3. 运行你自己的评估。 成本昂贵,难以标准化,而且如果你想发布或销售结果,外部完全无法重现。

Judge 是第四个选择:一个公开的、确定性的评估,任何人都可以通过重新运行来发起挑战。闭源 API 变成了一个公开的承诺。

对于去中心化 AI 来说,这一点比中心化 AI 更重要,因为 发行者自利 问题在结构上更严重。当 Bittensor 子网的验证节点为该子网的矿工评分时,利益冲突就内置在了协议中。Gensyn Judge 从设计上消除了发行者的自利行为 —— 验证节点不是生产者,任何判断都可以由与结果没有经济利益关系的第三方提出挑战。

DeAI 一直在回避的对比矩阵

让我们阐明每种验证原语(verification primitive)实际证明了什么,因为这两年的市场营销已经把这些概念搅混了:

  • Verde / Gensyn (训练): 这一训练步骤在约定的模型和数据上计算出了正确的梯度。 这并不能说明生成的模型是否具有泛化能力。
  • Proof-of-Logits / Ambient (推理): 此推理调用从约定的模型和提示词中生成了声称的 Logits。 这并不能说明模型的回答是否正确或有用。
  • ZKML / Lagrange DeepProve (推理,零知识): 这一特定推理在特定模型上正确运行,且我可以在不泄露模型或输入的情况下证明这一点。 其范畴与 Proof-of-Logits 相同,但具有隐私保证且成本高出约 1000 倍。
  • Bittensor 子网评分 (输出排名): 在这些 N 个矿工输出中,验证者 V 根据其质押权重按此顺序进行排名。 具有主观性、易受操纵且存在利益冲突。
  • UMA 乐观预言机 (数据真相): 关于外部真相的人工仲裁声明,若在窗口期内未受挑战则结算。 为金融数据而建,而非针对 ML 输出质量。
  • Gensyn Judge (评估): 预先承诺的确定性评估程序在真实世界输入上正确执行,且结果可由任何挑战者进行位级可重现(bitwise reproducible)。 这是名单中唯一以可验证、中立的方式针对输出 质量 的方案。

这并非一个小小的区别。这就像是“证明承包商已经到岗工作”与“证明他们确实按照规范建造了房屋”之间的区别。

为什么没有这一机制,企业采购就不会购买 DeAI

企业 AI 采购市场正处于高速增长期 —— Precedence Research 预计,仅采购领域的 AI 支出就将从 2026 年的 42.5 亿美元增长到 2035 年的 392 亿美元,复合年增长率(CAGR)达 28%。麦肯锡风格的企业研究显示,严重的 AI 采购计划在每个用例上的支出约为 100 万至 260 万美元。目前这些资金都没有流向 DeAI,原因不在于带宽或延迟,而在于 质量的可验证性

财富 500 强的风险官会签字批准对 GPT-4 或 Claude Opus 的中心化 API 调用,因为供应商承担法律责任并提供审计线索。同样的风险官无法签字批准将推理路由到 Bittensor 子网,因为其矿工可能提供的是缓存的响应;也无法购买由 Gensyn 集体训练的模型,因为其唯一的证明只是“梯度步骤有效”。目前还没有机制可以验证生成的产物是否符合用途。

Judge 改变了这一对话,它为采购部门提供了一个在中心化世界中结构性缺失的工具:一个评估结果不仅被发布、而且可以 公开重新运行 的模型。这比任何 SOC 2 审计都是更强大的保证,因为它是持续可证伪的,而非周期性的认证。

这也是让 DeAI 能够基于“我们更便宜”以外的采购标准进行竞争的层面。去中心化推理比 AWS Bedrock 便宜 30% 并不足以打动企业预算。但如果去中心化推理的输出带有加密的、位级可重现的质量认证,而这是任何中心化供应商都无法比拟的 —— 那就完全不同了。

可重现性问题悄然成为最难的部分

人们很容易低估在 GPU 上实现位级可重现(bitwise reproducibility)有多么困难。CUDA 上的标准浮点归约(floating-point reductions)是非结合的 —— (a + b) + ca + (b + c) 会因为中间舍入而产生不同的结果,而并行归约中的求和顺序取决于线程调度,这又取决于硬件、驱动程序和运行时。两张运行相同模型和相同输入的 H100 经常会产生略有不同的 Logits。

大多数 ML 推理系统并不在意这一点,因为输出本来就是随机采样的。但对于可验证的评估来说,这种偏差是致命的。如果验证者和证明者在 Logit 上有 0.0001 的分歧,你无法判断是其中一人作弊了,还是 GPU 的舍入方式不同。

Gensyn 的 REE 通过编写自定义 CUDA 内核来强制执行确定性的归约顺序来解决这个问题,即使这会牺牲一些吞吐量。这种底层工程不会出现在任何融资演讲稿中,但却是真正的护城河。Ambient 解决了一个邻近的问题(验证推理是在约定的模型上进行的),方法是在随机选择的 Token 位置对 Logit 状态进行哈希处理;Verde 和 Judge 则更进一步,要求整个计算端到端都是可重现的。

这也是为什么 Judge 的应用可以超越 AI。任何需要公开、可重现、可挑战的计算 —— 例如使用确定性模型对体育赛事结果结算预测市场,或根据确定性风险评估解决保险理赔 —— 都可以利用相同的原语。评估基准测试(eval-benchmark)用例只是第一个切入点。

Judge 尚未解决的问题

坦率评估:Judge 并非万能的验证魔杖。它还有三个尚未解决的公开问题。

评估设计问题。 Judge 保证了评估执行的确定性和可重现性。它并不保证评估本身是 有意义的。如果你承诺一个基准测试,但结果发现该测试已泄露到训练数据中,Judge 仍会忠实地重现一个毫无意义的数字。基准设计问题 —— 这也是导致 SWE-bench 和 ARC-AGI 如此困难的根本原因 —— 处于 Judge 之上的一个层级,目前尚未解决。

延迟与成本的权衡。 裁判委托(Refereed delegation)需要多个验证者愿意运行相同的评估,争议机制仅在出现分歧时启动。谁来支付冗余评估运行的费用,以及挑战如何获得资金,这些经济学问题将决定该系统能否从核心基准测试扩展到针对每个客户的模型审计。Gensyn 协议的 $AI 代币(在 2025 年 12 月的销售中售出了 3 亿枚)是拟议的支付轨道,但现实世界的评估经济学仍有待证明。

“模型是什么”的问题。 Judge 验证的是预先约定的模型的执行。它并没有解决如何以可验证的方式证明 模型是如何进入该状态的。将 Verde 验证的训练与 Judge 验证的评估相结合是显而易见的终局方案,但目前的集成尚未达到生产级,且“证明训练 + 证明评估”的成本堆栈显著高于其中任何一者。

这些都是真实的局限性。但这些局限性也是目前其他任何 DeAI 验证原语都无法解决的 —— 在某些情况下(尤其是评估设计),它们并非真正的技术问题,而是整个 AI 行业尚未解决的社会和经济问题。

这对 DeAI 技术栈意味着什么

放大来看,验证栈第一次显现出清晰的阶梯结构:

  1. 计算证明 (TEEs, 基础工作量证明) —— 这段代码运行在此硬件上。
  2. 过程验证 (Verde, Proof-of-Logits, ZKML) —— 这次特定计算产生了此特定输出。
  3. 质量评估 (Judge) —— 此模型在商定的基准测试下表现如其声称的那样,且具备可复现性。
  4. 结果问责 (目前仍然缺失) —— 此模型的部署行为在一段时间内符合合同规定的 SLA。

两年来,DeAI 一直在孤立地构建第 1 层和第 2 层,寄希望于企业级需求能基于成本和去中心化的叙事而产生。然而事实并非如此。Judge 是对第 3 层的第一次认真尝试 —— 这一层真正映射了企业买家在选择模型时的思考方式。

无论是 Gensyn 最终赢得这一层,还是该设计在 12 个月内被 Bittensor、Ambient 等项目模仿,这几乎都不再是重点。这个类别本身 —— 作为去中心化基础设施的中立、确定性、可挑战的模型评估 —— 已经得到了定义。DeAI 验证的争论已从 “哪种证明系统最便宜” 转向 “我们到底在证明什么”。

这是一个更健康的辩论,也是中心化 AI 完全无法参与的辩论。封闭式 API 提供商无法提供可挑战的评估,因为他们的模型不具备确定性,无法在第三方之间复现,也没有在任何有意义的密码学意义上进行承诺。DeAI 能构建而 AWS Bedrock 在结构上无法实现的东西,正是 Judge 刚刚发布的东西。

接下来的 12 个月将告诉我们企业采购部门是否会注意到这一点。


正在构建需要可验证轨道的 DeAI 基础设施 —— 用于链上 RPC、索引或模型证明查询?BlockEden.xyz 为开发生产级 Web3 和 AI 集成应用的团队提供覆盖 27+ 条链的企业级基础设施。探索我们的 API 市场,在经得起时间考验的基石上进行构建。

资料来源