Gensyn 的 Judge:位级精确的可复现性如何终结不透明 AI API 时代
每次当你查询 ChatGPT、Claude 或 Gemini 时,你都在信任一个看不见的黑盒。模型版本?未知。精确权重?专有。输出是由你认为正在使用的模型生成的,还是由悄悄更新的变体生成的?无法核实。对于询问食谱或琐事的普通用户来说,这种不透明性仅仅是令人恼火。但对于高风险的 AI 决策——金融交易算法、医疗诊断、法律合同分析——这是一种根本性的信任危机。
Gensyn 的 Judge 于 2025 年底推出,并于 2026 年进入生产阶段。它提供了一种激进的替代方案:加密可验证的 AI 评估,每次推理都可以复现到比特级别。Judge 允许任何人验证特定的、预先商定的 AI 模型是否针对真实输入进行了确定性执行,而不是信任 OpenAI 或 Anthropic 会提供正确的模型——加密证明确保结果无法伪造。
技术突破在于 Verde,这是 Gensyn 的验证系统,它消除了浮点 非确定性——这是 AI 可复现性的克星。通过在不同设备上强制执行逐比特精确的计算,Verde 确保在伦敦的 NVIDIA A100 和东京的 AMD MI250 上运行相同的模型会产生完全相同的结果,并可在链上证明。这为去中心化金融(DeFi)、自主代理(Autonomous Agents)以及任何透明度不是可选项而是生存条件的应用程序开启了可验证 AI。
不透明 API 问题:没有验证的信任
AI 行业运行在 API 之上。开发者通过 REST 终端集成 OpenAI 的 GPT-4、Anthropic 的 Claude 或 Google 的 Gemini,发送提示词并接收响应。但这些 API 在根本上是不透明的:
版本不确定性:当你调用 gpt-4 时,我得到的是哪个确切版本?GPT-4-0314?GPT-4-0613?还是一个悄悄更新的变体?供应商经常在不发布公告的情况下部署补丁,一夜之间改变模型行为。
无审计追踪:API 响应不包含生成它们的模型的加密证明。如果 OpenAI 为特定的地区或客户提供经过审查或有偏见的变体,用户无法检测到。
无声退化:供应商可以为了降低成本而对模型进行“性能阉割”——在保持相同 API 协议的同时降低推理质量。用户反映 GPT-4 随着时间的推移变得“变笨了”,但由于缺乏透明的版本控制,此类说法仍停留在轶事层面。
非确定性输出:由于温度设置、批处理或硬件级浮点舍入误差,即使使用相同的输入两次查询同一个模型,也可能产生不同的结果。这使得审计变得不可能— —当输出不可复现时,你如何验证其正确性?
对于普通应用,这些问题只是不便。对于高风险决策,它们则是阻碍。考虑到:
算法交易:一家对冲基金部署了一个管理着 5000 万美元 DeFi 头寸的 AI 代理。该代理依靠 GPT-4 分析来自 X 帖子的市场情绪。如果模型在交易环节中途悄悄更新,情绪评分会发生不可预测的偏移——从而触发意外的清算。该基金没有证据证明模型表现异常;OpenAI 的日志是不公开审计的。
医疗诊断:一家医院使用 AI 模型来推荐癌症治疗方案。法规要求医生记录决策过程。但如果 AI 模型版本无法验证,审计追踪就是不完整的。医疗事故诉讼可能取决于证明是 哪一个 模型生成了该建议——而这对于不透明的 API 来说是不可能的。
DAO 治理:一个去中心化组织使用 AI 代理对国库提案进行投票。社区成员要求证明该代理使用的是经过批准的模型——而不是一个有利于特定结果的篡改变体。没有加密验证,投票就缺乏合法性。
这就是 Gensyn 瞄准的信任差距:随着 AI 被嵌入到关键决策中,无法验证模型的真实性和行为成为了“在高风险环境中部署代理化 AI 的根本障碍”。
Judge:可验证 AI 评估协议
Judge 通过针对真实输入执行预先商定的确定性 AI 模型,并将结果提交到区块链 (任何人都可以发起挑战)来解决不透明问题。以下是该协议的工作原理:
1. 模型承诺:参与者就 AI 模型达成一致——包括其架构、权重和推理配置。该模型被哈希处理并提交到链上。哈希值充当加密指纹:任何偏离商定模型的行为都会产生不同的哈希值。
2. 确定性执行:Judge 使用 Gensyn 的可复现运行时 运行模型,该运行时保证了跨设备的逐比特精确可复现性。这消除了浮点非确定性——这是我们稍后将探讨的一项关键创新。
3. 公开承诺:推理完成后,Judge 将输出(或其哈希值)发布在链上。这为模型针对给定输入产生的内容创建了一个永久的、可审计的记录。
4. 挑战期:任何人都可以通过独立重新执行模型来挑战结果。如果他们的输出不同,他们可以提交欺诈证明。Verde 的 受仲裁的委托机制 可以精确定位计算图中结果发生分歧的具体操作员。
5. 欺诈罚没:如果挑战者证明 Judge 产生了错误结果,原始执行者将受到惩罚(罚没抵押的代币)。这统一了经济激励:执行者通过正确运行模型来最大化利润。
Judge 将 AI 评估从“信任 API 供应商”转变为“验证加密证明”。模型的行为是公开的、可审计的和可强制执行的——不再隐藏在专有终端后面。
Verde:消除浮点非确定性
可验证 AI 的核心技术挑战在于确定性。神经网络在推理过程中执行数十亿次浮点运算。在现代 GPU 上,这些操作并非完全可复现:
非结合性 (Non-associativity):浮点加法不满足结合律。由于舍入误差,(a + b) + c 的结果可能与 a + (b + c) 不同。GPU 在数千个核心上并行执行求和运算,而部分和累加的顺序会因硬件和驱动程序版本的不同而变化。
内核调度变异性 (Kernel scheduling variability):GPU 内核(如矩阵乘法或注意力机制)可能会根据工作负载、驱动程序优化或硬件架构以不同的顺序执行。即使在同一块 GPU 上运行两次相同的模型,如果内核调度不同,也可能产生不同的结果。
批次大小依赖性 (Batch-size dependency):研究发现 LLM 推理具有系统级非确定性,因为输出取决于批次大小 (batch size)。许多内核(如 matmul、RMSNorm、attention)会根据同时处理的样本数量改变数值输出——批次大小为 1 的推理产生的值与在批次大小为 8 的同一输入中产生的值不同。
这些问题使得标准 AI 模型不适用于区块链验证。如果两个验证者重新运行相同的推理并得到略有不同的输出,谁才是正确的?如果没有确定性,共识就无法达成。
Verde 通过 RepOps (可复现算子) 解决了这一问题。这是一个通过控制所有设备上浮点运算顺序来消除硬件非确定性的库。其工作原理如下:
规范归约顺序 (Canonical reduction orders):RepOps 在执行矩阵乘法等运算时,强制执行部分结果求和的确定性顺序。RepOps 不再由 GPU 调度器决定,而是明确指定:在所有硬件上“先对第 0 列求和,然后 是第 1 列,接着是第 2 列……”。这确保了 (a + b) + c 始终按相同的序列计算。
定制 CUDA 内核 (Custom CUDA kernels):Gensyn 开发了优化的内核,将可复现性置于原始速度之上。与标准的 cuBLAS 相比,RepOps 矩阵乘法的额外开销不到 30%——对于实现确定性来说,这是一个合理的权衡。
驱动程序与版本锁定 (Driver and version pinning):Verde 使用锁定版本的 GPU 驱动程序和规范配置,确保在不同硬件上执行的相同模型产生完全一致的位级输出。在一个数据中心的 NVIDIA A100 上运行的模型,其输出与另一个数据中心 AMD MI250 的输出在位级别上完全匹配。
这是实现 Judge 验证的突破:位级精确的可复现性 意味着验证者可以在不信任执行者的情况下独立确认结果。如果哈希值匹配,推理就是正确的——这在数学上是可证明的。
仲裁委托:无需完整重新计算的高效验证
即便拥有确定性执行,通过朴素方式验证 AI 推理的成本也极其高昂。一个拥有 700 亿参数、生成 1,000 个 token 的模型可能需要 10 个 GPU 小时。如果验证者必须重新运行每一次推理来验证正确性,那么验证成本将等于执行成本——这违背了去中心化的初衷。
Verde 的 仲裁委托机制 (refereed delegation mechanism) 使验证效率呈指数级提升:
多个不可信执行者:Judge 不再只分配给一个执行者,而是将任务分配给多个独立的提供者。每个执行者运行相同的推理并提交结果。
分歧触发调查:如果所有执行者达成一致,结果将被接受——无需进一步验证。如果输出不一致,Verde 会启动挑战博弈。
计算图上的二分查找:Verde 不会重新运行整个推理。相反,它在模型的计算图上执行二分查找,以找到结果产生分歧的第一个算子。这能精准定位导致差异的具体层(例如,“第 47 层注意力机制,第 8 个头”)。
极小化仲裁计算:仲裁者(可以是智能合约或计算能力有限的验证者)仅检查有争议的算子,而不是整个前向传播过程。对于一个拥有 80 层、70B 参数的模型,这在最坏情况下将验证工作量减少到仅需检查约 7 层 (log₂ 80)。
这种方法比朴素复制(即每个验证者重新运行所有内容)效率提升超过 1,350%。Gensyn 结合了加密证明、博弈论和优化流程,在不进行冗余计算的情况下保证了执行的正确性。
结果是:Judge 可以大规模验证 AI 工作负载,从而实现去中心化推理网络,让数千个不可信节点贡献算力——同时捕获并惩罚不诚实的执行者。