跳到主要内容

Gensyn 的 Judge 解决了 AI 最大的信任缺口:谁来评估评估者?

· 阅读需 11 分钟
Dora Noda
Software Engineer

GPT-4 在被要求对同一响应进行两次评判时,有 40% 的概率会自相矛盾。Bard 在医疗系统评价中的参考文献幻觉率高达 91%。而那些旨在保持 AI 诚实的基准测试呢?模型正越来越多地针对这些基准进行优化以博取高分。整个 AI 评估技术栈——即告诉我们模型是否优秀、安全或真实的基础设施——正建立在不透明、不可重现且在我们脚下悄然变动的根基之上。

由 a16z crypto、CoinFund 和 Protocol Labs 支持,获得 5,000 万美元融资的去中心化机器学习协议 Gensyn 认为,它找到了一个结构性的解决方案。其名为 Judge 的新系统将加密可验证的 AI 评估引入生产环境——用确定性的、可挑战的链上模型质量证明取代了黑盒 API 调用。如果该系统能够大规模运行,它可能会重塑 AI 行业建立信任的方式。

鲜有人提及的评估危机

AI 行业有一个公开的秘密:我们并不真正了解模型的表现。至少在任何可验证的意义上都不了解。

如今的评估流程大致如下:模型开发人员针对封闭的 API(通常是 GPT-4 充当 “LLM 评委”)运行基准测试,发布分数,而市场则全盘接受。这种方法带来的问题正在迅速加剧。

封闭式 API 悄然更新。 OpenAI、Anthropic 和 Google 经常在同一个 API 端点后修改其模型。1 月份的基准测试分数到 3 月份可能就无法重现——这并非因为被评估的模型发生了变化,而是因为评估者变了。研究表明,大语言模型(LLM)的判断是 “非确定性的”——要求 GPT-4 对同一个响应评分多次,往往会产生不同的分数。

系统性偏见已根深蒂固。 研究记录显示,LLM 评委表现出位置偏见(倾向于出现在首位的响应)、啰嗦偏见(对较长回答的评分高出约 15%)以及自我增强偏见(对自己输出的评分高出 5-7%)。在医疗和法律等专业领域,LLM 评委与人类评估者之间的一致性下降了 10-15%——而这些领域正是对准确性要求最高的地方。

基准测试博弈是一场军备竞赛。 随着前沿模型在排行榜顶端扎堆,信噪比开始崩溃。模型可以被微调以在特定基准测试中表现良好,但能力却没有实质性的提升——研究人员称这种现象为 “应试教育”。结果就是,评估生态系统中数字在上升,但信任度在下降。

对于一个正将 AI 部署到医疗、金融、法律系统和自动驾驶汽车领域的行业来说,这不仅是一个小麻烦,而是一个关乎存亡的可信度问题。

Judge 登场:确定性、可挑战、可验证

Gensyn 的 Judge 采用了根本不同的方法。Judge 不再信任单一的评估者,而是针对现实输入执行预先约定的、确定性的 AI 模型,并将结果提交到一个任何人都可以挑战结果的系统中。

该架构分为三层:

可重现运行环境(Reproducible Runtime)

Judge 运行在 Gensyn 的可重现运行环境上,该环境保证了异构硬件上的位级精确(bitwise-exact)结果。这比听起来要难。由于 GPU 在并行化矩阵乘法方面的差异,相同的神经网络计算在 NVIDIA A100 与 AMD MI300X 上可能会产生不同的浮点结果。

Gensyn 通过 RepOps (Reproducible Operators) 解决了这个问题——这是一个在不同硬件上对浮点运算强制执行固定执行顺序的库。当两个节点使用 RepOps 运行相同的评估时,它们会得到精确到最后一位的相同结果。这消除了困扰分布式 AI 系统的 “在我的机器上能跑” 的问题。

Verde 争议解决

在底层,Judge 由 Verde 驱动,这是 Gensyn 发布的一篇经过同行评审的论文中所述的验证协议。Verde 将一种称为**受仲裁委托(refereed delegation)**的加密技术应用于机器学习。

其工作原理如下:多个不可信的计算提供商运行相同的评估任务。如果他们都达成一致,结果将被接受。如果他们产生分歧,Verde 会在计算图中启动二分查找,以精确定位结果分歧的特定算子。一个计算开销较小的仲裁者——可以是智能合约或轻量级客户端——只需要重新执行该单个算子即可确定哪方提供商是诚实的。

其效率令人惊叹。仲裁者的计算成本比运行完整模型低两个数量级。针对拥有十亿参数规模模型的评估争议,可以通过重新计算单个矩阵乘法来解决。

链上承诺

每个评估结果都会在链上提交(Gensyn 作为以太坊 Rollup 运行),创建一个不可篡改的记录。任何人都可以验证特定的模型在特定的输入上运行并产生了特定的输出。没有悄然的更新。没有 “相信我” 式的背书。只有数学。

超越基准测试:预测市场与现实世界的争议

Judge 不仅仅是一项学术研究。Gensyn 的初步展示呈现了一个用于 AI 推理的预测市场,强化学习模型在推理问题上进行下注。其支付结构奖励早期正确的预测更甚于晚期预测,从而激励快速且自信的推理。

这种设计模式自然地延伸到几个高价值的应用场景:

  • 去中心化 AI 排行榜:模型排名是加密可验证的,而非自我报告的。
  • 预测市场结算:AI 裁判的决定可以被独立质疑和验证。
  • AI 代理(AI Agents)的质量保证:随着自主 AI 系统处理金融交易,验证其决策过程的能力变得至关重要。
  • 监管合规:随着《欧盟 AI 法案》及类似框架要求 AI 系统具备文档记录和可追溯性,可验证的评估提供了一条可审计的线索。

竞争格局:zkML vs. opML vs. Verde

Gensyn 并非唯一解决可验证 AI 计算的项目。该领域已聚集了三种主要方法:

零知识机器学习 (zkML) —— 像 EZKL、Modulus Labs 和 Giza 这样的项目将 AI 推理转换为零知识电路。其优势是在不泄露模型权重的情况下提供强大的加密保证。缺点是计算开销大:为大型模型生成 ZK 证明的成本仍然比运行模型本身高出几个数量级。由发表过《智能的成本》的斯坦福大学研究人员领导的 Modulus Labs 在降低证明生成成本方面取得了进展,但对于超过数亿参数的模型,zkML 仍然不太实用。

乐观机器学习 (opML) —— 像 Ora 这样的协议采用类似于乐观回滚(Optimistic Rollups)的方法:假设计算是正确的,但允许一个挑战期。当大多数计算是诚实的时,这种方法效率很高,但它依赖于经济激励(质押和削减 / Slashing),而非加密确定性。

仲裁委托 (Verde) —— Gensyn 的方法介于这两个极端之间。它比 zkML 更高效,因为仲裁员仅在出现争议时进行重新计算,且仅重新计算极小比例的工作。它比 opML 更具确定性,因为 RepOps 确保诚实的提供者始终产生完全相同的结果,消除了争议解决中的歧义。

关键的差异化因素是 RepOps。如果没有位级可复现性(Bitwise Reproducibility),仲裁委托机制就会崩溃 —— 诚实节点产生略有不同的浮点结果可能会触发错误的争议。通过在硬件层面解决可复现性问题,Gensyn 使仲裁委托在生产级机器学习工作负载中变得切实可行。

从测试网到代币:Gensyn 的生产之路

Gensyn 的公共测试网于 2025 年 3 月启动,无需等待名单,为去中心化 AI 带来了持久的身份体系。该网络跟踪参与情况、维护归属、处理支付、协调执行并记录分布式训练运行。

该项目的 $AI 代币于 2025 年 12 月通过英式拍卖上市,提供 3 亿枚代币(供应量的 3%),完全稀释估值上限为 10 亿美元。凭借从 a16z crypto、CoinFund、Canonical Crypto、Protocol Labs 和 Eden Block 筹集的 5,000 万美元资金,Gensyn 是去中心化 AI 领域资金最充足的项目之一。

测试网目前支持强化学习(RL)后训练工作负载 —— 自从 OpenAI 的 o1 模型展示了推理时计算扩展的力量以来,强化学习微调已成为主流范式。Judge 将这一基础设施扩展到评估层,完成了训练、推理和质量保证之间的闭环。

为什么可验证评估在当下至关重要

几个趋势的汇聚使 2026 年成为可验证 AI 评估的转折点:

AI 代理的爆发式增长。 随着 282 多个加密 AI 项目部署管理真实资金的自主代理 —— 从 DeFi 策略到跨资产交易 —— 未被检测到的模型故障成本从令人尴尬升级为财务灾难。可验证评估不是“锦上添花”,而是风险基础设施。

监管压力。 2024 年通过的《欧盟 AI 法案》提高了对 AI 系统的文档记录和可追溯性要求。区块链 AI 行业预计将从 2025 年的 6.8 亿美元增长到 2034 年的 43 亿美元,该行业日益受到合规要求的塑造,这些要求需要可审计的评估轨迹。

信任溢价。 在一个充斥着 AI 宣传的市场中,可验证的质量成为了竞争护城河。能够加密证明其模型性能的项目将获得溢价地位 —— 尤其是在“相信我”并非可接受的风险管理策略的机构市场中。

大规模去中心化训练。 随着分布式训练网络的发展 —— Gensyn 协议已经统一了从个人笔记本电脑到数据中心 GPU 的算力 —— 验证瓶颈从“我们能训练吗?”转变为“我们能证明训练是正确的吗?”Judge 直接解决了这一问题。

宏观视角

Gensyn 的 Judge 代表了比单个协议功能发布更深远的意义。它押注于随着模型被部署到日益重要的场景中,AI 行业的评估危机将变得难以维持。

中心化 AI 实验室 —— OpenAI、Anthropic、Google —— 缺乏使其评估流程透明化的结构性动机。他们同时控制着模型和基准测试,就像用可以悄悄改变颜色的笔在为自己的作业打分。去中心化验证为这种闭环提供了一个出口。

Gensyn 是否能具体抓住这一机遇取决于执行情况:随着模型扩展到数千亿个参数,RepOps 能否保持位级可重现性(bitwise reproducibility)?Verde 的争议解决机制能否处理全球评估网络的吞吐量需求?经济激励措施能否吸引足够的诚实算力提供者,从而使系统保持稳健?

这些都是艰巨的工程问题。但是,继续在一个关于模型质量的不可验证主张之上构建 AI 驱动的经济,这种做法正随着时间的推移而变得越来越站不住脚。

AI 行业面临的不是模型质量问题。它面临的是模型质量的“证明”问题。而证明,正是区块链被发明出来的初衷。


BlockEden.xyz 为下一代 AI 和区块链应用提供底层基础设施支持。随着可验证的 AI 计算从研究走向生产环境,强大的节点基础设施已成为去中心化验证网络信任的基石。探索我们的 API 市场 ,在为去中心化未来设计的基础设施上进行开发。