Gensyn 的 Judge 解决了 AI 最大的信任缺口:谁来评估评估者?
GPT-4 在被要求对同一响应进行两次评判时,有 40% 的概率会自相矛盾。Bard 在医疗系统评价中的参考文献幻觉率高达 91%。而那些旨在保持 AI 诚实的基准测试呢?模型正越来越多地针对这些基准进行优化以博取高分。整个 AI 评估技术栈——即告诉我们模型是否优秀、安全或真实的基础设施——正建立在不透明、不可重现且在我们脚下悄然变动的根基之上。
由 a16z crypto、CoinFund 和 Protocol Labs 支持,获得 5,000 万美元融资的去中心化机器学习协议 Gensyn 认为,它找到了一个结构性的解决方案。其名为 Judge 的新系统将加密可验证的 AI 评估引入生产环境——用确定性的、可挑战的链上模型质量证明取代了黑盒 API 调用。如果该系统能够大规模运行,它可能会重塑 AI 行业建立信任的方式。