跳到主要内容

Covenant-72B:加密历史上规模最大的协作训练 AI 模型

· 阅读需 11 分钟
Dora Noda
Software Engineer

如果下一个前沿 AI 模型不是在由单一公司拥有的价值十亿美元的数据中心进行训练,而是由分散在全球各地的数十名匿名贡献者通过区块链进行协调,并利用普通的互联网连接进行通信,那会怎样?

这正是刚刚发生的事情。Templar 的 Covenant-72B 是一个拥有 727 亿参数的大型语言模型,完全在 Bittensor 的 Subnet 3 上进行了预训练。它已成为加密历史上最大的协作训练 AI 模型,也是首批在允许完全无许可参与的同时,实现与中心化基准相当性能的模型之一。没有白名单,没有公司看门人。只有 GPU、压缩梯度以及一套让每个人保持诚实的代币激励机制。

Anthropic 联合创始人 Jack Clark 在其颇具影响力的 Import AI 通讯中指出了这一成就,指出去中心化训练算力正以每年 20x 的速度增长——比中心化前沿训练每年 5x 的增长速度快了四倍。

这就是为什么这件事的意义远超 Bittensor 生态系统的原因。

Covenant-72B 解决的 10 亿美元难题

在 2026 年训练一个前沿 LLM 是一场资本高度集中的博弈。Anthropic 的 CEO 曾表示,单次训练运行的成本正接近 10 亿美元。OpenAI、Google DeepMind 和 xAI 竞相争夺有限供应的 NVIDIA H100 和 B200 GPU,将它们锁定在价值数十亿美元的多年期云合同中。结果是:地球上只有五到六个机构有能力训练处于前沿水平的模型。

这种集中化带来了真正的风险。单一公司的对齐(alignment)选择、数据策展决策和商业动机塑造了数以十亿计人们使用的 AI 系统。如果前沿模型训练仍然完全中心化,那么 AI 治理中的“谁来决定”这一问题将缩小到少数几个董事会会议室中。

Covenant-72B 无法在一夜之间解决这个问题,但它提供了第一个可靠的证据,证明在具有实际意义的规模上存在另一条道路。

揭秘 Covenant-72B:技术架构

模型规范

Covenant-72B 采用了类 LLaMA 架构,包含 80 个 Transformer 层,模型宽度为 8,192,拥有 64 个查询注意力头和通过分组查询注意力(GQA)实现的 8 个键值头。它使用了 RoPE 位置嵌入和具有 262,208 个词元(token)词汇表的 Gemma 3 SentencePiece 分词器。

该模型在大约 1.1 万亿个词元上进行了训练——主阶段包含来自 DCLM 网络文本的 1.09 万亿个词元,加上退火阶段基于精选高质量数据(27% 指令、20% 合成网络、15% 代码、13% 数学、25% 回放)的 142 亿个词元。随后通过有监督微调(SFT)阶段又增加了 148 亿个词元,从而产生了一个具备聊天能力的变体。

SparseLoCo:通信突破

支持这种规模的去中心化训练的核心创新是 SparseLoCo,这是一种通信效率极高的优化器,在模型性能和带宽消耗之间实现了帕累托最优(Pareto-optimal)的权衡。

它解决的问题是:在中心化训练中,同一数据中心内的 GPU 通过具有每秒数百 GB 带宽的高速互连(NVLink、InfiniBand)交换梯度。而在普通互联网上的分布式训练,其带宽要低几个数量级。如果天真地同步梯度,训练速度将慢得令人无法接受。

SparseLoCo 采用分块 Top-k 稀疏化和 2-bit 量化技术,将伪梯度压缩了超过 146x。每个节点(peer)使用 AdamW 在本地运行 30 个内部优化步骤,然后仅以高度压缩的形式通信最显著的梯度更新。结果是:每一轮训练大约需要 20 分钟的计算,但只需 70 秒的通信,实现了 94.5% 的计算利用率

作为对比,此前规模最大的去中心化训练尝试——Prime Intellect 的 INTELLECT-1(一个 10B 参数模型)——每轮需要 8.3 分钟的通信开销。Covenant-72B 训练了一个大 7 倍的模型,但通信时间减少了 7 倍。

Gauntlet:让匿名参与者保持诚实

无许可参与带来了一个显而易见的问题:如何防止“搭便车”者或恶意行为者提交垃圾梯度并骗取奖励?

Gauntlet 就是答案——这是一种与区块链兼容的奖励机制,通过多项检查验证每个节点的贡献:

  • LossScore 评估:评估节点的梯度更新是否真正降低了保留数据集上的模型损失(loss)。
  • 活跃度与同步检查:确保节点确实在进行训练,并与全局模型状态保持同步。
  • 重复检测:通过比较分配数据与随机数据的损失改进,揪出复制他人成果的节点。
  • 基于范数的缩放:贡献相对于中位数进行归一化,防止任何单一节点主导更新。

这正是 Covenant-72B 与 Prime Intellect 的 INTELLECT-1 或 Psyche 的 Consilience-40B 的根本区别:那些项目需要白名单参与者。Covenant-72B 对任何拥有硬件的人开放。

数据对比:表现如何?

基准测试表现

在零样本(zero-shot)评估中,Covenant-72B 的表现与类似规模训练的中心化模型相比极具竞争力:

基准测试Covenant-72BK2 (65B,中心化)LLaMA-2-70B (中心化)
ARC-Challenge56.8%53.8%57.4%
MMLU67.1%65.5%65.6%
HellaSwag80.6%82.9%84.3%
WinoGrande75.9%76.4%80.4%
PIQA81.6%82.5%82.6%

Covenant-72B 在 MMLU(广泛知识基准测试)和 ARC-Challenge(科学推理)上均优于两个基准模型,而在 HellaSwag 和 WinoGrande 上略微落后。研究人员将这些差距归因于数据混合和训练方案的差异,而非基础设施的限制。

聊天微调版本在指令遵循(IFEval:64.7%)和数学推理(MATH:26.3%)方面表现尤为出色,这两项指标均超过了 K2-Chat。

参与规模

  • 每轮平均贡献节点数:16.9(上限为 20 个副本)
  • 每步平均活跃节点数:24.4
  • 最低唯一参与者数量:整个训练运行期间超过 70 个
  • 每个节点的硬件配置:8x NVIDIA B200 GPU
  • 总训练轮数:约 6,190 轮

为什么 Anthropic 的联合创始人对此保持关注

Jack Clark 在 Import AI 中的分析强调了一个显著的不对称性:目前去中心化训练算力比前沿中心化训练小约 1,000 倍。但它的年增长率为 20 倍,而中心化训练的年增长率为 5 倍。

如果这些增长率保持不变,差距将在几年内缩小。Clark 指出,去中心化训练在“技术上是可行的,并可能支持更强大模型的更广泛集体开发”。

这之所以重要,是因为它挑战了 AI 治理讨论中的隐含假设——即训练前沿模型将永远需要国家或万亿级公司的资源。如果一个由匿名 GPU 持有者组成的区块链协调网络今天就能训练出具有竞争力的 72B 模型,那么当同样的方法扩展到 200B 或 400B 参数时,会发生什么?

Covenant AI 生态系统

Templar 的成功催生了一个名为 Covenant AI 的更广泛生态系统,它建立在三个互联的平台之上:

  • Templar(子网 3):去中心化预训练——Covenant-72B 背后的引擎
  • Basilica:去中心化算力租赁——让网络可以获取 GPU 资源
  • Grail:去中心化后期训练——来自人类反馈的强化学习(RLHF)和对齐

这三层架构镜像了现代 AI 开发的完整流程,从原始预训练到微调再到对齐。如果这三层都能在没有中心化协调的情况下大规模运作,它将代表一种完全替代 OpenAI 和 Anthropic 等实验室垂直集成方法的可行方案。

去中心化 AI 训练的竞争格局

Covenant-72B 并非凭空出现。多个项目正在竞争证明去中心化训练的可行性:

项目参数量Token 数量是否无许可?状态
Covenant-72B (Bittensor)72.7B1.1T已完成
Consilience-40B (Psyche)40B否(白名单)已完成
INTELLECT-1 (Prime Intellect)10B否(白名单)已完成
INTELLECT-3 (Prime Intellect)106B MoE声称去中心化在中心化 512-GPU 集群上训练
Gensyn协议层不适用已融资 5,060 万美元,协议开发中

与 Prime Intellect 的对比尤为引人注目。INTELLECT-3 是一款在 AIME 2024 上获得 90.8% 评分的 106B 混合专家(MoE)模型,虽然被宣传为去中心化 AI 项目,但实际上是在中心化的 512-GPU 集群上训练的。相比之下,Covenant-72B 完全无许可、经区块链验证的方法形成了鲜明对比。

局限性与真实挑战

Covenant-72B 是一个里程碑,而非终点。以下局限性值得承认:

规模差距依然巨大。 Covenant-72B 的训练算力约为 9 x 10^17 FLOPs/s,比前沿中心化运行小约 1,000 倍。要赶上 GPT-4 级别的模型,需要大幅缩小这一差距。

参与门槛受限。 20 个副本的上限以及每个节点 8x B200 GPU 的要求,将参与者限制在拥有雄厚硬件资源的贡献者范围内。这还不是“在笔记本电脑上训练 AI”——而是在拥有重型硬件的实体之间实现去中心化。

成本再分配而非成本降低。 去中心化训练本身并不比中心化训练成本更低。它改变的是财务模型——通过代币激励将成本分散到众多参与者身上,而不是集中在单一组织的资产负债表上。

某些基准测试存在质量差距。 该模型在 HellaSwag 和 WinoGrande 上落后于中心化基准模型,这表明数据整理和训练方案优化仍然是中心化实验室保持优势的领域——至少目前如此。

这对 AI 的未来意味着什么

Covenant-72B 代表了去中心化 AI 叙事的相变。在此之前,“去中心化 AI 训练”要么是理论上的,要么局限于小模型,或者需要受信任的参与者。现在,有了已发表的 arXiv 论文、Hugging Face 上的开源权重以及显示出竞争性能的基准测试结果——所有这些都来自一个由区块链协调的完全无许可网络。

这些影响级联到多个领域:

AI 治理:如果训练可以去中心化,那么“监管数据中心”这种实现 AI 安全的方法就变得不够了。政策制定者将需要能够解释分布式训练的框架。

开源 AI:Covenant-72B 的权重是公开可用的,为开源生态系统增加了一个非单一公司资助的 72B 级模型。

代币经济学:激励了整个训练过程的 Bittensor TAO 代币,展示了加密货币代币在投机之外的具体用例——通过市场驱动的激励机制为 AI 研究提供资金。

竞争动态:如果去中心化训练继续以每年 20 倍的速度扩展,中心化实验室将不仅面临来自彼此的压力,还面临来自开放、无许可网络的压力。这些网络无法被收购,无法作为单一实体被监管,也无法被关闭。

问题不再是去中心化 AI 训练是否可行。而是它能多快缩小与中心化前沿实验室的差距,以及当它做到这一点时,AI 行业的权力结构会发生什么变化。


BlockEden.xyz 提供企业级区块链 API 基础设施,为 Bittensor 等使此类项目成为可能的去中心化网络提供动力。探索我们的 API 市场,在去中心化 AI 革命的基础设施层进行构建。