Covenant-72B:加密历史上规模最大的协作训练 AI 模型
如果下一个前沿 AI 模型不是在由单一公司拥有的价值十亿美元的数据中心进行训练,而是由分散在全球各地的数十名匿名贡献者通过区块链进行协调,并利用普通的互联网连接进行通信,那会怎样?
这正是刚刚发生的事情。Templar 的 Covenant-72B 是一个拥有 727 亿参数的大型语言模型,完全在 Bittensor 的 Subnet 3 上进行了预训练。它已成为加密历史上最大的协作训练 AI 模型,也是首批在允许完全无许可参与的同时,实现与中心化基准相当性能的模型之一。没有白名单,没有公司看门人。只有 GPU、压缩梯度以及一套让每个人保持诚实的代币激励机制。
Anthropic 联合创始人 Jack Clark 在其颇具影响力的 Import AI 通讯中指出了这一成就,指出去中心化训练算力正以每年 20x 的速度增长——比中心化前沿训练每年 5x 的增长速度快了四倍。
这就是为什么这件事的意义远超 Bittensor 生态系统的原因。
Covenant-72B 解决的 10 亿美元难题
在 2026 年训练一个前沿 LLM 是一场资本高度集中的博弈。Anthropic 的 CEO 曾表示,单次训练运行的成本正接近 10 亿美元。OpenAI、Google DeepMind 和 xAI 竞相争夺有限供应的 NVIDIA H100 和 B200 GPU,将它们锁定在价值数十亿美元的多年期云合同中。结果是:地球上只有五到六个机构有能力训练处于前沿水平的模型。
这种集中化带来了真正的风险。单一公司的对齐(alignment)选择、数据策展决策和商业动机塑造了数以十亿计人们使用的 AI 系统。如果前沿模型训练仍然完全中心化,那么 AI 治理中的“谁来决定”这一问题将缩小到少数几个董事会会议室中。
Covenant-72B 无法在一夜之间解决这个问题,但它提供了第一个可靠的证据,证明在具有实际意义的规模上存在另一条道路。
揭秘 Covenant-72B:技术架构
模型规范
Covenant-72B 采用了类 LLaMA 架构,包含 80 个 Transformer 层,模型宽度为 8,192,拥有 64 个查询注意力头和通过分组查询注意力(GQA)实现的 8 个键值头。它使用了 RoPE 位置嵌入和具有 262,208 个词元(token)词汇表的 Gemma 3 SentencePiece 分词器。
该模型在大约 1.1 万亿个词元上进行了训练——主阶段包含来自 DCLM 网络文本的 1.09 万亿个词元,加上退火阶段基于精选高质量数据(27% 指令、20% 合成网络、15% 代码、13% 数学、25% 回放)的 142 亿个词元。随后通过有监督微调(SFT)阶段又增加了 148 亿个词元,从而产生了一个具备聊天能力的变体。
SparseLoCo:通信突破
支持这种规模的去中心化训练的核心创新是 SparseLoCo,这是一种通信效率极高的优化器,在模型性能和带宽消耗之间实现了帕累托最优(Pareto-optimal)的权衡。
它解决的问题是:在中心化训练中,同一数据中心内的 GPU 通过具有每秒数百 GB 带宽的高速互连(NVLink、InfiniBand)交换梯度。而在普通互联网上的分布式训练,其带宽要低几个数量级。如果天真地同步梯度,训练速度将慢得令人无法接受。
SparseLoCo 采用分块 Top-k 稀疏化和 2-bit 量化技术,将伪梯度压缩了超过 146x。每个节点(peer)使用 AdamW 在本地运行 30 个内部优化步骤,然后仅以高度压缩的形式通信最显著的梯度更新。结果是:每一轮训练大约需要 20 分钟的计算,但只需 70 秒的通信,实现了 94.5% 的计算利用率。
作为对比,此前规模最大的去中心化训练尝试——Prime Intellect 的 INTELLECT-1(一个 10B 参数模型)——每轮需要 8.3 分钟的通信开销。Covenant-72B 训练了一个大 7 倍的模型,但通信时间减少了 7 倍。