Covenant-72B: クリプト史上最大の共同トレーニング AI モデル
もし、次世代のフロンティア AI モデルが、一企業の所有する数十億ドルのデータセンターではなく、世界中に分散した数十人の匿名コントリビューターによって、ブロックチェーンで調整され、一般的なインターネット接続を介してトレーニングされたとしたらどうでしょうか?
それこそが、今まさに起きたことです。Templar の Covenant-72B は、Bittensor の Subnet 3 のみで事前学習された 727 億パラメータの大規模言語モデル(LLM)であり、暗号資産の歴史の中で最大の共同トレーニングによる AI モデルとなりました。また、完全にパーミッションレスな参加を許可しながら、中央集権的なベースラインと同等の競争力のあるパフォーマンスを達成した最初のモデルの 1 つでもあります。ホワイトリストはありません。企業のゲートキーパーもいません。あるのは GPU、圧縮された勾配、そして全員を誠実さに保つトークンインセンティブメカニズムだけです。
Anthropic の共同創設者である Jack Clark 氏は、彼の影響力のあるニュースレター「Import AI」でこの成果を取り上げ、分散型トレーニングの計算能力が年間 20 倍で成長していることを指摘しました。これは、中央集権的なフロンティアトレーニングの年間成長率 5 倍の 4 倍の速さです。
これが Bittensor エコシステムを遥かに超えて重要である理由は以下の通りです。
Covenant-72B が解決する 10 億ドルの問題
2026 年にフロンティア LLM をトレーニングすることは、資本の集中を意味します。Anthropic の CEO は、1 回のトレーニングにかかるコストが 10 億ドルに近づいていると述べています。OpenAI、Google DeepMind、xAI は、NVIDIA H100 や B200 GPU の限られた供給を奪い合い、数十億ドル相当の複数年のクラウド契約を結んでいます。その結果、地球上でフロンティアレベルのモデルをトレーニングできる組織は 5 つか 6 つしかありません。
この集中は現実的なリスクを生み出します。一企業のアライメントの選択、データキュレーションの決定、および商業的インセンティブが、数十億人が使用する AI システムを形作ります。フロンティアモデルのトレーニングが独占的に中央集権化されたままであれば、AI ガバナンスにおける「誰が決めるのか」という問いは、一握りの取締役会に限定されてしまいます。
Covenant-72B がこれを一晩で解決するわけではありません。しかし、意味のある規模で別の道が存在することを証明する、最初の信頼できる証拠を提供しました。
Covenant-72B の内部:テクニカルアーキテクチャ
モデル仕様
Covenant-72B は、80 のトランスフォーマーレイヤー、8,192 のモデル幅、64 のクエリアテンションヘッド、およびグループクエリアテンション(GQA)による 8 つのキー・バリューヘッドを備えた LLaMA スタイルのアーキテクチャを採用しています。RoPE 位置エンコーディングと、262,208 トークンの語彙を持つ Gemma 3 SentencePiece トークナイザーを使用しています。
このモデルは約 1.1 兆トークンでトレーニングされました。メインフェーズでの DCLM Web テキストからの 1.09 兆トークンに加え、厳選された高品質データ(インストラクション 27%、合成 Web 20%、コード 15%、数学 13%、リプレイ 25%)によるアニーリングフェーズでの 142 億トークンが含まれます。教師あり微調整(SFT)ステージでは、さらに 148 億トークンが追加され、チャット対応のバリアントが生成されました。
SparseLoCo:通信のブレイクスルー
この規模での分散型トレーニングを可能にした核心的なイノベーションは、モデルのパフォーマンスと帯域幅消費の間のパレート最適なトレードオフを実現する、通信効率の高いオプティマイザー「SparseLoCo」です。
これが解決する問題は次の通りです。中央集権的なトレーニングでは、同じデータセンター内の GPU が、数百 Gbps の帯域幅を持つ高速相互接続(NVLink、InfiniBand)を介して勾配を交換します。一般的なインターネットを介した分散型トレーニングでは、帯域幅が数桁低くなります。単純に勾配を同期させると、トレーニングは不可能に近いほど遅くなります。
SparseLoCo は、2 ビット量子化を伴うチャンクごとの Top-k スパース化を使用して、擬似勾配を 146 倍 以上に圧縮します。各ピアは AdamW を使用してローカルで 30 の内部最適化ステップを実行し、最も重要な勾配の更新のみを大幅に圧縮された形式で通信します。その結果、各トレーニングラウンドには約 20 分の計算が必要ですが、通信に必要なのはわずか 70 秒であり、94.5% の計算利用率 を達成しています。
比較のために、以前の最大の分散型トレーニングの試みである Prime Intellect の INTELLECT-1(10B パラメータモデル)では、1 ラウンドあたり 8.3 分の通信オーバーヘッドが必要でした。Covenant-72B は、通信時間を 7 分の 1 に抑えながら、7 倍大きなモデルをトレーニングしました。
Gauntlet:匿名の参加者を誠実な状態に保つ
パーミッションレスの参加には明らかな問題があります。フリーローダーや敵対的なアクターがゴミのような勾配を提出し、報酬を受け取るのをどのように防ぐのでしょうか?
Gauntlet はその答えです。これは、複数のチェックを通じて各ピアの貢献を検証するブロックチェーン互換の報酬メカニズムです。
- LossScore 評価: ピアの勾配更新が、ホールドアウトされたデータバッチで実際にモデルの損失(loss)を改善するかどうかで評価されます。
- 生存(Liveness)および同期チェック: ピアが実際にトレーニングを行っており、グローバルなモデル状態と同期していることを確認します。
- 重複検出: 割り当てられたデータとランダムなデータでの損失の改善を比較し、他のピアの作業をコピーしているピアを特定します。
- ノルムベースのスケーリング: 貢献は中央値に対して正規化され、単一のピアが更新を支配するのを防ぎます。
これが Covenant-72B を Prime Intellect の INTELLECT-1 や Psyche の Consilience-40B と根本的に異ならせている点です。これらのプロジェクトではホワイトリストに登録された参加者が必要でした。Covenant-72B は、ハードウェアを持つすべての人に開かれていました。
数値データ:比較結果はどうなるか?
ベンチマークパフォーマンス
ゼロショット評価において、Covenant-72B は同様の規模でトレーニングされた中央集権型モデルと遜色ないパフォーマンスを発揮しています。
| ベンチマーク | Covenant-72B | K2 (65B, 中央集権型) | LLaMA-2-70B (中央集権型) |
|---|---|---|---|
| ARC-Challenge | 56.8% | 53.8% | 57.4% |
| MMLU | 67.1% | 65.5% | 65.6% |
| HellaSwag | 80.6% | 82.9% | 84.3% |
| WinoGrande | 75.9% | 76.4% | 80.4% |
| PIQA | 81.6% | 82.5% | 82.6% |
Covenant-72B は、広範な知識を問うベンチマーク(MMLU)および科学的推論(ARC-Challenge)の両方でベースラインを上回っていますが、HellaSwag と WinoGrande ではわずかに後れを取っています。研究者らは、これらの差はインフラの制限ではなく、データの混合率やトレーニングレシピの違いによるものだとしています。
チャット調整済みバリアントは、指示追従性(IFEval: 64.7%)と数学的推論(MATH: 26.3%)において特に強 みを示しており、両方の指標で K2-Chat を上回っています。
参加規模
- ラウンドあたりの平均参加ピア数: 16.9(最大 20 レプリカに制限)
- ステップあたりの平均アクティブピア数: 24.4
- 最小ユニーク参加者数: トレーニング実行全体で 70 以上
- ピアあたりのハードウェア: NVIDIA B200 GPU x 8
- 総トレーニングラウンド数: 約 6,190
Anthropic の共同創業者が注目する理由
Jack Clark 氏による Import AI の分析では、驚くべき非対称性が強調されました。分散型トレーニングの計算資源は現在、最先端の中央集権型トレーニングの約 1,000 分の 1 です。しかし、分散型は年 20 倍のペースで成長しているのに対し、中央集権型トレーニングは年 5 倍のペースで成長しています。
もしこの成長率が維持されれば、数年以内にその差はなくなります。Clark 氏は、分散型トレーニングは「技術的に実現可能であり、より強力なモデルのより広範な共同開発をサポートする可能性がある」と指摘しました。
これが重要なのは、AI ガバナンスの議論に おける暗黙の前提、つまり「最先端モデルのトレーニングには常に国家レベルのリソースや数兆ドル規模の企業が必要である」という考えに疑問を投げかけるからです。ブロックチェーンで調整された匿名の GPU 所有者のネットワークが、今日競争力のある 72B モデルをトレーニングできるのであれば、同じアプローチが 200B や 400B パラメータにスケールしたとき、何が起こるでしょうか?
Covenant AI エコシステム
Templar の成功は、3 つの相互接続されたプラットフォーム上に構築された Covenant AI と呼ばれる広範なエコシステムを生み出しました。
- Templar(サブネット 3):分散型事前トレーニング — Covenant-72B を支えるエンジン
- Basilica: 分散型計算リソースのレンタル — GPU リソースをネットワークから利用可能にする
- Grail: 分散型事後トレーニング — 人間のフィードバックによる強化学習(RLHF)とアライメント
この 3 層スタックは、生の事前トレーニングからファインチューニング、アライメントに至るまで、現代の AI 開発の全パイプラインを反映しています。これら 3 つの層すべてが中央集権的な調整なしに大規模に運用できれば、それは OpenAI や Anthropic のようなラボの垂直統合型アプローチに対する完全な代替案となります。