Covenant-72B: 암호화폐 역사상 최대 규모의 협업 학습 AI 모델
만약 차세대 프론티어 AI 모델이 단일 기업이 소유한 10억 달러 규모의 데이터 센터가 아니라, 블록체인으로 조정되고 일반 인터넷 연결을 통해 소통하는 전 세계 수십 명의 익명 기여자들에 의해 훈련된다면 어떨까요?
이것이 바로 최근에 일어난 일입니다. Templar의 Covenant-72B는 Bittensor의 서브넷 3(Subnet 3)에서 전적으로 사전 훈련된 727억 개의 파라미터를 가진 대규모 언어 모델로, 암호화폐 역사상 가장 거대한 협업 훈련 AI 모델이 되었습니다. 또한 중앙집중식 베이스라인과 경쟁할 수 있는 성능을 달성하면서도 완전히 무허가형(permissionless) 참여를 허용한 최초의 모델 중 하나입니다. 화이트리스트도, 기업의 게이트키퍼도 없었습니다. 오직 GPU, 압축된 그래디언트(gradients), 그리고 모두가 정직하게 참여하도록 유도하는 토큰 인센티브 메커니즘만 있었을 뿐입니다.
Anthropic의 공동 창립자 잭 클라크(Jack Clark)는 그의 영향력 있는 뉴스레터 Import AI에서 이 성과를 언급하며, 탈중앙화 훈련 컴퓨팅이 매년 20배씩 성장하고 있으며, 이는 중앙집중식 프론티어 훈련의 연간 성장률인 5배보다 4배나 빠르다고 지적했습니다.
이 성과가 Bittensor 생태계를 넘어 중요한 의미를 갖는 이유는 다음과 같습니다.
Covenant-72B가 해결하는 10억 달러 규모의 문제
2026년에 프론티어 LLM을 훈련하는 것은 자본의 집중을 의미합니다. Anthropic의 CEO는 단일 훈련 실행 비용이 10억 달러에 육박하고 있다고 밝혔습니다. OpenAI, Google DeepMind, xAI는 한정된 NVIDIA H100 및 B200 GPU 공급을 두고 경쟁하며, 수십억 달러 가치의 다년 클라우드 계약을 체결하고 있습니다. 그 결과, 전 세계에서 프론티어급 모델을 훈련할 여력이 있는 조직은 5~6개에 불과합니다.
이러한 집중은 실질적인 위험을 초래합니다. 단일 회사의 정렬(alignment) 선택, 데이터 큐레이션 결정, 상업적 인센티브가 수십억 명의 사람들이 사용하는 AI 시스템을 형성하게 됩니다. 프론티어 모델 훈련이 배타적으로 중앙집중화된 상태로 남는다면, AI 거버넌스에서 "누가 결정하는가"라는 질문은 소수의 이사회로 좁혀질 것입니다.
Covenant-72B가 이 문제를 하룻밤 사이에 해결하지는 못합니다. 하지만 의미 있는 규모에서 다른 경로가 존재한다는 첫 번째 믿을만한 증거를 제시합니다.
Covenant-72B 내부: 기술적 아키텍처
모델 사양
Covenant-72B는 80개의 트랜스포머 레이어, 8,192의 모델 너비, 64개의 쿼리 어텐션 헤드, 그리고 그룹 쿼리 어텐션(grouped-query attention)을 통한 8개의 키-값 헤드를 갖춘 LLaMA 스타일의 아키텍처를 사용합니다. 또한 RoPE 위치 임베딩(positional embeddings)과 262,208개의 토큰 어휘를 가진 Gemma 3 SentencePiece 토크나이저를 사용합니다.
이 모델은 약 1.1조 개의 토큰으로 훈련되었습니다. 메인 단계에서 DCLM 웹 텍스트 1.09조 개를 훈련하고, 엄선된 고품질 데이터(지시어 27%, 합성 웹 20%, 코드 15%, 수학 13%, 리플레이 25%)에 대한 어닐링(annealing) 단계에서 142억 개의 토큰을 추가로 훈련했습니다. 이후 지도 미세 조정(SFT) 단계를 통해 148억 개의 토큰을 추가하여 채팅이 가능한 변형 모델을 제작했습니다.
SparseLoCo: 통신 혁명
이 정도 규모의 탈중앙화 훈련을 가능하게 한 핵심 혁신은 모델 성능과 대역폭 소비 사이에서 파레토 최적(Pareto-optimal)의 절충안을 달성한 통신 효율적 옵티마이저인 SparseLoCo입니다.
이 기술이 해결하는 문제는 다음과 같습니다. 중앙집중식 훈 련에서 동일한 데이터 센터의 GPU들은 초당 수백 기가비트의 대역폭을 가진 고속 인터커넥트(NVLink, InfiniBand)를 통해 그래디언트를 교환합니다. 일반 인터넷을 통한 분산 훈련은 대역폭이 수십 배나 낮습니다. 단순히 그래디언트를 동기화하는 것은 훈련 속도를 불가능할 정도로 느리게 만들 것입니다.
SparseLoCo는 2비트 양자화와 청크 단위(chunk-wise) Top-k 희소화(sparsification)를 사용하여 의사 그래디언트(pseudo-gradients)를 146배 이상 압축합니다. 각 피어(peer)는 AdamW를 사용하여 로컬에서 30회의 내부 최적화 단계를 실행한 다음, 가장 중요한 그래디언트 업데이트만 심하게 압축된 형태로 전달합니다. 결과적으로 각 훈련 라운드는 약 20분의 컴퓨팅이 필요하지만 통신에는 단 70초만 소요되어, 94.5%의 컴퓨팅 활용률을 달성했습니다.
참고로, 이전의 가장 컸던 탈중앙화 훈련 시도인 Prime Intellect의 INTELLECT-1(100억 파라미터 모델)은 라운드당 8.3분의 통신 오버헤드가 필요했습니다. Covenant-72B는 7배 더 큰 모델을 7배 적은 통신 시간으로 훈련했습니다.
Gauntlet: 익명 참여자의 정직성 유지
무허가형 참여는 명백한 문제를 야기합니다. 무임승차자나 악의적인 행위자가 쓰레기 그래디언트를 제출하고 보상을 챙기는 것을 어떻게 방지할까요?
해답은 Gauntlet입니다. 이는 여러 체크를 통해 각 피어의 기여를 검증하는 블록체인 호환 보상 메커니즘입니다.
- LossScore 평가: 피어의 그래디언트 업데이트가 실제로 홀드아웃(held-out) 데이터 배치의 모델 손실(loss)을 개선하는지 평가합니다.
- 활성(Liveness) 및 동기화 확인: 피어가 실제로 훈련 중이며 글로벌 모델 상태와 최신 상태를 유지하고 있는지 확인합니다.
- 중복 탐지: 할당된 데이터와 무작위 데이터의 손실 개선율을 비교하여 다른 피어의 작업을 복사하는 피어를 적발합니다.
- 노름(Norm) 기반 스케일링: 기여도는 중앙값에 비례하여 정규화되어, 단일 피어가 업데이트를 지배하는 것을 방지합니다.
이것이 Covenant-72B를 Prime Intellect의 INTELLECT-1이나 Psyche의 Consilience-40B와 근본적으로 다르게 만드는 요소입니다. 해당 프로젝트들은 화이트리스트에 등록된 참여자가 필요했습니다. 반면 Covenant-72B는 하드웨어를 갖춘 누구에게나 열려 있었습니다.
수치로 보는 분석: 어떻게 비교되는가?
벤치마크 성능
제로샷 (zero-shot) 평가에서 Covenant-72B는 유사한 규모로 학습된 중앙 집중형 모델들과 대등한 성능을 보여줍니다.
| 벤치마크 | Covenant-72B | K2 (65B, 중앙 집중형) | LLaMA-2-70B (중앙 집중형) |
|---|---|---|---|
| ARC-Challenge | 56.8% | 53.8% | 57.4% |
| MMLU | 67.1% | 65.5% | 65.6% |
| HellaSwag | 80.6% | 82.9% | 84.3% |
| WinoGrande | 75.9% | 76.4% | 80.4% |
| PIQA | 81.6% | 82.5% | 82.6% |
Covenant-72B는 광범위한 지식 벤치마크인 MMLU와 과학적 추론 벤치마크인 ARC-Challenge에서 두 베이스라인 모델을 모두 능가하는 반면, HellaSwag와 WinoGrande에서는 약간 뒤처지는 모습을 보였습니다. 연구진은 이러한 격차가 인프라의 한계보다는 데이터 혼합 및 학습 레시피의 차이 때문이라고 분석합니다.
채팅 조정 (chat-tuned) 버전은 지시 이행 (IFEval: 64.7%) 및 수학적 추론 (MATH: 26.3%)에서 특히 강점을 보이며, 두 지표 모두에서 K2-Chat을 능가했습니다.
참여 규모
- 라운드당 평균 기여 피어 수: 16.9 (최대 20개 복제본으로 제한)
- 단계당 평균 활성 피어 수: 24.4
- 전체 학습 과정 중 최소 고유 참여자 수: 70명 이상
- 피어당 하드웨어: 8x NVIDIA B200 GPU
- 총 학습 라운드: 약 6,190회