본문으로 건너뛰기

Covenant-72B: 암호화폐 역사상 최대 규모의 협업 학습 AI 모델

· 약 9 분
Dora Noda
Software Engineer

만약 차세대 프론티어 AI 모델이 단일 기업이 소유한 10억 달러 규모의 데이터 센터가 아니라, 블록체인으로 조정되고 일반 인터넷 연결을 통해 소통하는 전 세계 수십 명의 익명 기여자들에 의해 훈련된다면 어떨까요?

이것이 바로 최근에 일어난 일입니다. Templar의 Covenant-72B는 Bittensor의 서브넷 3(Subnet 3)에서 전적으로 사전 훈련된 727억 개의 파라미터를 가진 대규모 언어 모델로, 암호화폐 역사상 가장 거대한 협업 훈련 AI 모델이 되었습니다. 또한 중앙집중식 베이스라인과 경쟁할 수 있는 성능을 달성하면서도 완전히 무허가형(permissionless) 참여를 허용한 최초의 모델 중 하나입니다. 화이트리스트도, 기업의 게이트키퍼도 없었습니다. 오직 GPU, 압축된 그래디언트(gradients), 그리고 모두가 정직하게 참여하도록 유도하는 토큰 인센티브 메커니즘만 있었을 뿐입니다.

Anthropic의 공동 창립자 잭 클라크(Jack Clark)는 그의 영향력 있는 뉴스레터 Import AI에서 이 성과를 언급하며, 탈중앙화 훈련 컴퓨팅이 매년 20배씩 성장하고 있으며, 이는 중앙집중식 프론티어 훈련의 연간 성장률인 5배보다 4배나 빠르다고 지적했습니다.

이 성과가 Bittensor 생태계를 넘어 중요한 의미를 갖는 이유는 다음과 같습니다.

Covenant-72B가 해결하는 10억 달러 규모의 문제

2026년에 프론티어 LLM을 훈련하는 것은 자본의 집중을 의미합니다. Anthropic의 CEO는 단일 훈련 실행 비용이 10억 달러에 육박하고 있다고 밝혔습니다. OpenAI, Google DeepMind, xAI는 한정된 NVIDIA H100 및 B200 GPU 공급을 두고 경쟁하며, 수십억 달러 가치의 다년 클라우드 계약을 체결하고 있습니다. 그 결과, 전 세계에서 프론티어급 모델을 훈련할 여력이 있는 조직은 5~6개에 불과합니다.

이러한 집중은 실질적인 위험을 초래합니다. 단일 회사의 정렬(alignment) 선택, 데이터 큐레이션 결정, 상업적 인센티브가 수십억 명의 사람들이 사용하는 AI 시스템을 형성하게 됩니다. 프론티어 모델 훈련이 배타적으로 중앙집중화된 상태로 남는다면, AI 거버넌스에서 "누가 결정하는가"라는 질문은 소수의 이사회로 좁혀질 것입니다.

Covenant-72B가 이 문제를 하룻밤 사이에 해결하지는 못합니다. 하지만 의미 있는 규모에서 다른 경로가 존재한다는 첫 번째 믿을만한 증거를 제시합니다.

Covenant-72B 내부: 기술적 아키텍처

모델 사양

Covenant-72B는 80개의 트랜스포머 레이어, 8,192의 모델 너비, 64개의 쿼리 어텐션 헤드, 그리고 그룹 쿼리 어텐션(grouped-query attention)을 통한 8개의 키-값 헤드를 갖춘 LLaMA 스타일의 아키텍처를 사용합니다. 또한 RoPE 위치 임베딩(positional embeddings)과 262,208개의 토큰 어휘를 가진 Gemma 3 SentencePiece 토크나이저를 사용합니다.

이 모델은 약 1.1조 개의 토큰으로 훈련되었습니다. 메인 단계에서 DCLM 웹 텍스트 1.09조 개를 훈련하고, 엄선된 고품질 데이터(지시어 27%, 합성 웹 20%, 코드 15%, 수학 13%, 리플레이 25%)에 대한 어닐링(annealing) 단계에서 142억 개의 토큰을 추가로 훈련했습니다. 이후 지도 미세 조정(SFT) 단계를 통해 148억 개의 토큰을 추가하여 채팅이 가능한 변형 모델을 제작했습니다.

SparseLoCo: 통신 혁명

이 정도 규모의 탈중앙화 훈련을 가능하게 한 핵심 혁신은 모델 성능과 대역폭 소비 사이에서 파레토 최적(Pareto-optimal)의 절충안을 달성한 통신 효율적 옵티마이저인 SparseLoCo입니다.

이 기술이 해결하는 문제는 다음과 같습니다. 중앙집중식 훈련에서 동일한 데이터 센터의 GPU들은 초당 수백 기가비트의 대역폭을 가진 고속 인터커넥트(NVLink, InfiniBand)를 통해 그래디언트를 교환합니다. 일반 인터넷을 통한 분산 훈련은 대역폭이 수십 배나 낮습니다. 단순히 그래디언트를 동기화하는 것은 훈련 속도를 불가능할 정도로 느리게 만들 것입니다.

SparseLoCo는 2비트 양자화와 청크 단위(chunk-wise) Top-k 희소화(sparsification)를 사용하여 의사 그래디언트(pseudo-gradients)를 146배 이상 압축합니다. 각 피어(peer)는 AdamW를 사용하여 로컬에서 30회의 내부 최적화 단계를 실행한 다음, 가장 중요한 그래디언트 업데이트만 심하게 압축된 형태로 전달합니다. 결과적으로 각 훈련 라운드는 약 20분의 컴퓨팅이 필요하지만 통신에는 단 70초만 소요되어, 94.5%의 컴퓨팅 활용률을 달성했습니다.

참고로, 이전의 가장 컸던 탈중앙화 훈련 시도인 Prime Intellect의 INTELLECT-1(100억 파라미터 모델)은 라운드당 8.3분의 통신 오버헤드가 필요했습니다. Covenant-72B는 7배 더 큰 모델을 7배 적은 통신 시간으로 훈련했습니다.

Gauntlet: 익명 참여자의 정직성 유지

무허가형 참여는 명백한 문제를 야기합니다. 무임승차자나 악의적인 행위자가 쓰레기 그래디언트를 제출하고 보상을 챙기는 것을 어떻게 방지할까요?

해답은 Gauntlet입니다. 이는 여러 체크를 통해 각 피어의 기여를 검증하는 블록체인 호환 보상 메커니즘입니다.

  • LossScore 평가: 피어의 그래디언트 업데이트가 실제로 홀드아웃(held-out) 데이터 배치의 모델 손실(loss)을 개선하는지 평가합니다.
  • 활성(Liveness) 및 동기화 확인: 피어가 실제로 훈련 중이며 글로벌 모델 상태와 최신 상태를 유지하고 있는지 확인합니다.
  • 중복 탐지: 할당된 데이터와 무작위 데이터의 손실 개선율을 비교하여 다른 피어의 작업을 복사하는 피어를 적발합니다.
  • 노름(Norm) 기반 스케일링: 기여도는 중앙값에 비례하여 정규화되어, 단일 피어가 업데이트를 지배하는 것을 방지합니다.

이것이 Covenant-72B를 Prime Intellect의 INTELLECT-1이나 Psyche의 Consilience-40B와 근본적으로 다르게 만드는 요소입니다. 해당 프로젝트들은 화이트리스트에 등록된 참여자가 필요했습니다. 반면 Covenant-72B는 하드웨어를 갖춘 누구에게나 열려 있었습니다.

수치로 보는 분석: 어떻게 비교되는가?

벤치마크 성능

제로샷 (zero-shot) 평가에서 Covenant-72B는 유사한 규모로 학습된 중앙 집중형 모델들과 대등한 성능을 보여줍니다.

벤치마크Covenant-72BK2 (65B, 중앙 집중형)LLaMA-2-70B (중앙 집중형)
ARC-Challenge56.8%53.8%57.4%
MMLU67.1%65.5%65.6%
HellaSwag80.6%82.9%84.3%
WinoGrande75.9%76.4%80.4%
PIQA81.6%82.5%82.6%

Covenant-72B는 광범위한 지식 벤치마크인 MMLU와 과학적 추론 벤치마크인 ARC-Challenge에서 두 베이스라인 모델을 모두 능가하는 반면, HellaSwag와 WinoGrande에서는 약간 뒤처지는 모습을 보였습니다. 연구진은 이러한 격차가 인프라의 한계보다는 데이터 혼합 및 학습 레시피의 차이 때문이라고 분석합니다.

채팅 조정 (chat-tuned) 버전은 지시 이행 (IFEval: 64.7%) 및 수학적 추론 (MATH: 26.3%)에서 특히 강점을 보이며, 두 지표 모두에서 K2-Chat을 능가했습니다.

참여 규모

  • 라운드당 평균 기여 피어 수: 16.9 (최대 20개 복제본으로 제한)
  • 단계당 평균 활성 피어 수: 24.4
  • 전체 학습 과정 중 최소 고유 참여자 수: 70명 이상
  • 피어당 하드웨어: 8x NVIDIA B200 GPU
  • 총 학습 라운드: 약 6,190회

왜 Anthropic의 공동 창립자가 주목하는가

Jack Clark은 Import AI 분석을 통해 놀라운 비대칭성을 강조했습니다. 현재 탈중앙화 학습 컴퓨팅 규모는 최첨단 중앙 집중형 학습보다 약 1,000배 작습니다. 하지만 중앙 집중형 학습이 연간 5배 성장하는 동안 탈중앙화 학습은 연간 20배씩 성장하고 있습니다.

이러한 성장률이 유지된다면 몇 년 안에 그 격차는 좁혀질 것입니다. Clark은 탈중앙화 학습이 "기술적으로 실현 가능하며, 더 강력한 모델의 광범위한 공동 개발을 지원할 수 있다"고 언급했습니다.

이는 AI 거버넌스 논의에 내재된 암묵적인 가정, 즉 최첨단 모델을 학습시키려면 항상 국가 수준이나 수조 달러 규모 기업의 자원이 필요할 것이라는 생각에 도전하기 때문에 중요합니다. 블록체인으로 조율된 익명의 GPU 소유자 네트워크가 오늘날 경쟁력 있는 72B 모델을 학습시킬 수 있다면, 동일한 방식이 200B 또는 400B 파라미터 규모로 확장될 때 어떤 일이 벌어질까요?

Covenant AI 생태계

Templar의 성공은 세 가지 상호 연결된 플랫폼으로 구성된 Covenant AI라는 더 넓은 생태계를 탄생시켰습니다.

  • Templar (서브넷 3): 탈중앙화 사전 학습 — Covenant-72B를 뒷받침하는 엔진
  • Basilica: 탈중앙화 컴퓨팅 임대 — 네트워크에서 GPU 자원에 접근할 수 있도록 지원
  • Grail: 탈중앙화 사후 학습 — 인간 피드백 기반 강화 학습 (RLHF) 및 정렬 (Alignment)

이 3계층 스택은 원시 사전 학습부터 미세 조정, 정렬에 이르기까지 현대 AI 개발의 전체 파이프라인을 반영합니다. 만약 이 세 계층이 중앙 집중식 조정 없이 대규모로 운영될 수 있다면, 이는 OpenAI나 Anthropic과 같은 연구소의 수직 통합 방식에 대한 완전한 대안이 될 것입니다.

탈중앙화 AI 학습의 경쟁 지형

Covenant-72B는 갑자기 나타난 것이 아닙니다. 여러 프로젝트가 탈중앙화 학습의 생존 가능성을 증명하기 위해 경쟁하고 있습니다.

프로젝트파라미터토큰무허가형(Permissionless)?상태
Covenant-72B (Bittensor)72.7B1.1T완료
Consilience-40B (Psyche)40B아니요 (화이트리스트 방식)완료
INTELLECT-1 (Prime Intellect)10B아니요 (화이트리스트 방식)완료
INTELLECT-3 (Prime Intellect)106B MoE탈중앙화 주장중앙 집중형 512-GPU 클러스터에서 학습
Gensyn프로토콜 계층해당 없음5,060만 달러 투자 유치, 프로토콜 개발 중

Prime Intellect와의 대조는 특히 인상적입니다. AIME 2024에서 90.8%를 기록한 106B 전문가 혼합 (Mixture-of-Experts) 모델인 INTELLECT-3는 탈중앙화 AI 프로젝트로 마케팅되었지만, 실제로는 중앙 집중형 512-GPU 클러스터에서 학습되었습니다. 이와 대조적으로 Covenant-72B의 완전한 무허가형 및 블록체인 검증 방식은 선명한 차이를 보여줍니다.

한계점 및 당면 과제

Covenant-72B는 이정표이지 결승선이 아닙니다. 몇 가지 인정해야 할 한계가 있습니다.

여전히 큰 규모의 격차. 약 9 x 10^17 FLOPs/s인 Covenant-72B의 학습 컴퓨팅은 최첨단 중앙 집중형 학습 규모보다 약 1,000배 작습니다. GPT-4급 모델과 대등해지려면 이 격차를 상당히 줄여야 합니다.

참여의 제한. 20개 복제본 제한과 피어당 8x B200 GPU 요구 사항은 자원이 풍부한 기여자들로 참여를 제한합니다. 이것은 "노트북으로 AI를 학습시키는" 것이 아니라, 상당한 하드웨어를 보유한 주체들 사이에서의 탈중앙화입니다.

비용의 절감이 아닌 재분배. 탈중앙화 학습이 중앙 집중형 학습보다 본질적으로 비용이 적게 드는 것은 아닙니다. 이는 비용 조달 모델을 변화시킵니다. 단일 조직의 대차대조표에 비용을 집중시키는 대신, 토큰 인센티브를 통해 많은 참여자에게 비용을 분산시킵니다.

일부 벤치마크에서의 품질 격차. 이 모델은 HellaSwag 및 WinoGrande에서 중앙 집중형 베이스라인에 뒤처지며, 이는 데이터 큐레이션 및 학습 레시피 최적화 분야에서 아직 중앙 집중형 연구소들이 우위를 점하고 있음을 시사합니다.

AI의 미래에 갖는 의미

Covenant-72B는 탈중앙화 AI 서사의 단계적 전환을 의미합니다. 이전의 "탈중앙화 AI 학습"은 이론적이거나, 소규모 모델에 한정되거나, 신뢰할 수 있는 참여자가 필요했습니다. 이제는 발표된 arXiv 논문, Hugging Face의 공개 모델 가중치, 경쟁력 있는 성능을 보여주는 벤치마크 결과가 존재하며, 이 모든 것이 블록체인에 의해 조율된 완전 무허가형 네트워크에서 이루어졌습니다.

그 함의는 여러 영역으로 확산됩니다.

AI 거버넌스: 학습이 탈중앙화될 수 있다면, AI 안전에 대한 "데이터 센터 규제" 방식은 불충분해집니다. 정책 입안자들은 분산 학습을 고려한 프레임워크를 마련해야 할 것입니다.

오픈소스 AI: Covenant-72B의 가중치는 공개적으로 사용 가능하며, 단일 기업의 자금 지원 없이 오픈소스 생태계에 72B급 모델을 추가했습니다.

토큰 경제 (Token economics): 전체 학습 과정에 인센티브를 제공한 Bittensor의 TAO 토큰은 투기를 넘어선 암호화폐 토큰의 구체적인 활용 사례를 보여줍니다. 즉, 시장 주도형 인센티브 메커니즘을 통해 AI 연구 자금을 조달하는 것입니다.

경쟁 구도: 탈중앙화 학습이 연간 20배 속도로 계속 확장된다면, 중앙 집중형 연구소들은 서로 뿐만 아니라 인수할 수도, 단일 개체로 규제할 수도, 폐쇄할 수도 없는 개방형 무허가 네트워크로부터 압박을 받게 될 것입니다.

이제 질문은 탈중앙화 AI 학습이 작동하는지 여부가 아닙니다. 중앙 집중형 최첨단 연구소와의 격차를 얼마나 빨리 좁힐 수 있는지, 그리고 그 격차가 좁혀졌을 때 AI 산업의 권력 구조에 어떤 일이 일어날지입니다.


BlockEden.xyz는 Bittensor와 같은 프로젝트를 가능하게 하는 탈중앙화 네트워크에 기업용 블록체인 API 인프라를 제공합니다. API 마켓플레이스 탐색하기를 통해 탈중앙화 AI 혁명의 인프라 계층 위에서 개발을 시작해 보세요.