Saltar para o conteúdo principal

Covenant-72B: O maior modelo de IA treinado de forma colaborativa na história das criptomoedas

· 11 min de leitura
Dora Noda
Software Engineer

E se o próximo modelo de IA de fronteira não fosse treinado em um centro de dados de um bilhão de dólares de uma única corporação — mas sim por dezenas de colaboradores anônimos espalhados pelo mundo, coordenados por uma blockchain, comunicando-se através de conexões comuns de internet?

Foi exatamente isso que aconteceu. O Covenant-72B da Templar, um grande modelo de linguagem de 72,7 bilhões de parâmetros pré-treinado inteiramente na Subnet 3 da Bittensor, tornou-se o maior modelo de IA treinado colaborativamente na história cripto — e um dos primeiros a alcançar um desempenho competitivo em relação às referências centralizadas, permitindo ao mesmo tempo uma participação totalmente sem permissão (permissionless). Sem listas brancas. Sem guardiões corporativos. Apenas GPUs, gradientes comprimidos e um mecanismo de incentivo por tokens que manteve todos honestos.

O cofundador da Anthropic, Jack Clark, destacou a conquista em seu influente boletim informativo Import AI, observando que o processamento de treinamento descentralizado está crescendo 20 vezes por ano — quatro vezes mais rápido do que a taxa de crescimento anual de 5 vezes do treinamento centralizado de fronteira.

Aqui está o porquê disso ser importante muito além do ecossistema Bittensor.

O Problema de US$ 1 Bilhão que o Covenant-72B Resolve

Treinar um LLM de fronteira em 2026 é um exercício de capital concentrado. O CEO da Anthropic afirmou que as execuções de treinamento individuais estão se aproximando de US$ 1 bilhão em custos. OpenAI, Google DeepMind e xAI competem por suprimentos finitos de GPUs NVIDIA H100 e B200, prendendo-as em contratos de nuvem plurianuais que valem bilhões. O resultado: apenas cinco ou seis organizações na Terra podem se dar ao luxo de treinar modelos na fronteira.

Essa concentração cria riscos reais. As escolhas de alinhamento de uma única empresa, as decisões de curadoria de dados e os incentivos comerciais moldam os sistemas de IA que bilhões de pessoas usam. Se o treinamento de modelos de fronteira permanecer exclusivamente centralizado, a questão de "quem decide" na governança da IA se estreita a um punhado de conselhos de administração.

O Covenant-72B não resolve isso da noite para o dia. Mas fornece a primeira prova credível de que existe um caminho diferente em uma escala significativa.

Por Dentro do Covenant-72B: A Arquitetura Técnica

Especificações do Modelo

O Covenant-72B usa uma arquitetura estilo LLaMA com 80 camadas de transformador, 8.192 de largura de modelo, 64 cabeças de atenção de consulta (query attention) e 8 cabeças de chave-valor via atenção de consulta agrupada (grouped-query attention). Utiliza embeddings posicionais RoPE e o tokenizador SentencePiece da Gemma 3 com um vocabulário de 262.208 tokens.

O modelo foi treinado em aproximadamente 1,1 trilhão de tokens — 1,09 trilhão de texto da web DCLM durante a fase principal, mais 14,2 bilhões de tokens durante uma fase de recozimento (annealing) em dados curados de alta qualidade (27% instrução, 20% web sintética, 15% código, 13% matemática, 25% replay). Uma etapa de ajuste fino supervisionado adicionou outros 14,8 bilhões de tokens para produzir uma variante capaz de chat.

SparseLoCo: O Avanço na Comunicação

A inovação principal que permite o treinamento descentralizado nesta escala é o SparseLoCo, um otimizador eficiente em termos de comunicação que atinge um equilíbrio Pareto-ótimo entre o desempenho do modelo e o consumo de largura de banda.

Aqui está o problema que ele resolve: no treinamento centralizado, as GPUs no mesmo centro de dados trocam gradientes através de interconexões de alta velocidade (NVLink, InfiniBand) com centenas de gigabits por segundo de largura de banda. O treinamento distribuído pela internet comum tem ordens de magnitude menos largura de banda. Sincronizar gradientes de forma ingênua tornaria o treinamento impossivelmente lento.

O SparseLoCo usa esparsificação Top-k por blocos com quantização de 2 bits para comprimir pseudo-gradientes em mais de 146x. Cada par (peer) executa 30 etapas de otimização interna localmente usando AdamW e, em seguida, comunica apenas as atualizações de gradiente mais significativas de forma altamente comprimida. O resultado: cada rodada de treinamento requer cerca de 20 minutos de processamento, mas apenas 70 segundos de comunicação — alcançando 94,5% de utilização de processamento.

Para comparação, o maior esforço de treinamento descentralizado anterior, o INTELLECT-1 da Prime Intellect (um modelo de 10 bilhões de parâmetros), exigia 8,3 minutos de sobrecarga de comunicação por rodada. O Covenant-72B treinou um modelo 7 vezes maior com um tempo de comunicação 7 vezes menor.

Gauntlet: Mantendo os Participantes Anônimos Honestos

A participação sem permissão cria um problema óbvio: como evitar que aproveitadores ou atores adversários enviem gradientes inúteis e coletem recompensas?

O Gauntlet é a resposta — um mecanismo de recompensa compatível com blockchain que valida a contribuição de cada par através de múltiplas verificações:

  • Avaliação LossScore: Os pares são avaliados se suas atualizações de gradiente realmente melhoram a perda (loss) do modelo em lotes de dados reservados.
  • Verificações de atividade (liveness) e sincronização: Garantir que os pares estão realmente treinando e permanecendo atualizados com o estado global do modelo.
  • Detecção de duplicatas: Comparar a melhoria da perda em dados atribuídos versus dados aleatórios para flagrar pares que copiam o trabalho de outros.
  • Escalonamento baseado em norma: As contribuições são normalizadas em relação à mediana, evitando que qualquer par individual domine as atualizações.

Isto é o que torna o Covenant-72B fundamentalmente diferente do INTELLECT-1 da Prime Intellect ou do Consilience-40B da Psyche: esses projetos exigiam participantes em listas brancas. O Covenant-72B estava aberto a qualquer pessoa com o hardware necessário.

Os Números: Como ele se Compara?

Desempenho de Benchmark

Em avaliações zero-shot, o Covenant-72B apresenta um desempenho competitivo com modelos centralizados treinados em escala semelhante:

BenchmarkCovenant-72BK2 (65B, centralizado)LLaMA-2-70B (centralizado)
ARC-Challenge56,8 %53,8 %57,4 %
MMLU67,1 %65,5 %65,6 %
HellaSwag80,6 %82,9 %84,3 %
WinoGrande75,9 %76,4 %80,4 %
PIQA81,6 %82,5 %82,6 %

O Covenant-72B supera ambas as linhas de base no MMLU (o benchmark de conhecimento amplo) e no ARC-Challenge (raciocínio científico), enquanto fica ligeiramente atrás no HellaSwag e WinoGrande. Os pesquisadores atribuem essas lacunas a diferenças na mistura de dados e nas receitas de treinamento, em vez de limitações de infraestrutura.

A variante ajustada para chat mostra uma força particular no seguimento de instruções (IFEval: 64,7 %) e no raciocínio matemático (MATH: 26,3 %), superando o K2-Chat em ambas as métricas.

Escala de Participação

  • Média de pares contribuintes por rodada: 16,9 (limitado a 20 réplicas)
  • Média de pares ativos por etapa: 24,4
  • Mínimo de participantes únicos: mais de 70 ao longo da execução do treinamento
  • Hardware por par: 8 x GPUs NVIDIA B200
  • Total de rodadas de treinamento: ~ 6.190

Por que o Co-Fundador da Anthropic Está Prestando Atenção

A análise de Jack Clark no Import AI destacou uma assimetria impressionante: a computação de treinamento descentralizado é atualmente cerca de 1.000 x menor do que o treinamento centralizado de fronteira. Mas está crescendo a uma taxa de 20 x por ano, enquanto o treinamento centralizado cresce 5 x por ano.

Se essas taxas de crescimento se mantiverem, a lacuna se fechará em poucos anos. Clark observou que o treinamento descentralizado é "tecnicamente viável e pode apoiar um desenvolvimento coletivo mais amplo de modelos mais poderosos".

Isso importa porque desafia a suposição implícita nas discussões sobre governança de IA — de que o treinamento de modelos de fronteira sempre exigirá os recursos de estados-nação ou corporações de trilhões de dólares. Se uma rede coordenada por blockchain de proprietários anônimos de GPUs pode treinar modelos 72B competitivos hoje, o que acontece quando a mesma abordagem escalar para 200 B ou 400 B de parâmetros?

O Ecossistema Covenant AI

O sucesso do Templar deu origem a um ecossistema mais amplo chamado Covenant AI, construído sobre três plataformas interconectadas:

  • Templar (Sub-rede 3): Pré-treinamento descentralizado — o motor por trás do Covenant-72B
  • Basilica: Aluguel de computação descentralizado — tornando os recursos de GPU acessíveis à rede
  • Grail: Pós-treinamento descentralizado — aprendizagem por reforço com feedback humano (RLHF) e alinhamento

Essa pilha de três camadas espelha o pipeline completo do desenvolvimento moderno de IA, desde o pré-treinamento bruto até o ajuste fino e o alinhamento. Se todas as três camadas puderem operar em escala sem coordenação centralizada, isso representaria uma alternativa completa à abordagem verticalmente integrada de laboratórios como OpenAI e Anthropic.

O Cenário Competitivo no Treinamento de IA Descentralizada

O Covenant-72B não surgiu no vácuo. Vários projetos estão competindo para provar a viabilidade do treinamento descentralizado:

ProjetoParâmetrosTokensSem permissão?Status
Covenant-72B (Bittensor)72,7 B1,1 TSimConcluído
Consilience-40B (Psyche)40 BNão (na lista branca)Concluído
INTELLECT-1 (Prime Intellect)10 BNão (na lista branca)Concluído
INTELLECT-3 (Prime Intellect)106 B MoEAlegado descentralizadoTreinado em cluster centralizado de 512 GPUs
GensynCamada de protocoloN / A50,6 M de dólares captados, protocolo em desenvolvimento

O contraste com o Prime Intellect é particularmente impressionante. O INTELLECT-3, um modelo Mixture-of-Experts de 106 B com pontuação de 90,8 % no AIME 2024, foi comercializado como um projeto de IA descentralizada — mas foi, na verdade, treinado em um cluster centralizado de 512 GPUs. A abordagem totalmente permissionless e verificada por blockchain do Covenant-72B contrasta fortemente com isso.

Limitações e Desafios Honestos

O Covenant-72B é um marco, não uma linha de chegada. Várias limitações merecem ser reconhecidas:

A lacuna de escala continua grande. Com aproximadamente 9 x 10^17 FLOPs / s, a computação de treinamento do Covenant-72B é aproximadamente 1.000 x menor do que as execuções centralizadas de fronteira. Igualar os modelos da classe GPT-4 requer fechar essa lacuna substancialmente.

A participação foi limitada. O limite de 20 réplicas e a exigência de 8 x GPUs B200 por par limitam a participação a contribuintes com recursos consideráveis. Isso não é "treinar IA no seu laptop" — é descentralizado entre entidades com hardware sério.

Redistribuição de custos, não redução. O treinamento descentralizado não custa inerentemente menos do que o treinamento centralizado. Ele muda o modelo de financiamento — distribuindo os custos entre muitos participantes por meio de incentivos de token, em vez de concentrá-los no balanço patrimonial de uma única organização.

Lacunas de qualidade em alguns benchmarks. O modelo fica atrás das linhas de base centralizadas no HellaSwag e WinoGrande, sugerindo que a curadoria de dados e a otimização das receitas de treinamento continuam sendo áreas onde os laboratórios centralizados detêm uma vantagem — por enquanto.

O Que Isso Significa para o Futuro da IA

O Covenant-72B representa uma transição de fase na narrativa da IA descentralizada. Antes disso, o "treinamento de IA descentralizada" era teórico, limitado a modelos pequenos ou exigia participantes confiáveis. Agora existe um artigo publicado no arXiv, pesos de modelo abertos no Hugging Face e resultados de benchmark que mostram um desempenho competitivo — tudo vindo de uma rede totalmente sem permissão coordenada por uma blockchain.

As implicações se desdobram em múltiplos domínios:

Governança de IA: Se o treinamento pode ser descentralizado, a abordagem de "regular os centros de dados" para a segurança da IA torna-se insuficiente. Os formuladores de políticas precisarão de estruturas que levem em conta o treinamento distribuído.

IA de código aberto: Os pesos do Covenant-72B estão disponíveis publicamente, adicionando um modelo da classe 72B ao ecossistema de código aberto que não foi financiado por nenhuma corporação individual.

Economia de tokens (Tokenomics): O token TAO do Bittensor, que incentivou toda a execução do treinamento, demonstra um caso de uso concreto para tokens cripto além da especulação — financiando a pesquisa de IA por meio de mecanismos de incentivo orientados pelo mercado.

Dinâmicas competitivas: Se o treinamento descentralizado continuar escalando a 20 x / ano, os laboratórios centralizados enfrentarão pressão não apenas uns dos outros, mas de redes abertas e sem permissão que não podem ser adquiridas, reguladas como uma única entidade ou fechadas.

A questão não é mais se o treinamento de IA descentralizada funciona. É quão rápido ele pode fechar a lacuna com os laboratórios centrais de fronteira — e o que acontece com a estrutura de poder da indústria de IA quando isso acontecer.


A BlockEden.xyz fornece infraestrutura de API de blockchain de nível empresarial que alimenta as redes descentralizadas que tornam possíveis projetos como o Bittensor. Explore nosso marketplace de APIs para construir na camada de infraestrutura da revolução da IA descentralizada.