Saltar al contenido principal

Covenant-72B: El modelo de IA entrenado de forma colaborativa más grande en la historia de las criptomonedas

· 11 min de lectura
Dora Noda
Software Engineer

¿Qué pasaría si el próximo modelo de IA de frontera no se entrenara en un centro de datos de mil millones de dólares propiedad de una sola corporación, sino por docenas de colaboradores anónimos repartidos por todo el mundo, coordinados por una blockchain y comunicándose a través de conexiones a internet ordinarias?

Eso es exactamente lo que acaba de suceder. Covenant-72B de Templar, un modelo de lenguaje de gran tamaño de 72,7 mil millones de parámetros preentrenado íntegramente en la Subred 3 de Bittensor, se ha convertido en el modelo de IA entrenado de forma colaborativa más grande en la historia de las criptomonedas, y uno de los primeros en lograr un rendimiento competitivo con las bases de referencia centralizadas al tiempo que permite una participación totalmente sin permisos. Sin listas blancas. Sin guardianes corporativos. Solo GPUs, gradientes comprimidos y un mecanismo de incentivos mediante tokens que mantuvo la honestidad de todos.

El cofundador de Anthropic, Jack Clark, destacó el logro en su influyente boletín Import AI, señalando que el cómputo de entrenamiento descentralizado está creciendo a un ritmo del 20x anual — cuatro veces más rápido que la tasa de crecimiento anual del 5x del entrenamiento centralizado de frontera.

He aquí por qué esto es importante mucho más allá del ecosistema de Bittensor.

El problema de los 1.000 millones de dólares que Covenant-72B aborda

Entrenar un LLM de frontera en 2026 es un ejercicio de capital concentrado. El CEO de Anthropic ha declarado que las ejecuciones de entrenamiento individuales se acercan a los 1.000 millones de dólares en costes. OpenAI, Google DeepMind y xAI compiten por suministros finitos de GPUs NVIDIA H100 y B200, bloqueándolos en contratos de nube plurianuales por valor de miles de millones. El resultado: solo cinco o seis organizaciones en la Tierra pueden permitirse entrenar modelos en la frontera.

Esta concentración genera riesgos reales. Las opciones de alineación de una sola empresa, las decisiones de curación de datos y los incentivos comerciales dan forma a los sistemas de IA que utilizan miles de millones de personas. Si el entrenamiento de modelos de frontera sigue siendo exclusivamente centralizado, la pregunta de "quién decide" en la gobernanza de la IA se reduce a un puñado de salas de juntas.

Covenant-72B no soluciona esto de la noche a la mañana. Pero proporciona la primera prueba creíble de que existe un camino diferente a una escala significativa.

Dentro de Covenant-72B: La arquitectura técnica

Especificaciones del modelo

Covenant-72B utiliza una arquitectura de estilo LLaMA con 80 capas de transformadores, un ancho de modelo de 8.192, 64 cabezales de atención de consulta y 8 cabezales de clave-valor a través de atención de consulta agrupada. Utiliza incrustaciones posicionales RoPE y el tokenizador SentencePiece de Gemma 3 con un vocabulario de 262.208 tokens.

El modelo fue entrenado con aproximadamente 1,1 billones de tokens — 1,09 billones de texto web DCLM durante la fase principal, más 14,2 mil millones de tokens durante una fase de recocido (annealing) con datos seleccionados de alta calidad (27 % de instrucciones, 20 % de web sintética, 15 % de código, 13 % de matemáticas, 25 % de repetición). Una etapa de ajuste fino supervisado añadió otros 14,8 mil millones de tokens para producir una variante con capacidad de chat.

SparseLoCo: El avance en las comunicaciones

La innovación central que permite el entrenamiento descentralizado a esta escala es SparseLoCo, un optimizador eficiente en comunicación que logra un equilibrio de Pareto óptimo entre el rendimiento del modelo y el consumo de ancho de banda.

Este es el problema que resuelve: en el entrenamiento centralizado, las GPUs en el mismo centro de datos intercambian gradientes a través de interconexiones de alta velocidad (NVLink, InfiniBand) con cientos de gigabits por segundo de ancho de banda. El entrenamiento distribuido a través de internet convencional tiene órdenes de magnitud menos de ancho de banda. Sincronizar gradientes de forma ingenua haría que el entrenamiento fuera increíblemente lento.

SparseLoCo utiliza una esparcimiento Top-k por fragmentos con cuantificación de 2 bits para comprimir los pseudogradientes en más de 146x. Cada par ejecuta 30 pasos de optimización interna localmente usando AdamW, y luego comunica solo las actualizaciones de gradiente más significativas en forma fuertemente comprimida. El resultado: cada ronda de entrenamiento requiere aproximadamente 20 minutos de cómputo pero solo 70 segundos de comunicación — logrando una utilización de cómputo del 94,5 %.

Para comparar, el mayor esfuerzo previo de entrenamiento descentralizado, INTELLECT-1 de Prime Intellect (un modelo de 10.000 millones de parámetros), requería 8,3 minutos de sobrecarga de comunicación por ronda. Covenant-72B entrenó un modelo 7 veces más grande con 7 veces menos tiempo de comunicación.

Gauntlet: Mantener la honestidad de los participantes anónimos

La participación sin permisos crea un problema obvio: ¿cómo evitar que los aprovechados o los actores adversarios envíen gradientes basura y cobren recompensas?

Gauntlet es la respuesta — un mecanismo de recompensa compatible con blockchain que valida la contribución de cada par a través de múltiples comprobaciones:

  • Evaluación LossScore: Se evalúa a los pares según si sus actualizaciones de gradiente realmente mejoran la pérdida del modelo en lotes de datos reservados.
  • Comprobaciones de actividad y sincronización: Asegurar que los pares realmente están entrenando y se mantienen al día con el estado global del modelo.
  • Detección de duplicados: Comparar la mejora de la pérdida en los datos asignados frente a datos aleatorios para atrapar a los pares que copian el trabajo de otros.
  • Escalado basado en la norma: Las contribuciones se normalizan con respecto a la mediana, evitando que cualquier par individual domine las actualizaciones.

Esto es lo que hace que Covenant-72B sea fundamentalmente diferente de INTELLECT-1 de Prime Intellect o Consilience-40B de Psyche: esos proyectos requerían participantes en listas blancas. Covenant-72B estaba abierto a cualquier persona con el hardware necesario.

Los números: ¿Cómo se compara?

Rendimiento de los Benchmarks

En las evaluaciones zero-shot, Covenant-72B rinde de manera competitiva frente a modelos centralizados entrenados a una escala similar:

BenchmarkCovenant-72BK2 (65B, centralizado)LLaMA-2-70B (centralizado)
ARC-Challenge56,8 %53,8 %57,4 %
MMLU67,1 %65,5 %65,6 %
HellaSwag80,6 %82,9 %84,3 %
WinoGrande75,9 %76,4 %80,4 %
PIQA81,6 %82,5 %82,6 %

Covenant-72B supera a ambas líneas de base en MMLU (el benchmark de conocimiento general) y ARC-Challenge (razonamiento científico), mientras que queda ligeramente por detrás en HellaSwag y WinoGrande. Los investigadores atribuyen estas brechas a las diferencias en la mezcla de datos y las recetas de entrenamiento, más que a las limitaciones de la infraestructura.

La variante optimizada para chat muestra una fortaleza particular en el seguimiento de instrucciones (IFEval: 64,7 %) y el razonamiento matemático (MATH: 26,3 %), superando a K2-Chat en ambas métricas.

Escala de participación

  • Promedio de pares contribuyentes por ronda: 16,9 (limitado a 20 réplicas)
  • Promedio de pares activos por paso: 24,4
  • Mínimo de participantes únicos: más de 70 a lo largo de la ejecución del entrenamiento
  • Hardware por par: 8 GPUs NVIDIA B200
  • Total de rondas de entrenamiento: ~6.190

Por qué el cofundador de Anthropic está prestando atención

El análisis de Jack Clark en Import AI destacó una asimetría sorprendente: la computación de entrenamiento descentralizada es actualmente unas 1.000 veces menor que el entrenamiento centralizado de vanguardia. Sin embargo, está creciendo a un ritmo del 20x por año, mientras que el entrenamiento centralizado crece a un 5x por año.

Si esas tasas de crecimiento se mantienen, la brecha se cerrará en pocos años. Clark señaló que el entrenamiento descentralizado es "técnicamente factible y puede respaldar un desarrollo colectivo más amplio de modelos más potentes".

Esto es importante porque desafía la suposición implícita en las discusiones sobre gobernanza de la IA: que el entrenamiento de modelos de vanguardia siempre requerirá los recursos de estados-nación o corporaciones de un billón de dólares. Si una red de propietarios anónimos de GPUs coordinada por blockchain puede entrenar modelos competitivos de 72B hoy, ¿qué sucederá cuando el mismo enfoque se escale a 200B o 400B parámetros?

El ecosistema de Covenant AI

El éxito de Templar ha dado lugar a un ecosistema más amplio llamado Covenant AI, construido sobre tres plataformas interconectadas:

  • Templar (Subred 3): Pre-entrenamiento descentralizado — el motor detrás de Covenant-72B
  • Basilica: Alquiler de cómputo descentralizado — haciendo que los recursos de GPU sean accesibles para la red
  • Grail: Post-entrenamiento descentralizado — aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) y alineación

Esta pila de tres capas refleja el flujo completo del desarrollo de la IA moderna, desde el pre-entrenamiento bruto hasta el ajuste fino y la alineación. Si las tres capas pueden operar a escala sin una coordinación centralizada, representaría una alternativa completa al enfoque verticalmente integrado de laboratorios como OpenAI y Anthropic.

El panorama competitivo en el entrenamiento de IA descentralizada

Covenant-72B no surgió en el vacío. Varios proyectos compiten para demostrar la viabilidad del entrenamiento descentralizado:

ProyectoParámetrosTokens¿Sin permisos (Permissionless)?Estado
Covenant-72B (Bittensor)72,7B1,1TCompletado
Consilience-40B (Psyche)40BNo (lista blanca)Completado
INTELLECT-1 (Prime Intellect)10BNo (lista blanca)Completado
INTELLECT-3 (Prime Intellect)106B MoEAfirma ser descentralizadoEntrenado en un clúster centralizado de 512 GPUs
GensynCapa de protocoloN/A50,6 M$ recaudados, protocolo en desarrollo

El contraste con Prime Intellect es particularmente llamativo. INTELLECT-3, un modelo de Mezcla de Expertos (MoE) de 106B que obtuvo un 90,8 % en AIME 2024, se comercializó como un proyecto de IA descentralizada, pero en realidad fue entrenado en un clúster centralizado de 512 GPUs. El enfoque de Covenant-72B, totalmente sin permisos y verificado por blockchain, destaca notablemente en comparación.

Limitaciones y desafíos honestos

Covenant-72B es un hito, no la línea de meta. Varias limitaciones merecen ser reconocidas:

La brecha de escala sigue siendo grande. Con aproximadamente 9 x 10^17 FLOPs / s, el cómputo de entrenamiento de Covenant-72B es aproximadamente 1.000 veces menor que las ejecuciones centralizadas de vanguardia. Igualar los modelos de la clase GPT-4 requiere cerrar esa brecha sustancialmente.

La participación fue limitada. El límite de 20 réplicas y el requisito de 8 GPUs B200 por par limitan la participación a contribuyentes con grandes recursos. Esto no es "entrenar IA en tu laptop" — está descentralizado entre entidades con hardware serio.

Redistribución de costos, no reducción. El entrenamiento descentralizado no cuesta inherentemente menos que el entrenamiento centralizado. Cambia el modelo de financiación, distribuyendo los costos entre muchos participantes a través de incentivos de tokens en lugar de concentrarlos en el balance de una sola organización.

Brechas de calidad en algunos benchmarks. El modelo queda por detrás de las líneas de base centralizadas en HellaSwag y WinoGrande, lo que sugiere que la curación de datos y la optimización de las recetas de entrenamiento siguen siendo áreas donde los laboratorios centralizados mantienen una ventaja, por ahora.

Qué significa esto para el futuro de la IA

Covenant-72B representa una transición de fase en la narrativa de la IA descentralizada. Antes de esto, el "entrenamiento de IA descentralizada" era teórico, se limitaba a modelos pequeños o requería participantes de confianza. Ahora hay un artículo publicado en arXiv, pesos de modelo abiertos en Hugging Face y resultados de benchmarks que muestran un rendimiento competitivo, todo ello proveniente de una red totalmente sin permisos coordinada por una blockchain.

Las implicaciones se extienden a través de múltiples dominios:

Gobernanza de la IA: si el entrenamiento se puede descentralizar, el enfoque de "regular los centros de datos" para la seguridad de la IA resulta insuficiente. Los legisladores necesitarán marcos que tengan en cuenta el entrenamiento distribuido.

IA de código abierto: los pesos de Covenant-72B están disponibles públicamente, añadiendo un modelo de clase 72B al ecosistema de código abierto que no fue financiado por ninguna corporación individual.

Economía de tokens (Tokenomics): el token TAO de Bittensor, que incentivó toda la ejecución del entrenamiento, demuestra un caso de uso concreto para los tokens cripto más allá de la especulación: financiar la investigación de IA a través de mecanismos de incentivos impulsados por el mercado.

Dinámicas competitivas: si el entrenamiento descentralizado continúa escalando a 20x / año, los laboratorios centralizados enfrentarán presión no solo entre sí, sino de redes abiertas y sin permisos que no pueden ser adquiridas, reguladas como una sola entidad ni cerradas.

La pregunta ya no es si el entrenamiento de IA descentralizada funciona. Es qué tan rápido puede cerrar la brecha con los laboratorios de vanguardia centralizados, y qué sucederá con la estructura de poder de la industria de la IA cuando lo haga.


BlockEden.xyz proporciona infraestructura de API de blockchain de nivel empresarial que impulsa las redes descentralizadas que hacen posibles proyectos como Bittensor. Explore nuestro mercado de APIs para construir sobre la capa de infraestructura de la revolución de la IA descentralizada.