SN3 de Bittensor apuesta la red en una ejecución de entrenamiento de un billón de parámetros

22 de abril de 2026 · 14 min de lectura

Software Engineer

En marzo de 2026, unas pocas docenas de mineros anónimos con conexiones de internet domésticas entrenaron un modelo de lenguaje de 72 mil millones de parámetros que obtuvo una puntuación muy cercana a la de Llama 2 70B de Meta. Seis semanas después, el equipo que lideró ese esfuerzo se marchó, vendió 10 millones de dólares en TAO y calificó la descentralización de Bittensor como "puro teatro". Ahora la comunidad superviviente quiere hacerlo de nuevo —a una escala catorce veces mayor, en aproximadamente cuatro semanas, con toda la tesis de la IA descentralizada dependiendo del resultado.

Esta es la historia de cómo la Subnet 3 de Bittensor —recientemente rebautizada como Teutonic tras la salida de Covenant AI— se convenció de realizar una ejecución de entrenamiento de 1 billón de parámetros programada para aterrizar de lleno en el periodo de revisión del ETF de TAO de Grayscale por parte de la SEC. Es una apuesta a que la capa de incentivos del protocolo es más importante que las personas que la construyeron, y que la misma red que sobrevivió a una crisis de gobernanza puede entregar el "momento DeepSeek" para la IA descentralizada antes de que los reguladores decidan si permiten que Wall Street entre en el juego.

Cómo un modelo de 72B se convirtió en la marca de referencia para la IA sin permisos

La historia comienza el 10 de marzo de 2026, cuando la Subnet 3 —que entonces operaba bajo el nombre de Templar— anunció Covenant-72B, un modelo de 72 mil millones de parámetros entrenado con aproximadamente 1.1 billones de tokens por más de 70 mineros independientes coordinados a través de la internet pública. Fue, por un amplio margen, la ejecución de pre-entrenamiento de LLM descentralizada más grande jamás completada.

El benchmark que importaba: una puntuación MMLU de 67.1, situando a Covenant-72B en el mismo rango que el Llama 2 70B de Meta —un modelo producido por uno de los laboratorios de IA mejor financiados del planeta. El CEO de NVIDIA, Jensen Huang, comparó públicamente el esfuerzo con un "folding @ home moderno para la IA". El token de la subnet Templar se disparó y, en su punto máximo, su valoración de mercado superó los 1,500 millones de dólares.

El avance técnico no fue la arquitectura del modelo. Fue la capa de coordinación. Dos piezas hicieron el trabajo pesado:

SparseLoCo, un algoritmo de entrenamiento eficiente en comunicación que redujo los requisitos de ancho de banda entre nodos en 146x a través de la esparcificación, cuantización de 2 bits y retroalimentación de errores. Sin esto, una ejecución de entrenamiento a escala de frontera en internet residencial sería físicamente imposible —la sincronización de gradientes por sí sola saturaría la conexión de cada minero.
Gauntlet, el sistema de incentivos validado por la blockchain de Bittensor que calificó la contribución de cada minero mediante la evaluación de pérdida y clasificaciones de OpenSkill, pagando TAO a los nodos de alta calidad y aplicando slashing al resto.

Juntos produjeron algo genuinamente nuevo: una red sin permisos de colaboradores anónimos, coordinados únicamente a través de incentivos criptográficos, entrenando un modelo competitivo con los resultados de laboratorios de miles de millones de dólares.

Luego, algo se rompió.

La salida de Covenant: $900 millones borrados en doce horas

El 10 de abril de 2026, Sam Dare —fundador de Covenant AI, el equipo detrás de tres de las subnets más valiosas de Bittensor (SN3 Templar, SN39 Basilica y SN81 Grail)— anunció que se marchaba. En cuestión de horas, liquidó aproximadamente 37,000 TAO, unos 10.2 millones de dólares, y publicó una acusación de despedida: que el cofundador Jacob Steeves ("Const") ejercía un control centralizado sobre el protocolo, y que la descentralización de Bittensor era una actuación, no arquitectura.

La reacción del mercado fue inmediata. TAO se desplomó un 20–28% dependiendo del periodo de medición, borrando aproximadamente $650–900 millones de capitalización de mercado en un lapso de 12 horas. A los tokens alpha de las subnets les fue peor —Grail (SN81) cayó un 67% en el fondo. Se liquidaron alrededor de 10 millones de dólares en posiciones largas.

Dos hechos mitigaron el pánico:

Las subnets no murieron. Los mineros de la comunidad reiniciaron SN3, SN39 y SN81 a partir de código de código abierto sin un operador central. La infraestructura que construyó Covenant era, de hecho, recuperable a partir de los artefactos públicos —lo que posiblemente demuestra la tesis de descentralización que Dare cuestionaba.
El 70% del suministro de TAO permaneció en stake durante la interrupción. Los holders a largo plazo no siguieron a Dare hacia la salida.

Pero la red tenía un problema de credibilidad. Si Covenant —el equipo que entregó el logro técnico principal de Bittensor— podía irse en la cima y hundir el token, ¿qué impide que el próximo operador de subnet haga lo mismo?

El Mecanismo de Convicción: bloqueando a las personas que pueden irse

La respuesta de Const llegó el 20 de abril de 2026, diez días después de la partida de Dare. BIT-0011, denominado el Mecanismo de Convicción, propone un régimen de Stake Bloqueado que obliga a los propietarios de subnets a bloquear TAO por meses o años a cambio de un "puntaje de convicción" que se traduce en derechos de voto y propiedad de la subnet.

La mecánica:

El puntaje de convicción comienza en 100% y decae en intervalos de 30 días si no se reponen los tokens en el bloqueo.
El poder de voto y los derechos de propiedad disminuyen en paralelo con el decaimiento, haciendo que la fuga repentina de capital sea económicamente costosa en lugar de solo vergonzosa.
El sistema se dirige primero a las subnets maduras —SN3, SN39 y SN81— exactamente las tres que operaba Covenant.

La broma pesada: se dice que BIT-0011 fue redactado por el propio Sam Dare antes de su partida. El fundador saliente escribió las reglas diseñadas para evitar que los fundadores se marchen.

La propuesta aborda una debilidad estructural real —los operadores de subnets anteriormente podían liquidar posiciones sin penalización de gobernanza— pero también concentra el poder en manos de los bloqueadores a largo plazo, lo cual es su propia forma de centralización. Si ese es el intercambio correcto depende de lo que se considere el principal riesgo de Bittensor: la deserción de los fundadores o la captura oligárquica.

Teutonic y el objetivo ambicioso de un billón de parámetros

En ese contexto, la subred Teutonic rebautizada (SN3, anteriormente Templar) se ha comprometido públicamente a una ejecución de entrenamiento descentralizado de 1 billón de parámetros para mediados a finales de mayo de 2026. Eso es aproximadamente 14 veces la escala de Covenant-72B, sobre la misma arquitectura fundamental, con un equipo restaurado por la comunidad en lugar de los ingenieros originales de Covenant.

El momento estratégico es imposible de ignorar. Grayscale presentó su enmienda S-1 para el ETF spot Bittensor Trust (ticker propuesto GTAO) en la NYSE Arca el 2 de abril de 2026. La ventana de decisión de la SEC se sigue actualmente para agosto de 2026. Una ejecución de entrenamiento de 1 billón de parámetros (1T) exitosa en mayo aterrizaría en el pico de la deliberación de los reguladores — exactamente cuando "¿es esta una tecnología real o un meme?" se convierte en la pregunta fundamental. Grayscale ya aumentó la ponderación de TAO dentro de su fondo de IA más amplio al 43,06 % el 7 de abril, la mayor reasignación de un solo activo que ese fondo haya realizado jamás.

El argumento alcista se escribe solo: lanzar un modelo descentralizado creíble de 1 billón de parámetros, convertirse en el "momento DeepSeek" que la aprobación del ETF necesita para justificar la entrada de capital institucional y revalorizar toda la categoría de IA descentralizada en un solo trimestre.

El argumento bajista es de ingeniería, no de marketing.

Por qué escalar el entrenamiento descentralizado es difícil de formas que los laboratorios de frontera no enfrentan

Los modelos centralizados de más de 1 billón de parámetros — GPT-5, Claude 4.7 Opus, Gemini 2.5 Ultra — se entrenan dentro de instalaciones donde cada GPU está conectada a todas las demás a través de infraestructuras diseñadas a medida como NVLink e InfiniBand, con latencias de submicrosegundos y un ancho de banda de terabits por segundo. Incluso en esas condiciones, la sincronización de gradientes es el cuello de botella. Las investigaciones publicadas encuentran de manera consistente que más del 90 % del tiempo de entrenamiento de los LLM puede gastarse en la comunicación en lugar del cómputo cuando el escalado es ingenuo.

Los mineros de Teutonic se coordinan a través de latencias WAN de aproximadamente 100 ms en internet residencial. La única razón por la que Covenant-72B fue posible es la compresión de 146x del volumen de comunicación de SparseLoCo. Escalar a 1 billón de parámetros cambia la ecuación de tres maneras incómodas:

El tamaño del gradiente escala de forma aproximadamente lineal con el recuento de parámetros. Un modelo 14 veces mayor significa 14 veces más datos para sincronizar por paso, incluso antes de considerar el estado del optimizador.
La sobrecarga de coordinación entre nodos históricamente escala de forma superlineal con el recuento de trabajadores. Si Teutonic duplica su grupo de nodos de aproximadamente 70 a 256, el costo de comunicación all-reduce no solo se duplica — puede crecer de 4 a 10 veces dependiendo de la topología.
Los modos de falla se agravan. Un nodo que se desconecta a mitad del paso en una red de 70 nodos es un evento de slashing pequeño. En una red de 256 nodos que ejecuta gradientes 14 veces más grandes, la misma caída puede detener toda la ronda de entrenamiento.

Nada de esto es irresoluble. Existe un cuerpo de investigación sobre entrenamiento descentralizado — pre-entrenamiento heterogéneo de bajo ancho de banda, FusionLLM, superposición de comunicación-cómputo, compensación de gradiente retardado — que apunta exactamente a este régimen. Pero casi todo ha sido validado a la escala de 7B a 70B. Una ejecución de 1 billón de parámetros en hardware de consumo distribuido geográficamente sería una contribución de investigación por derecho propio, no solo el lanzamiento de un producto.

La lectura honesta: Teutonic está asumiendo un desafío de ingeniería de nivel de investigación con un plazo de nivel de marketing. O bien funciona y se convierte en el evento de credibilidad que todo el ecosistema dTAO necesita, o se detiene públicamente durante la ventana de revisión más atenta de la SEC.

El panorama de la IA descentralizada que Teutonic debe sobrevivir

Teutonic no es el único proyecto que intenta alcanzar el hito del "1 billón de parámetros descentralizado creíble" en 2026. El mapa competitivo se está llenando rápido:

Gensyn lanzó su mainnet el 22 de abril de 2026 — el mismo día que se publica este artículo — vinculando el lanzamiento con Delphi Markets, una capa de emparejamiento impulsada por IA para trabajos de computación. Al cierre del día, Gensyn informaba un hashrate equivalente a más de 5000 NVIDIA H100. Mientras que Bittensor vende coordinación sin permisos junto con un volante de incentivos por tokens, Gensyn se posiciona como un mercado de cómputo de IA verificable con pruebas criptográficas de ejecución correcta.
Ritual ha ido en la dirección opuesta, inclinándose hacia la inferencia en lugar del entrenamiento. Su tecnología Infernet permite que cualquier contrato inteligente solicite una salida de IA y reciba una prueba criptográfica de que el modelo especificado se utilizó sin modificaciones. Esa es la tesis de la "IA verificable en DeFi", no la tesis de "entrenar modelos de frontera desde cero".
Ambient y Origins Network están haciendo apuestas adyacentes — diferentes diseños de incentivos, diferentes estrategias de verificación, pero con el mismo objetivo a largo plazo de romper el monopolio de los laboratorios centralizados en el entrenamiento de frontera.

Estos proyectos no compiten directamente por el mismo hito, pero todos compiten por el mismo fondo finito de atención y capital. Si la mainnet de Gensyn captura la narrativa de que "la IA descentralizada ya está aquí" a través de cargas de trabajo comerciales, la ejecución de entrenamiento de mayo de Teutonic se convierte en un referéndum sobre si el enfoque específico de Bittensor — competencia de subredes más incentivos ponderados por tokens — es la arquitectura correcta o la primera iteración que acaba siendo superada.

Por qué esto importa más allá de TAO

Tres cosas se pondrán a prueba simultáneamente durante las próximas cuatro a seis semanas:

Si el entrenamiento descentralizado escala. Si Teutonic tiene éxito, la tesis del "Bitcoin del cómputo de IA descentralizada" sobrevive. Si falla, la salida de Covenant se leerá como el momento en que el entrenamiento basado en subredes alcanzó su punto máximo: un techo de 72 B en lugar de una base de 72 B.

Si el Mecanismo de Convicción es la solución de gobernanza adecuada. Bloquear a los operadores de subredes evita otro desplome al estilo de Covenant, pero crea un nuevo modo de falla donde quienes bloquean a largo plazo pueden atrincherarse. El modelo de mantenedores distribuidos de Bitcoin Core, el desarrollo centralizado continuo de Solana Labs y la concentración de Mysten Labs en Sui son tres respuestas diferentes a la misma pregunta: si la complejidad del protocolo exige un mantenedor central fuerte en el que la comunidad deba confiar. Bittensor está ejecutando ahora su propia versión de ese experimento en tiempo real.

Si la ventana de los ETF obliga a la IA descentralizada a realizar lanzamientos siguiendo el calendario de las TradFi. La ventana de decisión de la SEC en agosto es una fecha límite estricta para una narrativa que quiere ser un "momento DeepSeek" en lugar de un "proyecto de investigación interesante". Eso es una función de forzado saludable o una receta para promesas excesivas, dependiendo de lo que se lance.

Para los desarrolladores que observan desde el lado de la infraestructura, la señal subyacente es más simple: los agentes de IA y las redes de entrenamiento descentralizadas están a punto de generar un nuevo nivel de carga de consultas on-chain — búsquedas en registros de modelos, pruebas de atestación, hashes de puntos de control de gradientes, datos de rendimiento de subredes — que no encaja fácilmente en el patrón de dApps orientadas a humanos para el cual se construyó la infraestructura RPC existente.

BlockEden.xyz proporciona infraestructura de RPC e indexación de grado empresarial en más de 27 + cadenas para equipos que construyen el stack donde la IA se encuentra con el cripto. Explore nuestro marketplace de APIs para construir sobre rieles diseñados tanto para el tráfico humano como para el de máquinas.

Fuentes

Share on Twitter

API Marketplace Featured

Cómo un modelo de 72B se convirtió en la marca de referencia para la IA sin permisos​

La salida de Covenant: $900 millones borrados en doce horas​

El Mecanismo de Convicción: bloqueando a las personas que pueden irse​

Teutonic y el objetivo ambicioso de un billón de parámetros​

Por qué escalar el entrenamiento descentralizado es difícil de formas que los laboratorios de frontera no enfrentan​

El panorama de la IA descentralizada que Teutonic debe sobrevivir​

Por qué esto importa más allá de TAO​

Fuentes​