El giro de la inferencia: Por qué las redes de GPU descentralizadas están ganando la carrera para servir la carga de trabajo de IA de más rápido crecimiento

27 de marzo de 2026 · 10 min de lectura

Software Engineer

NVIDIA está tan desesperada por energía que acaba de anunciar centros de datos orbitales en el GTC 2026. Mientras tanto, dos tercios de todo el cómputo de IA de este año no tocarán un clúster de entrenamiento en absoluto — será inferencia, el trabajo poco glamuroso pero de misión crítica de ejecutar realmente modelos para usuarios reales. Y las redes de GPU descentralizadas se están convirtiendo silenciosamente en la infraestructura mejor posicionada para servirlo.

La gran inversión del cómputo

Durante la mayor parte de la era moderna de la IA, el entrenamiento dominó la conversación — y el capital. Construir un modelo de frontera significaba bloquear miles de H100 interconectadas durante meses, consumiendo megavatios de energía en un solo centro de datos. Esa concentración convirtió a los hiperescaladores centralizados en el monopolio natural.

Pero la economía ha dado un giro. Deloitte estima que las cargas de trabajo de inferencia representaron la mitad de todo el cómputo de IA en 2025. Para 2026, esa cifra saltará a los dos tercios. Se proyecta que solo el mercado de chips optimizados para inferencia superará los 50.000 millones de dólares este año.

¿A qué se debe este cambio? A que las empresas han dejado de experimentar y han empezado a desplegar. Cada chatbot, cada copiloto de IA, cada agente autónomo que se ejecuta en producción es una carga de trabajo de inferencia — y a diferencia del entrenamiento, la inferencia no se detiene. Un solo despliegue de clase GPT-4 que atienda a millones de usuarios genera más demanda de cómputo acumulada que la ejecución de entrenamiento de meses que creó el modelo.

Aquí está la diferencia arquitectónica crítica: el entrenamiento requiere miles de GPU estrechamente acopladas a través de NVLink en una sola instalación. La inferencia no. Una sola GPU — o un pequeño clúster — puede atender solicitudes de modelos de forma independiente. Eso hace que la inferencia sea inherentemente distribuible, geográficamente flexible y perfectamente adecuada para redes descentralizadas.

Por qué la latencia es el nuevo cuello de botella

El cambio hacia la inferencia trae consigo una restricción para la que la nube centralizada nunca tuvo que optimizar durante la era del entrenamiento: la latencia.

Los sistemas de IA agéntica — herramientas autónomas que perciben, razonan y actúan en nombre de los usuarios — necesitan tiempos de respuesta medidos en decenas de milisegundos. Un bot de trading que ejecuta arbitraje, un asistente de IA que procesa comandos de voz, un protocolo DeFi que enruta liquidez en tiempo real — ninguno de ellos puede tolerar más de 200 milisegundos de latencia de ida y vuelta a un centro de datos centralizado en otro continente.

Los analistas de la industria definen ahora la "inferencia en el borde" (edge inference) como cómputo desplegado a menos de 100 millas de las principales áreas metropolitanas. Ese es un problema de distribución geográfica, no un problema de cómputo bruto. Y es un problema que una red de más de 50.000 hosts de GPU distribuidos resuelve de forma más natural que un puñado de instalaciones de hiperescala en Virginia, Oregón e Irlanda.

La tesis de la inferencia DePIN — Validada a escala

Las Redes de Infraestructura Física Descentralizada (DePIN) se presentaron originalmente como una forma de obtener hardware infrautilizado mediante crowdsourcing. La crítica inicial era justa: el cómputo descentralizado no podía igualar el acoplamiento estrecho necesario para el entrenamiento de modelos de frontera. Pero la inferencia cambia el cálculo por completo.

Las cifras cuentan la historia. CoinGecko ahora rastrea casi 250 proyectos DePIN con una capitalización de mercado combinada superior a los 19.000 millones de dólares — un aumento del 265 % desde los 5.200 millones de tan solo 12 meses antes. Las DePIN relacionadas con la IA dominan, representando el 48 % de la capitalización de mercado total.

Más importante aún, estas redes ya no son teóricas. El tráfico de producción real está fluyendo:

Akash Network reportó un crecimiento del 428 % interanual en el uso, con una utilización superior al 80 %. Su servicio AkashML — lanzado a finales de 2025 — ofrece una API compatible con OpenAI que enruta el tráfico al centro de datos global más cercano de entre más de 80 opciones, logrando tiempos de respuesta inferiores a 200 ms. Ahorro de costes: hasta un 85 % en comparación con la nube tradicional.
Aethir entregó más de 1.400 millones de horas de cómputo y reportó casi 40 millones de dólares en ingresos trimestrales, convirtiéndose en uno de los primeros proyectos DePIN en demostrar un rendimiento a escala de hiperescalador.
Nosana superó los 50.000 hosts de GPU independientes, centrándose específicamente en cargas de trabajo de inferencia como la generación de imágenes con Stable Diffusion y el servicio de LLM en su red basada en Solana.

La economía: entre un 45 % y un 60 % más barato, con matices

Los precios brutos de las GPU en las redes DePIN son muy inferiores a los de los hiperescaladores por un amplio margen. Hyperbolic ofrece instancias de NVIDIA H100 a 1,49 $/hora — en comparación con los 3,90$ /hora de AWS (tras los recortes de precios de 2025), los 6,98 $/hora de Azure y los 3,00$ /hora de Google Cloud.

Para una startup que ejecuta inferencia para un chatbot o un servicio de generación de imágenes, esto se traduce en una reducción de costes de infraestructura del 45 al 60 %. A escala, los ahorros se acumulan: una empresa que gasta 1 millón de dólares al mes en cómputo de inferencia podría redirigir entre 450.000 y 600.000 dólares anuales hacia el desarrollo de productos.

Pero el precio bruto no lo es todo. La varianza de la fiabilidad en las redes descentralizadas puede obligar a un exceso de aprovisionamiento — es posible que necesite reservar entre un 20 y un 30 % más de capacidad para garantizar acuerdos de nivel de servicio (SLA) de tiempo de actividad comparables al 99,99 % de AWS. La complejidad operativa es mayor. Y los requisitos de cumplimiento empresarial (SOC 2, HIPAA) siguen siendo una barrera para las industrias reguladas.

Los proyectos que abordan esto directamente están ganando terreno. El próximo protocolo Proof of Sampling (PoSP) de Hyperbolic — desarrollado con investigadores de la UC Berkeley y la Universidad de Columbia — proporcionará una verificación criptográfica de que los resultados de la inferencia se calcularon correctamente, sin requerir confianza en el proveedor de la GPU. La iniciativa Starcluster de Akash combina centros de datos de grado empresarial propiedad del protocolo con su mercado descentralizado, creando un modelo híbrido que ofrece tanto ahorro de costes como garantías de fiabilidad.

La paradoja de Vera Rubin

En el GTC 2026, el CEO de NVIDIA, Jensen Huang, presentó la plataforma Vera Rubin: siete nuevos chips y cinco tipos de racks diseñados como una supercomputadora de IA masiva. La métrica principal: 10 veces más rendimiento por vatio en comparación con su predecesor Grace Blackwell, generando 5 veces más ingresos por gigavatio.

Huang también proyectó 1 billón de dólares en pedidos acumulados para Blackwell y Vera Rubin hasta 2027. Y en lo que quizás sea la señal más reveladora de cuán grave se ha vuelto la crisis energética, NVIDIA anunció Vera Rubin Space-1: centros de datos orbitales diseñados para eludir por completo las limitaciones de la red eléctrica terrestre.

Aquí reside la paradoja: las ganancias de eficiencia de Vera Rubin son extraordinarias, pero están diseñadas para fábricas de IA a escala de gigavatios — instalaciones centralizadas con tal demanda energética que NVIDIA está buscando soluciones literalmente en el espacio. Mientras tanto, las cargas de trabajo de inferencia no necesitan instalaciones de gigavatios. Necesitan miles de despliegues más pequeños, distribuidos geográficamente y cerca de los usuarios finales.

NVIDIA está construyendo las máquinas de inferencia centralizadas más potentes jamás concebidas. Las redes DePIN están construyendo las más distribuidas. La cuestión no es qué enfoque ganará, sino qué cargas de trabajo sirve mejor cada uno. El entrenamiento de modelos de frontera y la inferencia en lotes masivos seguirán residiendo en instalaciones centralizadas. La inferencia en tiempo real, sensible a la latencia y geográficamente diversa es donde las redes descentralizadas tienen una ventaja estructural.

La capa de inferencia especializada

La próxima evolución ya está emergiendo: redes DePIN de inferencia construidas para propósitos específicos que van más allá del intercambio de GPUs de propósito general.

Ritual se ha posicionado como el primer coprocesador de IA para blockchains — permitiendo que los contratos inteligentes soliciten inferencia de redes neuronales de la misma manera que solicitan datos de precios a los oráculos. Esto crea una capa de inferencia on-chain nativa donde los protocolos DeFi pueden integrar la toma de decisiones por IA sin tener que confiar en una API off-chain.

Hyperbolic está construyendo una red de inferencia verificable donde cada cálculo es demostrable criptográficamente. Para las empresas que necesitan auditar los resultados de la IA — servicios financieros, salud, legal — esto resuelve el problema de confianza que les ha impedido adoptar la computación descentralizada.

Estas redes especializadas representan la maduración de DePIN desde "GPUs baratas" hacia una infraestructura que resuelve problemas que la nube centralizada no puede: computación verificable, integración on-chain y distribución geográfica a una granularidad que ningún hiperescalador encontraría económicamente racional de replicar.

Lo que viene a continuación

La era de la inferencia valida la tesis original de DePIN mejor de lo que el entrenamiento jamás podría hacerlo. El entrenamiento requiere un acoplamiento estrecho; la inferencia requiere una distribución amplia. El entrenamiento es un proceso por lotes; la inferencia es continua. El entrenamiento es un centro de costos; la inferencia es donde se generan los ingresos.

Tres desarrollos a seguir en los próximos 12 meses:

Adopción híbrida empresarial: El modelo Starcluster de Akash — que combina hardware empresarial propiedad del protocolo con capacidad descentralizada — será el modelo a seguir. Las empresas no se descentralizarán por completo de la noche a la mañana, pero utilizarán cada vez más las redes DePIN para capacidad de ráfaga y despliegue en el borde.
La inferencia verificable se convierte en un requisito básico: A medida que los agentes de IA gestionen transacciones financieras, decisiones médicas y análisis legales, la capacidad de demostrar que la inferencia se calculó correctamente pasará de ser algo deseable a un requisito regulatorio. Proyectos como Hyperbolic y Ritual están construyendo esta infraestructura ahora.
El mercado de chips de inferencia de 50.000 millones de dólares crea diversidad de hardware: A medida que NVIDIA, AMD, Intel y los fabricantes de ASIC personalizados inunden el mercado con silicio optimizado para la inferencia, las redes DePIN agregarán este hardware heterogéneo de manera más efectiva que cualquier proveedor de nube individual, ofreciendo una optimización específica para la carga de trabajo que los hiperescaladores no pueden igualar.

Se proyecta que el mercado global de infraestructura de IA alcance los 1,36 billones de dólares en 2026. La mayor parte de ese gasto se está desplazando de los clústeres de entrenamiento a la infraestructura de inferencia. Las redes de GPU descentralizadas no lo capturarán todo, pero no necesitan hacerlo. Incluso un porcentaje de un solo dígito del mercado de inferencia representa una oportunidad de miles de millones de dólares para las redes DePIN que puedan ofrecer confiabilidad, latencia y costo.

La era del entrenamiento perteneció a los hiperescaladores centralizados. La era de la inferencia está en juego, y la arquitectura de las redes descentralizadas puede ser exactamente lo que esta demanda.

BlockEden.xyz proporciona infraestructura de API de alto rendimiento para las redes blockchain líderes, incluyendo Sui, Aptos y Ethereum — las mismas cadenas que impulsan la próxima generación de protocolos DePIN. Explore nuestro mercado de APIs para construir sobre una infraestructura diseñada para el futuro descentralizado.

Share on Twitter

API Marketplace Featured

La gran inversión del cómputo​

Por qué la latencia es el nuevo cuello de botella​

La tesis de la inferencia DePIN — Validada a escala​

La economía: entre un 45 % y un 60 % más barato, con matices​

La paradoja de Vera Rubin​

La capa de inferencia especializada​

Lo que viene a continuación​