El gambito de 7.2 millones de dólares de Ambient: Cómo Proof of Logits podría reemplazar el minado basado en hash con inferencia de IA
¿Qué pasaría si el mismo trabajo computacional que asegura una cadena de bloques también entrenara a la próxima generación de modelos de IA? Esa no es una visión lejana: es la tesis central detrás de Ambient, un fork de Solana que acaba de recaudar 7,2 millones de dólares de a16z CSX para construir la primera blockchain de prueba de trabajo impulsada por IA del mundo.
La prueba de trabajo tradicional quema electricidad resolviendo acertijos criptográficos arbitrarios. Los mineros de Bitcoin compiten para encontrar hashes con suficientes ceros a la izquierda: un trabajo computacional sin más valor que la seguridad de la red. Ambient cambia este guion por completo. Su mecanismo de consenso Proof of Logits (PoL) reemplaza el procesamiento masivo de hashes con inferencia de IA, ajuste fino (fine-tuning) y entrenamiento de modelos. Los mineros no resuelven acertijos; generan salidas de IA verificables. Los validadores no vuelven a calcular cargas de trabajo completas; verifican huellas criptográficas llamadas logits.
¿El resultado? Una blockchain donde la seguridad y el avance de la IA están alineados económicamente, donde un gasto operativo de verificación del 0,1 % hace que la comprobación del consenso sea casi gratuita, y donde los costes de entrenamiento caen 10 veces en comparación con las alternativas centralizadas. Si tiene éxito, Ambient podría responder a una de las críticas más antiguas de las criptomonedas —que la prueba de trabajo desperdicia recursos— convirtiendo la minería en un trabajo de IA productivo.
El avance de Proof of Logits: IA verificable sin recálculo
Comprender PoL requiere entender qué son realmente los logits. Cuando los modelos de lenguaje de gran tamaño generan texto, no emiten palabras directamente. En su lugar, en cada paso, producen una distribución de probabilidad sobre todo el vocabulario: puntuaciones numéricas que representan niveles de confianza para cada posible token siguiente.
Estas puntuaciones se llaman logits. Para un modelo con un vocabulario de 50.000 tokens, generar una sola palabra significa calcular 50.000 logits. Estos números sirven como una huella dactilar computacional única. Solo un modelo específico, con pesos específicos, ejecutando una entrada específica, produce una distribución de logits específica.
La innovación de Ambient consiste en utilizar los logits como prueba de trabajo: los mineros realizan inferencias de IA (generando respuestas a prompts) y los validadores verifican este trabajo comprobando las huellas dactilares de los logits en lugar de rehacer todo el cálculo.
Así es como funciona el proceso de verificación:
El minero genera la salida: Un minero recibe un prompt (p. ej., "Resume los principios del consenso blockchain") y utiliza un modelo de 600.000 millones de parámetros para generar una respuesta de 4.000 tokens. Esto produce 4.000 × 50.000 = 200 millones de logits.
El validador realiza verificaciones aleatorias: En lugar de regenerar los 4.000 tokens, el validador muestrea aleatoriamente una posición, por ejemplo, el token 2.847. El validador ejecuta un único paso de inferencia en esa posición y compara los logits informados por el minero con la distribución esperada.
Compromiso criptográfico: Si los logits coinciden (dentro de un umbral aceptable que tiene en cuenta la precisión de punto flotante), el trabajo del minero se verifica. Si no coinciden, el bloque es rechazado y el minero pierde sus recompensas.
Esto reduce el gasto operativo de verificación a aproximadamente el 0,1 % del cálculo original. Un validador que comprueba 200 millones de logits solo necesita verificar 50.000 logits (una posición de token), reduciendo el coste en un 99,9 %. Compare esto con la PoW tradicional, donde la validación significa volver a ejecutar toda la función hash, o el enfoque de Bitcoin, donde verificar un solo hash SHA-256 es trivial porque el acertijo en sí es arbitrario.
El sistema de Ambient es exponencialmente más barato que los esquemas ingenuos de "prueba de trabajo útil" que requieren un recálculo completo. Está más cerca de la eficiencia de Bitcoin (validación económica) pero ofrece una utilidad real (inferencia de IA en lugar de hashes sin sentido).
La reducción de costes de entrenamiento de 10x: IA descentralizada sin monopolios de centros de datos
El entrenamiento de IA centralizado es costoso: prohibitivo para la mayoría de las organizaciones. Entrenar modelos a escala de GPT-4 cuesta decenas de millones de dólares, requiere miles de GPU empresariales y concentra el poder en manos de unos pocos gigantes tecnológicos. La arquitectura de Ambient tiene como objetivo democratizar esto distribuyendo el entrenamiento en una red de mineros independientes.
La reducción de costes de 10 veces proviene de dos innovaciones técnicas:
Fragmentación al estilo PETALS: Ambient adapta técnicas de PETALS, un sistema de inferencia descentralizado donde cada nodo almacena solo un fragmento (shard) de un modelo grande. En lugar de requerir que los mineros mantengan un modelo completo de 600.000 millones de parámetros (lo que requeriría terabytes de VRAM), cada minero posee un subconjunto de capas. Un prompt fluye secuencialmente a través de la red, con cada minero procesando su fragmento y pasando las activaciones al siguiente.
Esto significa que un minero con una sola GPU de consumo (24 GB de VRAM) puede participar en el entrenamiento de modelos que, de otro modo, requerirían cientos de GPU en un centro de datos. Al distribuir el grafo computacional a través de cientos o miles de nodos, Ambient elimina la necesidad de costosas interconexiones de gran ancho de banda (como InfiniBand) utilizadas en los clústeres de ML tradicionales.
Sparsity (dispersión) inspirada en SLIDE: La mayoría de los cálculos de redes neuronales implican multiplicar matrices donde la mayoría de las entradas están cerca de cero. SLIDE (Sub-LInear Deep learning Engine) aprovecha esto mediante el hashing de activaciones para identificar qué neuronas importan realmente para una entrada determinada, omitiendo por completo los cálculos irrelevantes.
Ambient aplica esta dispersión al entrenamiento distribuido. En lugar de que todos los mineros procesen todos los datos, la red enruta dinámicamente el trabajo a los nodos cuyos fragmentos son relevantes para el lote actual. Esto reduce el gasto operativo de comunicación (un cuello de botella importante en el ML distribuido) y permite que los mineros con hardware más débil participen manejando subgrafos dispersos.
La combinación produce lo que Ambient afirma es un rendimiento (throughput) 10 veces mejor que los esfuerzos de entrenamiento distribuido existentes como DiLoCo o Hivemind. Lo más importante es que reduce la barrera de entrada: los mineros no necesitan infraestructura de nivel de centro de datos; una PC para juegos con una GPU decente es suficiente para contribuir.