El Judge de Gensyn aborda la mayor brecha de confianza de la IA: ¿Quién evalúa a los evaluadores?
GPT-4 no está de acuerdo consigo mismo el 40 % de las veces cuando se le pide que juzgue la misma respuesta dos veces. Bard alucinó en el 91 % de sus referencias en revisiones sistemáticas médicas. ¿Y los puntos de referencia destinados a mantener la honestidad de la IA? Los modelos se optimizan cada vez más para manipularlos. Toda la pila de evaluación de IA —la infraestructura que nos dice si un modelo es bueno, seguro o veraz— se apoya en cimientos que son opacos, no reproducibles y que se desplazan silenciosamente bajo nuestros pies.
Gensyn, el protocolo descentralizado de aprendizaje automático respaldado por 50 millones de dólares de a16z crypto, CoinFund y Protocol Labs, cree que tiene una solución estructural. Su nuevo sistema, llamado Judge, lleva la evaluación de IA verificable criptográficamente a producción, reemplazando las llamadas a API de caja negra con pruebas de calidad del modelo deterministas, cuestionables y en cadena. Si funciona a escala, podría remodelar la forma en que la industria de la IA establece la confianza.