O Judge da Gensyn Enfrenta a Maior Lacuna de Confiança da IA: Quem Avalia os Avaliadores?
O GPT-4 discorda de si mesmo 40% das vezes quando solicitado a julgar a mesma resposta duas vezes. O Bard alucinou 91% de suas referências em revisões sistemáticas médicas. E os benchmarks destinados a manter a IA honesta? Os modelos estão sendo cada vez mais otimizados para burlá-los. Toda a pilha de avaliação de IA — a infraestrutura que nos diz se um modelo é bom, seguro ou verdadeiro — repousa sobre bases opacas, não reprodutíveis e que mudam silenciosamente sob nossos pés.
A Gensyn, o protocolo descentralizado de aprendizado de máquina apoiado por US$ 50 milhões da a16z crypto, CoinFund e Protocol Labs, acredita que tem uma solução estrutural. Seu novo sistema, chamado Judge, traz a avaliação de IA criptograficamente verificável para a produção — substituindo chamadas de API de caixa preta por provas on-chain determinísticas e contestáveis de qualidade de modelo. Se funcionar em escala, poderá remodelar a forma como a indústria de IA estabelece a confiança.