Gensyn의 Judge, AI의 가장 큰 신뢰 격차를 해결하다: 평가자는 누가 평가하는가?
GPT-4는 동일한 답변에 대해 두 번 평가를 요청받았을 때 40 % 의 확률로 자신의 이전 판단과 상충하는 결과를 내놓습니다. Bard는 의학적 체계적 문헌 고찰에서 참조 문헌의 91 % 를 환각(hallucination)해냈습니다. 그리고 AI의 정직성을 유지하기 위한 벤치마크들은 어떨까요? 모델들은 점점 더 이 벤치마크들을 속이도록(game) 최적화되고 있습니다. 모델이 우수한지, 안전한지, 혹은 진실한지 알려주는 인프라인 전체 AI 평가 스택은 불투명하고 재현 불가능하며, 우리 발밑에서 조용히 변하고 있는 토대 위에 놓여 있습니다.
a16z crypto, CoinFund, Protocol Labs로부터 5,000만 달러 규모의 투자를 받은 탈중앙화 기계 학습 프로토콜 Gensyn은 이에 대한 구조적 해결책이 있다고 믿습니다. Judge 라고 불리는 그들의 새로운 시스템은 암호학적으로 검증 가능한 AI 평가를 실제 운영 환경에 도입합니다. 이는 블랙박스 API 호출을 결정론적이고, 이의 제기가 가능하며, 온체인 증명이 가능한 모델 품질 측정으로 대체합니다. 이것이 대규모로 작동하게 된다면 AI 산업이 신뢰를 구축하는 방식을 재편할 수 있습니다.