본문으로 건너뛰기

Gensyn의 Judge, AI의 가장 큰 신뢰 격차를 해결하다: 평가자는 누가 평가하는가?

· 약 9 분
Dora Noda
Software Engineer

GPT-4는 동일한 답변에 대해 두 번 평가를 요청받았을 때 40 % 의 확률로 자신의 이전 판단과 상충하는 결과를 내놓습니다. Bard는 의학적 체계적 문헌 고찰에서 참조 문헌의 91 % 를 환각(hallucination)해냈습니다. 그리고 AI의 정직성을 유지하기 위한 벤치마크들은 어떨까요? 모델들은 점점 더 이 벤치마크들을 속이도록(game) 최적화되고 있습니다. 모델이 우수한지, 안전한지, 혹은 진실한지 알려주는 인프라인 전체 AI 평가 스택은 불투명하고 재현 불가능하며, 우리 발밑에서 조용히 변하고 있는 토대 위에 놓여 있습니다.

a16z crypto, CoinFund, Protocol Labs로부터 5,000만 달러 규모의 투자를 받은 탈중앙화 기계 학습 프로토콜 Gensyn은 이에 대한 구조적 해결책이 있다고 믿습니다. Judge 라고 불리는 그들의 새로운 시스템은 암호학적으로 검증 가능한 AI 평가를 실제 운영 환경에 도입합니다. 이는 블랙박스 API 호출을 결정론적이고, 이의 제기가 가능하며, 온체인 증명이 가능한 모델 품질 측정으로 대체합니다. 이것이 대규모로 작동하게 된다면 AI 산업이 신뢰를 구축하는 방식을 재편할 수 있습니다.

아무도 말하지 않는 평가 위기

AI 산업에는 추악한 비밀이 하나 있습니다. 우리는 우리 모델이 얼마나 잘 작동하는지 진정으로 알지 못한다는 것입니다. 적어도 검증 가능한 의미에서는 그렇습니다.

오늘날의 평가 파이프라인은 대략 이렇습니다. 모델 개발자가 폐쇄형 API(주로 "LLM-as-a-judge" 역할을 하는 GPT-4)를 대상으로 벤치마크를 실행하고 점수를 발표하면, 시장은 이를 믿음으로 받아들입니다. 하지만 이 방식의 문제점은 빠르게 누적되고 있습니다.

폐쇄형 API는 예고 없이 업데이트됩니다. OpenAI, Anthropic, Google은 동일한 API 엔드포인트 뒤에서 주기적으로 모델을 수정합니다. 1월에 측정된 벤치마크 점수는 3월이 되면 재현되지 않을 수 있습니다. 평가 대상 모델이 변해서가 아니라, 평가자 모델이 변했기 때문입니다. 연구에 따르면 LLM의 판단은 "결정론적이지 않습니다". GPT-4에게 동일한 답변을 여러 번 채점하게 하면 종종 다른 점수가 나옵니다.

체계적인 편향이 내재되어 있습니다. 연구에 따르면 LLM 평가자는 위치 편향(어떤 답변이 먼저 나오는지 선호함), 장황함 편향(긴 답변에 약 15 % 더 높은 점수를 부여함), 자기 강화 편향(자신의 결과물에 5-7 % 더 높은 점수를 부여함)을 보입니다. 의학이나 법률과 같이 정확성이 가장 중요한 전문 분야에서 LLM 평가자와 인간 평가자 간의 합의율은 10-15 % 까지 떨어집니다.

벤치마크 어뷰징(Gaming)은 군비 경쟁이 되었습니다. 최첨단 모델들이 리더보드 상단에 몰리면서 신호 대 잡음비가 붕괴되고 있습니다. 모델들은 실제적인 능력 향상 없이 특정 벤치마크에서 좋은 성적을 내도록 미세 조정(Fine-tuning)될 수 있습니다. 연구자들은 이를 "시험을 위한 교육(teaching to the test)" 현상이라고 부릅니다. 그 결과 수치는 올라가지만 신뢰도는 떨어지는 평가 생태계가 만들어졌습니다.

의료, 금융, 법률 시스템 및 자율주행 차량에 AI를 도입하려는 산업에서 이는 단순한 불편함이 아닙니다. 실존적인 신뢰성 문제입니다.

Judge의 등장: 결정론적이고, 이의 제기 가능하며, 검증 가능한 시스템

Gensyn의 Judge는 근본적으로 다른 접근 방식을 취합니다. 단일 평가자를 신뢰하는 대신, Judge는 실제 입력값에 대해 사전에 합의된 결정론적 AI 모델을 실행하고, 누구나 그 결과에 이의를 제기할 수 있는 시스템에 결과를 기록합니다.

아키텍처는 세 가지 계층으로 구성됩니다:

재현 가능한 런타임 (Reproducible Runtime)

Judge는 서로 다른 하드웨어에서도 비트 단위까지 정확한 결과를 보장하는 Gensyn의 재현 가능한 런타임(Reproducible Runtime) 위에서 실행됩니다. 이는 말처럼 쉽지 않습니다. GPU가 행렬 곱셈을 병렬화하는 방식의 차이로 인해, 동일한 신경망 연산이라도 NVIDIA A100과 AMD MI300X에서 서로 다른 부동 소수점 결과가 나올 수 있기 때문입니다.

Gensyn은 서로 다른 하드웨어에서 부동 소수점 연산에 대해 고정된 실행 순서를 강제하는 라이브러리인 RepOps (Reproducible Operators) 를 통해 이를 해결했습니다. 두 노드가 RepOps를 사용하여 동일한 평가를 실행하면 마지막 비트까지 동일한 결과를 얻게 됩니다. 이는 분산 AI 시스템을 괴롭히는 "내 컴퓨터에서는 잘 되는데" 문제를 해결합니다.

Verde 분쟁 해결 (Verde Dispute Resolution)

내부적으로 Judge는 동료 검토 논문으로 발표된 Gensyn의 검증 프로토콜 Verde 에 의해 구동됩니다. Verde는 심판 위임(refereed delegation) 이라는 암호학적 기술을 기계 학습에 맞게 조정했습니다.

작동 방식은 다음과 같습니다. 신뢰할 수 없는 여러 컴퓨팅 공급자가 동일한 평가 작업을 실행합니다. 모두가 동의하면 결과가 수용됩니다. 의견이 일치하지 않으면 Verde는 계산 그래프를 통해 이진 탐색(binary search)을 수행하여 결과가 갈라지는 정확한 연산 지점을 찾아냅니다. 스마트 컨트랙트나 경량 클라이언트일 수 있는 계산적으로 가벼운 심판은 어떤 공급자가 정직했는지 결정하기 위해 해당 단일 연산만 다시 실행하면 됩니다.

효율성은 놀랍습니다. 심판의 계산 비용은 전체 모델을 실행하는 것보다 두 배의 자릿수(100배 이상)만큼 저렴합니다. 10억 개의 매개변수가 있는 평가에 대한 분쟁은 단 한 번의 행렬 곱셈을 다시 계산하는 것으로 해결될 수 있습니다.

온체인 기록 (On-Chain Commitment)

모든 평가 결과는 온체인에 기록되어(Gensyn은 이더리움 롤업으로 작동함) 불변의 기록을 생성합니다. 누구나 특정 모델이 특정 입력값에서 특정 결과물을 생성했음을 검증할 수 있습니다. 예고 없는 업데이트도, "나를 믿으라"는 식의 주장도 없습니다. 오직 수학뿐입니다.

벤치마크를 넘어서: 예측 시장과 실세계의 분쟁

Judge는 단순한 학문적 연습이 아닙니다. Gensyn의 초기 시연은 강화 학습 모델이 추론 문제에 베팅하는 AI 추론을 위한 예측 시장을 보여줍니다. 수익 구조는 늦은 베팅보다 초기 정답 베팅에 더 많은 보상을 제공하여 빠르고 자신감 있는 추론을 장려합니다.

이러한 설계 패턴은 다음과 같은 여러 고부가가치 애플리케이션으로 자연스럽게 확장됩니다.

  • 모델 순위를 자체 보고가 아닌 암호학적으로 검증할 수 있는 탈중앙화 AI 리더보드
  • AI 판사의 결정을 독립적으로 이의 제기하고 검증할 수 있는 예측 시장 결제
  • 자율형 AI 시스템이 금융 거래를 처리함에 따라 AI 에이전트의 품질 보증이 중요해지며, 그 의사 결정 과정을 검증하는 능력이 핵심이 됩니다.
  • EU AI 법(EU AI Act) 및 유사한 프레임워크가 AI 시스템에 대한 문서화와 추적 가능성을 요구함에 따라, 검증 가능한 평가는 감사 가능한 흔적(auditable trail)을 제공하는 규제 준수 역할을 합니다.

경쟁 환경: zkML vs. opML vs. Verde

Gensyn만이 검증 가능한 AI 연산을 다루는 프로젝트는 아닙니다. 이 분야는 크게 세 가지 접근 방식으로 수렴되었습니다.

영지식 기계 학습 (zkML) — EZKL, Modulus Labs, Giza와 같은 프로젝트는 AI 추론을 영지식 회로(zero-knowledge circuits)로 변환합니다. 장점은 모델 가중치를 공개하지 않고도 강력한 암호학적 보증을 제공한다는 점입니다. 단점은 연산 오버헤드입니다. 대규모 모델에 대한 ZK 증명 생성은 모델 자체를 실행하는 것보다 여전히 수십 배 더 많은 비용이 듭니다. "지능의 비용(The Cost of Intelligence)"을 발표한 스탠포드 연구원들이 이끄는 Modulus Labs는 증명 생성 비용을 줄이는 데 진전을 보였지만, zkML은 수억 개의 매개변수를 넘어서는 모델에는 여전히 비실용적입니다.

낙관적 기계 학습 (opML) — Ora와 같은 프로토콜은 낙관적 롤업(optimistic rollups)과 유사한 낙관적 접근 방식을 사용합니다. 즉, 연산이 올바르다고 가정하되 이의 제기 기간(challenge period)을 허용합니다. 이는 대부분의 연산이 정직할 때 효율적이지만, 암호학적 확신보다는 경제적 인센티브(스테이킹 및 슬래싱)에 의존합니다.

심판 위임 (Verde) — Gensyn의 접근 방식은 이 두 극단 사이에 위치합니다. 분쟁이 발생했을 때만 심판이 재연산을 수행하고, 작업의 아주 일부분만 재연산하기 때문에 zkML보다 효율적입니다. 또한 RepOps가 정직한 제공자가 항상 동일한 결과를 생성하도록 보장하여 분쟁 해결의 모호성을 제거하므로 opML보다 결정론적입니다.

핵심 차별점은 RepOps입니다. 비트 단위 재현성(bitwise reproducibility)이 없으면 심판 위임 방식은 무너집니다. 정직한 노드가 약간 다른 부동 소수점 결과를 생성하면 허위 분쟁이 발생할 수 있기 때문입니다. 하드웨어 수준에서 재현성 문제를 해결함으로써 Gensyn은 실제 ML 워크로드에 심판 위임 방식을 실용적으로 적용할 수 있게 합니다.

테스트넷에서 토큰까지: Gensyn의 상용화 경로

Gensyn의 공개 테스트넷은 2025년 3월 대기 명단 없이 출시되어 탈중앙화 AI에 영구적인 아이덴티티를 부여했습니다. 네트워크는 참여를 추적하고, 기여도를 유지하며, 결제를 처리하고, 실행을 조율하며, 분산 학습 실행을 기록합니다.

이 프로젝트의 $AI 토큰은 2025년 12월 잉글리시 옥션(English auction)을 통해 시장에 출시되었으며, 3억 개의 토큰(공급량의 3%)을 제공하고 완전 희석 가치(FDV)는 10억 달러로 제한되었습니다. a16z crypto, CoinFund, Canonical Crypto, Protocol Labs, Eden Block으로부터 5,000만 달러를 투자받은 Gensyn은 탈중앙화 AI 분야에서 가장 자금 지원이 활발한 프로젝트 중 하나입니다.

현재 테스트넷은 RL 사후 학습(post-training) 워크로드를 지원합니다. 이는 OpenAI의 o1 모델이 추론 시간 연산 스케일링(inference-time compute scaling)의 위력을 보여준 이후 지배적인 패러다임이 된 강화 학습 미세 조정(fine-tuning)입니다. Judge는 이 인프라를 평가 레이어까지 확장하여 학습, 추론 및 품질 보증 사이의 루프를 완성합니다.

왜 지금 검증 가능한 평가가 중요한가

여러 수렴하는 트렌드로 인해 2026년은 검증 가능한 AI 평가의 전환점이 될 것입니다.

AI 에이전트의 폭발적 증가. DeFi 전략에서 교차 자산 거래에 이르기까지 실제 자금을 관리하는 282개 이상의 크립토-AI 프로젝트가 자율 에이전트를 배포함에 따라, 감지되지 않은 모델 오류의 비용은 단순한 난처함을 넘어 금융 재앙으로 확대됩니다. 검증 가능한 평가는 있으면 좋은 것이 아니라 필수적인 리스크 인프라입니다.

규제 압력. 2024년에 채택된 EU AI 법은 AI 시스템에 대한 문서화 및 추적 가능성 요구 사항을 강화했습니다. 2025년 6억 8,000만 달러에서 2034년 43억 달러로 성장할 것으로 예상되는 블록체인-AI 분야는 감사 가능한 평가 기록을 요구하는 규제 준수 요건의 영향을 점점 더 많이 받고 있습니다.

신뢰 프리미엄. AI 마케팅이 난무하는 시장에서 검증 가능한 품질은 경쟁 우위(moat)가 됩니다. 모델 성능을 암호학적으로 증명할 수 있는 프로젝트는 프리미엄 포지셔닝을 차지할 것입니다. 특히 "나를 믿으라"는 식의 리스크 관리 전략이 통하지 않는 기관 시장에서는 더욱 그렇습니다.

대규모 탈중앙화 학습. 개인용 노트북부터 데이터 센터 GPU까지 연산 자원을 통합하는 Gensyn의 프로토콜처럼 분산 학습 네트워크가 성장함에 따라, 검증의 병목 현상은 "학습할 수 있는가?"에서 "올바르게 학습했음을 증명할 수 있는가?"로 이동합니다. Judge는 이 문제를 직접 해결합니다.

거시적 관점

Gensyn의 Judge는 단순한 프로토콜의 기능 출시 이상의 의미를 지닙니다. 이는 AI 모델이 점차 높은 위험성이 수반되는 환경에 배포됨에 따라, AI 산업의 평가 위기가 더 이상 감당할 수 없는 수준에 이를 것이라는 확신에 기반한 베팅입니다.

OpenAI, Anthropic, Google과 같은 중앙 집중식 AI 연구소들은 평가 과정을 투명하게 공개할 구조적 인센티브가 없습니다. 그들은 모델과 벤치마크를 모두 통제하며, 소리 없이 색이 변하는 펜으로 자신의 숙제를 스스로 채점하고 있습니다. 탈중앙화된 검증은 이러한 폐쇄적인 루프에서 벗어날 수 있는 탈출구를 제공합니다.

Gensyn이 이 기회를 구체적으로 포착할 수 있을지는 실행력에 달려 있습니다. 모델이 수천억 개의 파라미터 규모로 확장될 때 RepOps가 비트 단위의 재현성 (bitwise reproducibility)을 유지할 수 있을까요? Verde의 분쟁 해결 메커니즘이 글로벌 평가 네트워크의 처리량 요구 사항을 감당할 수 있을까요? 경제적 인센티브가 시스템을 견고하게 만들 만큼 충분한 정직한 컴퓨팅 제공자들을 끌어들일 수 있을까요?

이는 어려운 엔지니어링 문제입니다. 하지만 검증 불가능한 모델 품질에 대한 주장에 의존하여 AI 기반 경제를 계속 구축하는 대안은 시간이 갈수록 정당화하기 더 힘들어질 것입니다.

AI 산업은 모델 품질의 문제가 아니라, 모델 품질의 '증명' 문제를 겪고 있습니다. 그리고 '증명'은 바로 블록체인이 탄생한 목적 그 자체입니다.


BlockEden.xyz는 차세대 AI 및 블록체인 애플리케이션을 구동하는 인프라 계층을 지원합니다. 검증 가능한 AI 연산이 연구 단계에서 실제 운영 단계로 넘어가면서, 견고한 노드 인프라는 신뢰가 필요 없는 (trustless) 평가 네트워크의 기반이 됩니다. API 마켓플레이스 둘러보기를 통해 탈중앙화된 미래를 위해 설계된 인프라 위에서 개발을 시작해 보세요.