본문으로 건너뛰기

"cryptographic proofs" 태그로 연결된 3 개 게시물 개의 게시물이 있습니다.

암호학적 증명 시스템

모든 태그 보기

Gensyn의 Judge: 비트 단위의 정확한 재현성이 불투명한 AI API 시대를 끝내는 방법

· 약 18 분
Dora Noda
Software Engineer

ChatGPT, Claude 또는 Gemini를 쿼리할 때마다 사용자는 보이지 않는 블랙박스를 신뢰하게 됩니다. 모델 버전은? 알 수 없습니다. 정확한 가중치(weights)는? 비공개입니다. 출력이 사용자가 생각하는 모델에 의해 생성되었는지, 아니면 조용히 업데이트된 변형인지 여부? 확인이 불가능합니다. 레시피나 상식을 묻는 일반 사용자에게 이러한 불투명함은 단순히 짜증 나는 일일 뿐입니다. 하지만 금융 거래 알고리즘, 의료 진단, 법률 계약 분석과 같은 고위험 AI 의사 결정에 있어 이는 근본적인 신뢰의 위기입니다.

2025년 말에 출시되어 2026년에 본격적인 운영을 시작하는 Gensyn's Judge는 혁신적인 대안을 제시합니다. 모든 추론을 비트 단위까지 재현할 수 있는 암호학적으로 검증 가능한 AI 평가입니다. OpenAI나 Anthropic이 올바른 모델을 제공한다고 믿는 대신, Judge는 특정하고 사전에 합의된 AI 모델이 실제 데이터에 대해 결정론적으로 실행되었음을 누구나 확인할 수 있게 하며, 암호화 증명을 통해 결과가 조작되지 않았음을 보장합니다.

기술적 돌파구는 AI 재현성의 골칫거리인 부동 소수점 비결정성 (floating-point nondeterminism)을 제거하는 Gensyn의 검증 시스템인 Verde입니다. Verde는 기기 간에 비트 단위로 정확한 연산을 강제함으로써, 런던의 NVIDIA A100과 도쿄의 AMD MI250에서 동일한 모델을 실행했을 때 온체인에서 증명 가능한 동일한 결과를 얻을 수 있도록 보장합니다. 이는 탈중앙화 금융 (DeFi), 자율 에이전트 및 투명성이 선택이 아닌 생존의 문제인 모든 애플리케이션에 검증 가능한 AI를 가능하게 합니다.

불투명한 API 문제: 검증 없는 신뢰

AI 산업은 API를 기반으로 운영됩니다. 개발자는 REST 엔드포인트를 통해 OpenAI의 GPT-4, Anthropic의 Claude 또는 Google의 Gemini를 통합하여 프롬프트를 보내고 응답을 받습니다. 하지만 이러한 API는 근본적으로 불투명합니다.

버전 불확실성: gpt-4를 호출할 때 정확히 어떤 버전을 사용하고 있습니까? GPT-4-0314인가요? GPT-4-0613인가요? 아니면 조용히 업데이트된 변형인가요? 제공업체는 공개 발표 없이 패치를 자주 배포하여 하룻밤 사이에 모델 동작을 변경합니다.

감사 추적 부재: API 응답에는 어떤 모델이 이를 생성했는지에 대한 암호화 증명이 포함되어 있지 않습니다. 만약 OpenAI가 특정 지역이나 고객에게 검열되거나 편향된 변형을 제공하더라도 사용자는 이를 감지할 방법이 없습니다.

조용한 성능 저하: 제공업체는 비용을 절감하기 위해 모델을 "로보토마이즈 (lobotomize)"하여 동일한 API 계약을 유지하면서 추론 품질을 낮출 수 있습니다. 사용자들은 GPT-4가 시간이 지남에 따라 "멍청해졌다"고 보고하지만, 투명한 버전 관리가 없으면 이러한 주장은 일화적인 수준에 머뭅니다.

비결정론적 출력: 온도 설정, 배치 처리 또는 하드웨어 수준의 부동 소수점 반올림 오류로 인해 동일한 입력으로 동일한 모델을 두 번 쿼리해도 다른 결과가 나올 수 있습니다. 이는 감사를 불가능하게 만듭니다. 출력이 재현 가능하지 않은데 어떻게 정확성을 검증할 수 있습니까?

일반적인 애플리케이션의 경우 이러한 문제는 불편함에 불과합니다. 하지만 고위험 의사 결정에서는 치명적인 장애물입니다. 다음을 고려해 보십시오.

알고리즘 트레이딩: 헤지 펀드가 DeFi 포지션에서 5,000만 달러를 관리하는 AI 에이전트를 배치합니다. 에이전트는 X (구 트위터) 게시물에서 시장 심리를 분석하기 위해 GPT-4에 의존합니다. 거래 세션 도중 모델이 조용히 업데이트되면 심리 점수가 예기치 않게 바뀌어 의도치 않은 청산이 발생할 수 있습니다. 펀드는 모델이 오작동했다는 증거가 없으며, OpenAI의 로그는 공개적으로 감사할 수 없습니다.

의료 진단: 병원에서 암 치료법을 추천하기 위해 AI 모델을 사용합니다. 규정에 따라 의사는 의사 결정 과정을 문서화해야 합니다. 그러나 AI 모델 버전을 확인할 수 없다면 감사 추적은 불완전합니다. 의료 과실 소송은 어떤 모델이 추천을 생성했는지 입증하는 데 달려 있을 수 있지만, 불투명한 API로는 불가능합니다.

DAO 거버넌스: 탈중앙화 자율 조직이 금고 제안에 투표하기 위해 AI 에이전트를 사용합니다. 커뮤니티 구성원들은 에이전트가 특정 결과에 유리하도록 조작된 변형이 아니라 승인된 모델을 사용했다는 증거를 요구합니다. 암호화 검증이 없으면 투표는 정당성을 잃게 됩니다.

이것이 바로 Gensyn이 목표로 하는 신뢰의 간극입니다. AI가 중요한 의사 결정에 내장됨에 따라 모델의 진위와 동작을 확인할 수 없는 능력은 "고위험 환경에서 에이전틱 (agentic) AI를 배포하는 데 근본적인 차단 요소"가 됩니다.

Judge: 검증 가능한 AI 평가 프로토콜

Judge는 사전에 합의된 결정론적 AI 모델을 실제 입력에 대해 실행하고 그 결과를 누구나 이의를 제기할 수 있는 블록체인에 기록함으로써 불투명성 문제를 해결합니다. 프로토콜의 작동 방식은 다음과 같습니다.

1. 모델 커밋 (Model commitment): 참여자들은 AI 모델의 아키텍처, 가중치 및 추론 구성에 합의합니다. 이 모델은 해싱되어 온체인에 기록됩니다. 해시는 암호학적 지문 역할을 합니다. 합의된 모델에서 조금이라도 벗어나면 다른 해시가 생성됩니다.

2. 결정론적 실행 (Deterministic execution): Judge는 기기 간에 비트 단위로 정확한 재현성을 보장하는 Gensyn's Reproducible Runtime을 사용하여 모델을 실행합니다. 이는 잠시 후에 살펴볼 중요한 혁신인 부동 소수점 비결정성을 제거합니다.

3. 공개 커밋 (Public commitment): 추론 후, Judge는 출력물 (또는 그 해시)을 온체인에 게시합니다. 이는 특정 입력에 대해 모델이 생성한 결과에 대한 영구적이고 감사 가능한 기록을 생성합니다.

4. 이의 제기 기간 (Challenge period): 누구나 모델을 독립적으로 다시 실행하여 결과에 이의를 제기할 수 있습니다. 출력이 다를 경우 사기 증명 (fraud proof)을 제출합니다. Verde의 심판 위임 메커니즘 (refereed delegation mechanism)은 결과가 갈라지는 연산 그래프상의 정확한 연산자를 찾아냅니다.

5. 사기에 대한 슬래싱 (Slashing for fraud): 이의 제기자가 Judge가 잘못된 결과를 생성했음을 증명하면, 원래 실행자는 처벌을 받습니다 (스테이킹된 토큰 슬래싱). 이는 경제적 인센티브를 일치시킵니다. 실행자는 모델을 올바르게 실행함으로써 수익을 극대화합니다.

Judge는 AI 평가를 "API 제공업체를 신뢰하라"에서 "암호화 증명을 검증하라"로 전환합니다. 모델의 동작은 공개적이고 감사 가능하며 집행 가능해지며, 더 이상 독점적인 엔드포인트 뒤에 숨겨지지 않습니다.

Verde : 부동 소수점 비결정론 제거

검증 가능한 AI 의 핵심 기술적 과제는 결정론 (determinism) 입니다. 신경망은 추론 과정에서 수십억 개의 부동 소수점 연산을 수행합니다. 현대적인 GPU 에서 이러한 연산은 완벽하게 재현되지 않습니다.

비결합성 (Non-associativity) : 부동 소수점 덧셈은 결합 법칙이 성립하지 않습니다. 반올림 오차로 인해 (a + b) + ca + (b + c) 와 다른 결과를 낼 수 있습니다. GPU 는 수천 개의 코어에서 부분 합을 병렬로 처리하며, 부분 합이 누적되는 순서는 하드웨어 및 드라이버 버전에 따라 달라집니다.

커널 스케줄링 변동성 (Kernel scheduling variability) : GPU 커널 (행렬 곱셈이나 어텐션 등) 은 작업 부하, 드라이버 최적화 또는 하드웨어 아키텍처에 따라 다른 순서로 실행될 수 있습니다. 동일한 모델을 동일한 GPU 에서 두 번 실행하더라도 커널 스케줄링이 다르면 다른 결과가 나올 수 있습니다.

배치 크기 의존성 (Batch-size dependency) : 연구에 따르면 LLM 추론은 시스템 수준에서 비결정론적 인데, 이는 출력이 배치 크기에 따라 달라지기 때문입니다. 많은 커널 (matmul, RMSNorm, 어텐션) 은 얼마나 많은 샘플이 함께 처리되는지에 따라 수치 출력을 변경합니다. 배치 크기 1 로 추론하면 배치 크기 8 로 처리된 동일한 입력과는 다른 값이 생성됩니다.

이러한 문제들로 인해 표준 AI 모델은 블록체인 검증에 적합하지 않습니다. 두 명의 검증자가 동일한 추론을 다시 실행하여 약간 다른 출력을 얻는다면, 누구의 말이 맞을까요? 결정론이 없다면 합의는 불가능합니다.

Verde 는 모든 장치에서 부동 소수점 연산의 순서를 제어하여 하드웨어 비결정론을 제거하는 라이브러리인 RepOps (Reproducible Operators, 재현 가능한 연산자) 를 통해 이 문제를 해결합니다. 작동 방식은 다음과 같습니다.

정형화된 리덕션 순서 (Canonical reduction orders) : RepOps 는 행렬 곱셈과 같은 연산에서 부분 결과를 합산할 때 결정론적인 순서를 강제합니다. GPU 스케줄러가 결정하게 두는 대신, RepOps 는 모든 하드웨어에서 "0번 열을 더하고, 그다음 1번 열, 그다음 2번 열..." 과 같이 명시적으로 순서를 지정합니다. 이를 통해 (a + b) + c 가 항상 동일한 시퀀스로 계산되도록 보장합니다.

커스텀 CUDA 커널 (Custom CUDA kernels) : Gensyn 은 순수 속도보다 재현성을 우선시하는 최적화된 커널을 개발했습니다. RepOps 행렬 곱셈은 표준 cuBLAS 에 비해 오버헤드가 30% 미만 인데, 이는 결정론을 위한 합리적인 절충안입니다.

드라이버 및 버전 고정 (Driver and version pinning) : Verde 는 버전이 고정된 GPU 드라이버와 정형화된 구성을 사용하여, 서로 다른 하드웨어에서 실행되는 동일한 모델이 비트 단위까지 동일한 출력을 생성하도록 보장합니다. 한 데이터 센터의 NVIDIA A100 에서 실행되는 모델의 출력은 다른 데이터 센터의 AMD MI250 에서 나오는 출력과 비트 단위로 일치합니다.

이것이 Judge 의 검증을 가능하게 하는 획기적인 기술입니다. 비트 단위로 정확한 재현성 은 검증자가 실행자를 신뢰하지 않고도 독립적으로 결과를 확인할 수 있음을 의미합니다. 해시가 일치하면 추론은 올바른 것이며, 이는 수학적으로 증명 가능합니다.

중재된 위임 (Refereed Delegation) : 전체 재계산 없는 효율적인 검증

결정론적 실행이 가능하더라도, AI 추론을 그대로 검증하는 것은 비용이 많이 듭니다. 700억 개의 파라미터를 가진 모델이 1,000개의 토큰을 생성하는 데 10 GPU 시간이 걸릴 수 있습니다. 검증자가 정확성을 확인하기 위해 모든 추론을 다시 실행해야 한다면, 검증 비용이 실행 비용과 같아져 탈중앙화의 목적이 퇴색됩니다.

Verde 의 중재된 위임 메커니즘 (refereed delegation mechanism) 은 검증 비용을 기하급수적으로 낮춥니다.

여러 명의 신뢰할 수 없는 실행자 : 하나의 실행자 대신, Judge 는 여러 독립적인 제공자에게 작업을 할당합니다. 각 제공자는 동일한 추론을 실행하고 결과를 제출합니다.

불일치 시 조사 시작 : 모든 실행자가 동의하면 결과가 수락되며 추가 검증은 필요하지 않습니다. 출력이 다를 경우 Verde 는 챌린지 게임 (challenge game) 을 시작합니다.

계산 그래프에 대한 이진 탐색 : Verde 는 전체 추론을 다시 실행하지 않습니다. 대신 모델의 계산 그래프에 대해 이진 탐색을 수행하여 결과가 갈라지는 첫 번째 연산자를 찾습니다. 이를 통해 불일치를 일으키는 정확한 레이어 (예 : "어텐션 레이어 47, 헤드 8") 를 핀포인트로 찾아냅니다.

최소한의 중재자 계산 : 중재자 (제한된 컴퓨팅 파워를 가진 스마트 컨트랙트 또는 검증자일 수 있음) 는 전체 순전파가 아닌 논란이 된 연산자만 확인합니다. 80개 레이어가 있는 70B 파라미터 모델의 경우, 최악의 상황에서도 약 7개 레이어 (log₂ 80) 만 확인하면 됩니다.

이 접근 방식은 단순 복제 방식보다 1,350% 이상 더 효율적 입니다 (모든 검증자가 모든 것을 다시 실행하는 경우 대비). Gensyn 은 암호화 증명, 게임 이론 및 최적화된 프로세스를 결합하여 중복 계산 없이 올바른 실행을 보장합니다.

그 결과, Judge 는 AI 워크로드를 대규모로 검증할 수 있으며, 수천 개의 신뢰할 수 없는 노드가 컴퓨팅에 기여하고 정직하지 않은 실행자는 적발되어 처벌받는 탈중앙화 추론 네트워크를 가능하게 합니다.

중요한 AI 의사결정 : 투명성이 중요한 이유

Judge 의 타겟 시장은 일반적인 챗봇이 아닙니다. 검증 가능성이 '있으면 좋은 것' 이 아니라 규제적 또는 경제적 요구 사항인 애플리케이션입니다. 불투명한 API 가 치명적으로 실패하는 시나리오는 다음과 같습니다.

탈중앙화 금융 (DeFi) : 자율 거래 에이전트는 수십억 달러의 자산을 관리합니다. 에이전트가 포트폴리오 리밸런싱 시점을 결정하기 위해 AI 모델을 사용하는 경우, 사용자는 모델이 조작되지 않았다는 증거가 필요합니다. Judge 는 온체인 검증을 지원합니다. 에이전트는 특정 모델 해시를 약속하고, 그 출력에 따라 거래를 실행하며, 누구나 결정 로직에 이의를 제기할 수 있습니다. 이러한 투명성은 악의적인 에이전트가 증거 없이 "AI 가 청산하라고 했다" 고 주장하며 자금을 탈취하는 (rug pull) 것을 방지합니다.

규제 준수 : 신용 점수 산정, 사기 탐지 또는 자금 세탁 방지 (AML) 를 위해 AI 를 도입하는 금융 기관은 감사를 받습니다. 규제 기관은 "모델이 왜 이 거래를 의심스러운 것으로 표시했는가?" 에 대한 설명을 요구합니다. 불투명한 API 는 감사 추적을 제공하지 않습니다. Judge 는 모델 버전, 입력 및 출력에 대한 불변의 기록을 생성하여 규제 요구 사항을 충족합니다.

알고리즘 거버넌스 : 탈중앙화 자율 조직 (DAO) 은 AI 에이전트를 사용하여 거버넌스 결정을 제안하거나 투표합니다. 커뮤니티 구성원은 에이전트가 해킹된 변종이 아닌 승인된 모델을 사용했는지 확인해야 합니다. Judge 를 사용하면 DAO 는 스마트 컨트랙트에 모델 해시를 인코딩하고, 모든 결정에 정확성에 대한 암호화 증명을 포함할 수 있습니다.

의료 및 법률 AI : 의료 및 법률 시스템은 책임 소재를 명확히 해야 합니다. AI 의 도움을 받아 암을 진단하는 의사는 사용된 정확한 모델 버전을 문서화해야 합니다. AI 로 계약서를 작성하는 변호사는 출력이 검증되고 편향되지 않은 모델에서 나왔음을 증명해야 합니다. Judge 의 온체인 감사 추적은 이러한 증거를 제공합니다.

예측 시장 및 오라클 : Polymarket 과 같은 프로젝트는 베팅 결과 (예 : "이 이벤트가 발생할 것인가?") 를 결정하기 위해 AI 를 사용합니다. 결정이 뉴스 기사를 분석하는 AI 모델에 달려 있다면, 참여자들은 모델이 조작되지 않았다는 증거가 필요합니다. Judge 는 오라클의 AI 추론을 검증하여 분쟁을 방지합니다.

각 사례의 공통된 주제는 투명성 없는 신뢰는 불충분하다 는 것입니다. VeritasChain 이 언급했듯이, AI 시스템에는 분쟁 발생 시 어떤 일이 일어났는지 증명하는 불변의 로그 인 "암호화된 비행 기록 장치 (cryptographic flight recorders)" 가 필요합니다.

영지식 증명 대안: Verde와 ZKML의 비교

Judge는 검증 가능한 AI를 위한 유일한 접근 방식이 아닙니다. 영지식 기계 학습 (ZKML)은 입력을 공개하거나 가중치를 밝히지 않고도 계산이 올바르게 수행되었음을 증명하는 암호학적 증명인 zk-SNARKs를 사용하여 유사한 목표를 달성합니다.

Verde는 ZKML과 어떻게 비교될까요?

검증 비용: ZKML은 증명을 생성하기 위해 원래 추론보다 약 1,000배 더 많은 계산이 필요합니다 (연구 추정치). 추론에 10 GPU 시간이 필요한 700억 개 파라미터 모델을 증명하려면 10,000 GPU 시간이 필요할 수 있습니다. Verde의 중재된 위임 (refereed delegation)은 로그 (logarithmic) 방식입니다. 80개 레이어 대신 약 7개 레이어를 확인하는 것은 1,000배가 아닌 10배의 감소를 의미합니다.

증명자 복잡성: ZKML은 증명을 효율적으로 생성하기 위해 특수 하드웨어 (예: zk-SNARK 회로용 맞춤형 ASIC)를 요구합니다. Verde는 일반 소매용 GPU에서 작동하므로, 게이밍 PC를 가진 채굴자라면 누구나 참여할 수 있습니다.

프라이버시 트레이드오프: ZKML의 강점은 프라이버시입니다. 증명은 입력값이나 모델 가중치에 대해 아무것도 드러내지 않습니다. Verde의 결정론적 실행은 투명합니다. 입력과 출력은 공개됩니다 (가중치는 암호화될 수 있음). 중대한 의사결정의 경우 투명성이 선호되는 경우가 많습니다. 재고 할당에 대해 투표하는 DAO는 숨겨진 증명이 아니라 공개된 감사 추적을 원합니다.

증명 범위: ZKML은 현재의 계산 비용으로 인해 학습을 증명하는 것이 불가능하므로 실질적으로 추론에 국한됩니다. Verde는 추론과 학습 검증을 모두 지원합니다 (Gensyn의 더 넓은 프로토콜은 분산 학습을 검증합니다).

실제 도입: Modulus Labs와 같은 ZKML 프로젝트는 온체인에서 1,800만 개 파라미터 모델을 검증하는 등 획기적인 성과를 거두었지만, 여전히 소규모 모델에 국한되어 있습니다. Verde의 결정론적 런타임은 실제 운영 환경에서 700억 개 이상의 파라미터 모델을 처리합니다.

ZKML은 홍채 스캔을 노출하지 않고 생체 인식 인증을 확인하는 것 (Worldcoin)과 같이 프라이버시가 가장 중요한 분야에서 탁월합니다. Verde는 특정 공개 모델이 올바르게 실행되었음을 증명하는 것과 같이 투명성이 목표인 분야에서 탁월합니다. 두 접근 방식은 서로 경쟁하는 것이 아니라 상호 보완적입니다.

Gensyn 생태계: Judge에서 탈중앙화 학습까지

Judge는 머신러닝 컴퓨팅을 위한 탈중앙화 네트워크인 Gensyn의 원대한 비전의 한 구성 요소입니다. 이 프로토콜에는 다음이 포함됩니다:

실행 레이어: 다양한 이기종 하드웨어 (소비자용 GPU, 기업용 클러스터, 엣지 디바이스)에서 일관된 ML 실행을 제공합니다. Gensyn은 추론 및 학습 워크로드를 표준화하여 호환성을 보장합니다.

검증 레이어 (Verde): 중재된 위임을 사용한 무신뢰 검증입니다. 정직하지 않은 실행자는 감지되고 처벌받습니다.

P2P 통신: 중앙 집중식 조정 없이 디바이스 간에 워크로드를 분산합니다. 채굴자는 작업을 수신하고 실행하며 증명을 블록체인에 직접 제출합니다.

탈중앙화된 조율: 이더리움 롤업상의 스마트 컨트랙트가 참여자를 식별하고, 작업을 할당하며, 허가 없이 결제를 처리합니다.

Gensyn의 공개 테스트넷은 2025년 3월에 출시되었으며, 메인넷은 2026년으로 예정되어 있습니다. $AI 토큰 공개 판매는 2025년 12월에 이루어져 채굴자와 검증인을 위한 경제적 인센티브를 구축했습니다.

Judge는 이 생태계에서 평가 레이어로 적합합니다. Gensyn의 핵심 프로토콜이 학습과 추론을 처리하는 동안, Judge는 해당 출력이 검증 가능하도록 보장합니다. 이는 다음과 같은 플라이휠을 생성합니다:

개발자는 Gensyn의 탈중앙화 네트워크에서 모델을 학습시킵니다 (활용되지 않는 소비자용 GPU가 컴퓨팅을 제공하므로 AWS보다 저렴함).

모델은 Judge와 함께 배포되어 평가 무결성을 보장받습니다. 애플리케이션은 Gensyn의 API를 통해 추론을 사용하지만, OpenAI와 달리 모든 출력에는 암호학적 증명이 포함됩니다.

검증인은 증명을 확인하고 사기를 적발하여 수수료를 벌며, 경제적 인센티브를 네트워크 보안과 일치시킵니다.

신뢰는 확장됩니다. 더 많은 애플리케이션이 검증 가능한 AI를 채택함에 따라 중앙 집중식 제공업체에 대한 의존도가 낮아집니다.

최종 목표는 거대 IT 기업뿐만 아니라 누구나 접근할 수 있고, 증명 가능하며, 올바르고 탈중앙화된 AI 학습 및 추론 환경을 만드는 것입니다.

과제 및 남은 과제들

Judge의 접근 방식은 혁신적이지만 몇 가지 과제가 남아 있습니다:

성능 오버헤드: RepOps의 30% 속도 저하는 검증을 위해서는 수용 가능하지만, 모든 추론이 결정론적으로 실행되어야 한다면 지연 시간에 민감한 애플리케이션 (실시간 거래, 자율 주행 차량)은 더 빠르고 검증 불가능한 대안을 선호할 수 있습니다. Gensyn의 로드맵에는 RepOps를 더욱 최적화하는 것이 포함될 가능성이 높지만, 속도와 결정론 사이에는 근본적인 트레이드오프가 존재합니다.

드라이버 버전 파편화: Verde는 특정 버전으로 고정된 드라이버를 가정하지만, GPU 제조업체는 지속적으로 업데이트를 출시합니다. 일부 채굴자가 CUDA 12.4를 사용하고 다른 채굴자가 12.5를 사용하면 비트 단위 재현성이 깨집니다. Gensyn은 엄격한 버전 관리를 강제해야 하며, 이는 채굴자 온보딩을 복잡하게 만들 수 있습니다.

모델 가중치 비밀성: Judge의 투명성은 공개 모델에는 장점이지만 독점 모델에는 단점입니다. 헤지펀드가 가치 있는 거래 모델을 학습시키고 Judge에 배포하면 온체인 약속 (commitment)을 통해 경쟁자에게 가중치가 노출됩니다. 비밀 모델의 경우 ZKML 기반 대안이 선호될 수 있으며, 이는 Judge가 공개 또는 반공개 AI 애플리케이션을 타겟팅함을 시사합니다.

분쟁 해결 지연 시간: 도전자 (challenger)가 사기를 주장하는 경우, 이진 탐색을 통해 분쟁을 해결하려면 여러 번의 온체인 트랜잭션이 필요합니다 (각 라운드는 탐색 범위를 좁힙니다). 고빈도 애플리케이션은 최종 확정성 (finality)을 위해 몇 시간을 기다릴 수 없습니다. Gensyn은 지연 시간을 줄이기 위해 낙관적 검증 (일정 기간 내에 도전받지 않는 한 올바른 것으로 간주)을 도입할 수 있습니다.

중재된 위임의 시빌 저항성 (Sybil resistance): 여러 실행자가 합의해야 하는 경우, 단일 주체가 시빌 신원을 통해 모든 실행자를 통제하는 것을 어떻게 방지할 수 있을까요? Gensyn은 공모를 막기 위해 슬래싱 (slashing)과 함께 스테이킹 기반 선택 (평판이 높은 검증인이 우선적으로 선택됨)을 사용할 가능성이 높지만, 경제적 임계값을 신중하게 조정해야 합니다.

이것들은 해결 불가능한 문제가 아니라 엔지니어링 과제입니다. 핵심 혁신 (결정론적 AI + 암호학적 검증)은 견고합니다. 테스트넷이 메인넷으로 전환됨에 따라 실행 세부 사항은 더욱 성숙해질 것입니다.

검증 가능한 AI로 가는 길: 채택 경로와 시장 적합성

Judge의 성공은 채택에 달려 있습니다. 어떤 애플리케이션이 검증 가능한 AI를 가장 먼저 배포하게 될까요?

자율 에이전트가 포함된 DeFi 프로토콜: Aave, Compound 또는 Uniswap DAO는 재무 관리를 위해 Judge로 검증된 에이전트를 통합할 수 있습니다. 커뮤니티는 모델 해시를 승인하기 위해 투표하고, 모든 에이전트의 결정에는 증명이 포함됩니다. 이러한 투명성은 DeFi의 정당성에 중요한 신뢰를 구축합니다.

예측 시장 및 오라클: Polymarket이나 Chainlink와 같은 플랫폼은 Judge를 사용하여 베팅을 해결하거나 가격 피드를 제공할 수 있습니다. 감정, 뉴스 또는 온체인 활동을 분석하는 AI 모델은 검증 가능한 출력을 생성하여 오라클 조작에 대한 분쟁을 제거합니다.

탈중앙화 신원 증명 및 KYC: AI 기반 신원 확인 (셀카를 통한 연령 추정, 문서 진위 확인 등)이 필요한 프로젝트는 Judge의 감사 추적 (audit trail)의 이점을 누릴 수 있습니다. 규제 기관은 중앙화된 신원 제공자를 신뢰하지 않고도 규정 준수에 대한 암호학적 증명을 수용할 수 있습니다.

소셜 미디어를 위한 콘텐츠 중재: 탈중앙화 소셜 네트워크 (Farcaster, Lens Protocol)는 Judge로 검증된 AI 모더레이터를 배치할 수 있습니다. 커뮤니티 구성원은 중재 모델이 편향되거나 검열되지 않았음을 확인하여 플랫폼의 중립성을 보장할 수 있습니다.

AI-as-a-Service 플랫폼: AI 애플리케이션을 구축하는 개발자는 "검증 가능한 추론 (verifiable inference)"을 프리미엄 기능으로 제공할 수 있습니다. 사용자는 증명을 위해 추가 비용을 지불함으로써 불투명한 대안들과 서비스를 차별화합니다.

공통점: 규제, 탈중앙화 또는 높은 이해관계로 인해 신뢰 비용이 많이 들고, 확실성의 가치에 비해 검증 비용이 수용 가능한 애플리케이션들입니다.

Judge는 소비자용 챗봇에서 OpenAI를 대체하지는 않을 것입니다 — 사용자는 요리 레시피 아이디어를 물어볼 때 GPT-4가 검증 가능한지 여부에 신경 쓰지 않기 때문입니다. 하지만 금융 알고리즘, 의료 도구 및 거버넌스 시스템에 있어 검증 가능한 AI는 미래입니다.

새로운 표준으로서의 검증 가능성

Gensyn의 Judge는 패러다임의 전환을 의미합니다. AI 평가는 "제공자를 신뢰하는 것"에서 "증명을 검증하는 것"으로 이동하고 있습니다. Verde를 통한 비트 단위의 정확한 재현성 (bitwise-exact reproducibility), 심판된 위임 (refereed delegation)을 통한 효율적인 검증, 그리고 온체인 감사 추적이라는 기술적 토대는 이 전환을 단순한 열망이 아닌 현실로 만듭니다.

그 영향은 Gensyn을 훨씬 넘어 파급됩니다. 검증 가능한 AI가 표준이 된다면, 중앙화된 제공자들은 그들의 해자 (moat)를 잃게 됩니다. OpenAI의 가치 제안은 단순히 GPT-4의 성능만이 아니라, 인프라를 관리하지 않아도 되는 '편의성'에 있습니다. 하지만 Gensyn이 탈중앙화 AI가 중앙화된 성능에 '추가적인 검증 가능성'까지 갖출 수 있음을 증명한다면, 개발자들은 독점 API에 갇힐 이유가 없습니다.

경쟁은 시작되었습니다. ZKML 프로젝트 (Modulus Labs, Worldcoin의 생체 인식 시스템)는 영지식 증명 (zero-knowledge proofs)에 베팅하고 있습니다. 결정론적 런타임 (Gensyn의 Verde, EigenAI)은 재현성에 베팅하고 있습니다. 낙관적 접근 방식 (블록체인 AI 오라클)은 사기 증명 (fraud proofs)에 베팅하고 있습니다. 각 경로마다 트레이드오프가 있지만, 목적지는 동일합니다: 결과물이 단순히 그럴듯한 것이 아니라 증명 가능한 AI 시스템입니다.

높은 이해관계가 걸린 의사 결정에서 이것은 선택 사항이 아닙니다. 규제 기관은 금융, 의료 또는 법률 애플리케이션에서 AI 제공자의 "우리를 믿으라"는 말을 받아들이지 않을 것입니다. DAO는 재무 관리를 블랙박스 에이전트에게 위임하지 않을 것입니다. 그리고 자율 AI 시스템이 더욱 강력해짐에 따라 대중은 투명성을 요구할 것입니다.

Judge는 이러한 약속을 이행하는 최초의 프로덕션 준비 완료 시스템입니다. 테스트넷이 운영 중입니다. 암호학적 기반은 견고합니다. 270억 달러 규모의 AI 에이전트 암호화폐 시장, 알고리즘으로 관리되는 수십억 달러의 DeFi 자산, 그리고 거세지는 규제 압박 등 시장은 이미 준비되어 있습니다.

불투명한 AI API의 시대가 저물고 있습니다. 검증 가능한 지능의 시대가 시작되고 있습니다. 그리고 Gensyn의 Judge가 그 길을 밝히고 있습니다.


출처:

Nillion's Blacklight 출시: ERC-8004가 자율형 AI 에이전트를 위한 신뢰 계층을 구축하는 방법

· 약 12 분
Dora Noda
Software Engineer

2026년 2월 2일, AI 에이전트 경제는 중요한 진전을 이루었습니다. Nillion은 블록체인의 가장 시급한 과제 중 하나인 '한 번도 만난 적 없는 AI 에이전트를 어떻게 신뢰할 것인가?'를 해결하기 위해 ERC-8004 표준을 구현한 검증 레이어인 Blacklight를 출시했습니다.

그 해답은 단순한 평판 점수나 중앙화된 등록 기관이 아닙니다. 암호학적 증명, 프로그래밍 가능한 감사, 그리고 커뮤니티가 운영하는 노드 네트워크에 의해 뒷받침되는 5단계 검증 프로세스입니다. 자율형 에이전트가 거래를 실행하고, 자산을 관리하며, 크로스 체인 활동을 조율하는 사례가 늘어남에 따라, Blacklight는 대규모의 신뢰가 필요 없는(trustless) AI 조율을 가능하게 하는 인프라를 상징합니다.

AI 에이전트가 스스로 해결할 수 없는 신뢰 문제

수치가 상황을 대변합니다. AI 에이전트는 현재 Polymarket 거래량의 30%를 차지하고 있으며, 여러 프로토콜에 걸쳐 DeFi 수익 전략을 처리하고 자율적으로 복잡한 워크플로우를 실행하고 있습니다. 하지만 근본적인 병목 현상이 존재합니다. 에이전트들이 사전 관계 없이 어떻게 서로의 신뢰성을 확인할 수 있을까요?

기존 시스템은 자격 증명을 발급하는 중앙 집중식 권한 기관에 의존합니다. Web3의 약속은 다릅니다 — 암호화와 합의를 통한 신뢰가 필요 없는 검증입니다. 하지만 ERC-8004 이전에는 에이전트가 자신의 진위성을 증명하거나, 행동을 추적하거나, 온체인에서 의사 결정 로직을 검증할 수 있는 표준화된 방법이 없었습니다.

이는 단순히 이론적인 문제가 아닙니다. Davide Crapis가 설명했듯이, "ERC-8004는 탈중앙화된 AI 에이전트 상호작용을 가능하게 하고, 신뢰가 필요 없는 상거래를 구축하며, 이더리움의 평판 시스템을 강화합니다." 이것이 없다면 에이전트 간 상거래는 폐쇄적인 환경(walled gardens)에 갇히거나 수동적인 감독이 필요하게 되어, 자율성의 목적을 퇴색시킵니다.

ERC-8004: 3대 레지스트리 신뢰 인프라

2026년 1월 29일 이더리움 메인넷에 출시된 ERC-8004 표준은 세 가지 온체인 레지스트리를 통해 모듈형 신뢰 레이어를 구축합니다.

신원 레지스트리 (Identity Registry): ERC-721을 사용하여 이식 가능한 에이전트 식별자를 제공합니다. 각 에이전트는 고유한 온체인 신원을 나타내는 NFT를 부여받아, 플랫폼 간 인식을 가능하게 하고 신원 도용을 방지합니다.

평판 레지스트리 (Reputation Registry): 표준화된 피드백과 평가를 수집합니다. 중앙화된 리뷰 시스템과 달리, 피드백은 암호화 서명과 함께 온체인에 기록되어 변하지 않는 감사 추적(audit trail)을 생성합니다. 누구나 이 이력을 크롤링하여 맞춤형 평판 알고리즘을 구축할 수 있습니다.

검증 레지스트리 (Validation Registry): 에이전트 작업의 암호학적 및 경제적 검증을 지원합니다. 이곳에서 프로그래밍 가능한 감사가 이루어집니다. 검증자는 계산을 재실행하거나, 영지식 증명을 확인하거나, 신뢰 실행 환경(TEE)을 활용하여 에이전트가 올바르게 작동했음을 확인할 수 있습니다.

ERC-8004의 탁월함은 특정 방식에 얽매이지 않는 설계에 있습니다. 기술 사양에서 언급했듯이, 이 표준은 다양한 검증 기술을 지원합니다: "스테이크 기반의 작업 재실행(EigenLayer와 같은 시스템에서 영감을 받음), 영지식 머신러닝(zkML) 증명 검증, 신뢰 실행 환경(TEE)의 증명 등."

이러한 유연성은 매우 중요합니다. DeFi 차익 거래 에이전트는 알파(alpha)를 노출하지 않고도 zkML 증명을 사용하여 거래 로직을 검증할 수 있습니다. 공급망 에이전트는 TEE 증명을 사용하여 실제 데이터에 올바르게 접근했음을 증명할 수 있습니다. 크로스 체인 브릿지 에이전트는 정직한 실행을 보장하기 위해 슬래싱(slashing)이 포함된 암호 경제적 검증에 의존할 수 있습니다.

Blacklight의 5단계 검증 프로세스

Nillion의 Blacklight 내 ERC-8004 구현은 커뮤니티 운영 검증 노드라는 중요한 레이어를 추가합니다. 프로세스는 다음과 같습니다.

1. 에이전트 등록: 에이전트는 신원 레지스트리에 자신의 신원을 등록하고 ERC-721 NFT를 받습니다. 이는 에이전트의 공개 키와 연결된 고유한 온체인 식별자를 생성합니다.

2. 검증 요청 시작: 에이전트가 검증이 필요한 작업(예: 거래 실행, 자금 이체, 상태 업데이트)을 수행할 때 Blacklight에 검증 요청을 제출합니다.

3. 위원회 배정: Blacklight 프로토콜은 요청을 감사할 검증 노드 위원회를 무작위로 배정합니다. 이 노드들은 네트워크의 무결성을 위해 70,000 NIL 토큰을 스테이킹한 커뮤니티 구성원들에 의해 운영됩니다.

4. 노드 확인: 위원회 구성원들은 계산을 재실행하거나 암호학적 증명을 검증합니다. 검증자가 잘못된 동작을 감지하면, 에이전트의 스테이크를 슬래싱하거나(암호 경제적 검증을 사용하는 시스템의 경우) 평판 레지스트리에 해당 신원을 표시할 수 있습니다.

5. 온체인 보고: 결과는 온체인에 게시됩니다. 검증 레지스트리는 에이전트의 작업이 검증되었는지 기록하여 실행에 대한 영구적인 증명을 생성합니다. 평판 레지스트리는 이에 따라 업데이트됩니다.

이 프로세스는 비동기적이며 비차단(non-blocking) 방식으로 진행되므로, 에이전트는 일상적인 작업을 위해 검증이 완료될 때까지 기다리지 않습니다. 하지만 위험도가 높은 작업(거액 이체, 크로스 체인 작업)은 사전 검증을 요구할 수 있습니다.

프로그래밍 가능한 감사: 이진 신뢰를 넘어서

Blacklight의 가장 야심 찬 기능은 '프로그래밍 가능한 검증(programmable verification)'입니다. 이는 에이전트가 수행한 '결과'뿐만 아니라 의사 결정을 내리는 '과정'을 감사할 수 있는 기능입니다.

트레저리를 관리하는 DeFi 에이전트를 예로 들어보겠습니다. 전통적인 감사는 자금이 올바르게 이동했는지만 확인합니다. 프로그래밍 가능한 감사는 다음을 검증합니다:

  • 의사 결정 로직의 일관성: 에이전트가 명시된 투자 전략을 따랐는지, 아니면 이탈했는지 여부.
  • 다단계 워크플로우 실행: 에이전트가 세 개의 체인에 걸쳐 포트폴리오를 재조정하기로 되어 있었다면, 모든 단계를 완료했는지 여부.
  • 보안 제약 조건: 에이전트가 가스 한도, 슬리피지 허용 오차 및 노출 캡을 준수했는지 여부.

ERC-8004의 Validation Registry(검증 레지스트리)가 임의의 증명 시스템을 지원하기 때문에 이것이 가능합니다. 에이전트는 온체인에서 의사 결정 알고리즘(예: 신경망 가중치의 해시 또는 로직을 나타내는 zk-SNARK 회로)을 커밋한 다음, 고유한 세부 정보를 공개하지 않고도 각 작업이 해당 알고리즘을 준수함을 증명할 수 있습니다.

Nillion의 로드맵은 이러한 유스케이스를 명시적으로 겨냥하고 있습니다: "Nillion은 Blacklight의 기능을 '프로그래밍 가능한 검증'으로 확장하여 에이전트 의사 결정 로직의 일관성, 다단계 워크플로우 실행, 보안 제약 조건과 같은 복잡한 행동에 대한 탈중앙화 감사를 가능하게 할 계획입니다."

이것은 검증의 패러다임을 사후 대응(발생한 오류 포착)에서 선제적 대응(설계에 의한 올바른 행동 강제)으로 전환합니다.

블라인드 연산: 프라이버시와 검증의 만남

Nillion의 기반 기술인 NMC(Nil Message Compute)는 에이전트 검증에 프라이버시 차원을 더합니다. 모든 데이터가 공개되는 전통적인 블록체인과 달리, Nillion의 "블라인드 연산(blind computation)"은 복호화 없이 암호화된 데이터에 대한 작업을 가능하게 합니다.

에이전트에게 이것이 중요한 이유는 다음과 같습니다: AI 에이전트는 경쟁자에게 알파(수익 전략)를 노출하지 않고 거래 전략을 검증해야 할 수도 있습니다. 또는 환자 데이터를 노출하지 않고 기밀 의료 기록에 올바르게 액세스했음을 증명하거나, 독점적인 비즈니스 로직을 공개하지 않고 규제 제약 준수를 입증해야 할 수도 있습니다.

Nillion의 NMC는 MPC(다자간 연산)를 통해 이를 달성하며, 노드들이 협력하여 데이터를 암호화하는 데 사용되는 상관 관계가 있는 무작위성인 '블라인딩 팩터(blinding factors)'를 생성합니다. DAIC Capital이 설명하듯, "노드들은 데이터를 처리하는 데 필요한 핵심 네트워크 리소스인 블라인딩 팩터를 생성하며, 각 노드는 블라인딩 팩터의 점유분을 안전하게 저장하여 양자 보안 방식으로 네트워크 전체에 신뢰를 분산합니다."

이 아키텍처는 설계 단계부터 양자 내성(quantum-resistant)을 갖추고 있습니다. 양자 컴퓨터가 오늘날의 타원 곡선 암호학을 해독하더라도, 개별 노드가 데이터를 복호화할 만큼 충분한 정보를 보유하지 않기 때문에 분산된 블라인딩 팩터는 안전하게 유지됩니다.

AI 에이전트에게 이는 검증을 위해 기밀성을 희생할 필요가 없음을 의미합니다. 에이전트는 자신의 방법론, 데이터 소스, 의사 결정 로직을 비공개로 유지하면서도 작업을 올바르게 수행했음을 증명할 수 있습니다.

43억 달러 규모의 에이전트 경제 인프라 전략

Blacklight의 출시는 블록체인-AI 부문이 초고속 성장기에 진입하는 시점에 이루어졌습니다. 시장은 2025년 6억 8천만 달러에서 2034년 43억 달러로 연평균 성장률(CAGR) 22.9%로 성장할 것으로 예상되며, 광범위한 기밀 컴퓨팅 시장은 2032년까지 3,500억 달러에 달할 전망입니다.

하지만 Nillion은 단순한 시장 확장에 베팅하는 것이 아니라 스스로를 핵심 인프라로 포지셔닝하고 있습니다. 에이전트 경제의 병목 현상은 연산이나 저장 장치가 아니라 *대규모 신뢰(trust at scale)*입니다. KuCoin의 2026년 전망에 따르면, 세 가지 주요 트렌드가 AI 아이덴티티와 가치 흐름을 재편하고 있습니다:

에이전트 래핑 에이전트(Agent-Wrapping-Agent) 시스템: 복잡한 다단계 작업을 실행하기 위해 다른 에이전트와 협력하는 에이전트. 이를 위해서는 표준화된 아이덴티티와 검증이 필요하며, 이것이 바로 ERC-8004가 제공하는 것입니다.

KYA (Know Your Agent): 에이전트 자격 증명을 요구하는 금융 인프라. 규제 기관은 올바른 동작에 대한 증명 없이 자율 에이전트가 자금을 관리하는 것을 승인하지 않을 것입니다. Blacklight의 프로그래밍 가능한 감사가 이를 직접 해결합니다.

나노 결제(Nano-payments): 에이전트는 소액 결제를 효율적으로 처리해야 합니다. 2026년 1월에 2,000만 건 이상의 트랜잭션을 처리한 x402 결제 프로토콜은 Blacklight가 신뢰를 처리하는 동안 정산을 처리함으로써 ERC-8004를 보완합니다.

이러한 표준들은 서로 몇 주 간격으로 상용화 준비를 마쳤으며, 이는 인프라 성숙을 알리는 중대한 협력적 돌파구입니다.

이더리움의 에이전트 중심 미래

ERC-8004의 채택은 Nillion을 훨씬 넘어 확장되고 있습니다. 2026년 초 현재, 여러 프로젝트가 이 표준을 통합했습니다:

이러한 빠른 채택은 이더리움 로드맵의 광범위한 변화를 반영합니다. 비탈릭 부테린은 블록체인의 역할이 AI 에이전트를 위한 "단순한 배관(plumbing)"이 되고 있다고 반복해서 강조해 왔습니다. 즉, 블록체인은 소비자 접점 레이어가 아니라 자율적인 협력을 가능하게 하는 신뢰 인프라가 된다는 것입니다.

Nillion의 Blacklight는 검증을 프로그래밍 가능하고 프라이버시를 보존하며 탈중앙화된 방식으로 구현함으로써 이러한 비전을 가속화합니다. 중앙 집중식 오라클이나 인간 검토자에 의존하는 대신, 에이전트는 암호학적으로 자신의 정당성을 스스로 증명할 수 있습니다.

향후 계획 : 메인넷 통합 및 생태계 확장

Nillion의 2026 로드맵은 이더리움 호환성과 지속 가능한 탈중앙화를 최우선 과제로 삼고 있습니다. 2026년 2월 이더리움 브리지가 활성화되었으며, 이후 스테이킹과 프라이빗 연산을 위한 네이티브 스마트 컨트랙트가 도입되었습니다.

70,000 NIL 토큰을 스테이킹하는 커뮤니티 구성원은 Blacklight 검증 노드를 운영하여 네트워크 무결성을 유지하면서 보상을 받을 수 있습니다. 이 설계는 이더리움의 검증인 경제 모델을 반영하면서도 검증 특화 역할을 추가한 형태입니다.

다음 주요 마일스톤은 다음과 같습니다 :

  • 확장된 zkML 지원 : Modulus Labs와 같은 프로젝트와 통합하여 온체인 AI 추론 검증
  • 크로스 체인 검증 : Blacklight가 이더리움, Cosmos, Solana에서 작동하는 에이전트를 검증할 수 있도록 지원
  • 기관 파트너십 : 기업용 에이전트 배포를 위해 Coinbase 및 Alibaba Cloud와 협력
  • 규제 준수 도구 : 금융 서비스 도입을 위한 KYA 프레임워크 구축

아마도 가장 중요한 점은, Nillion이 완전한 프라이빗 AI 챗봇인 nilGPT를 개발하고 있다는 것입니다. 이는 블라인드 연산(blind computation)이 어떻게 기밀 에이전트 상호작용을 가능하게 하는지 보여줍니다. 이것은 단순한 데모가 아닙니다. 의료, 금융, 정부 분야에서 민감한 데이터를 처리하는 에이전트를 위한 청사진입니다.

신뢰가 필요 없는 협업의 최종 단계 (The Trustless Coordination Endgame)

Blacklight의 출시는 에이전트 경제의 전환점이 되었습니다. ERC-8004 이전의 에이전트들은 개별적으로 운영되었습니다. 자체 생태계 내에서는 신뢰받았지만, 인간 중개자 없이는 플랫폼 간 협업이 불가능했습니다. ERC-8004 이후, 에이전트들은 서로의 신원을 확인하고 행동을 감사하며 자율적으로 결제를 정산할 수 있게 되었습니다.

이는 완전히 새로운 카테고리의 애플리케이션을 가능하게 합니다 :

  • 탈중앙화 헤지펀드 : 검증 가능한 투자 전략과 투명한 성과 감사를 바탕으로 여러 체인에서 포트폴리오를 관리하는 에이전트
  • 자율 공급망 : 중앙 집중식 감독 없이 물류, 결제 및 규제 준수를 조율하는 에이전트
  • AI 기반 DAO : 암호학적으로 검증된 의사 결정 로직에 따라 투표하고 제안하며 실행하는 에이전트에 의해 운영되는 조직
  • 크로스 프로토콜 유동성 관리 : 프로그래밍 가능한 리스크 제약 조건 하에서 여러 DeFi 프로토콜에 걸쳐 자산을 재조정하는 에이전트

이들의 공통점은 무엇일까요? 모두 신뢰가 필요 없는 협업(trustless coordination), 즉 기존 관계나 중앙 집중식 신뢰 거점 없이도 에이전트들이 함께 일할 수 있는 능력이 필요하다는 것입니다.

Nillion의 Blacklight는 바로 이를 제공합니다. ERC-8004의 신원 및 평판 인프라를 프로그래밍 가능한 검증 및 블라인드 연산과 결합함으로써, 다가올 조 단위 에이전트 경제에 걸맞은 확장 가능한 신뢰 계층을 구축합니다.

블록체인이 AI 에이전트와 글로벌 금융의 토대가 됨에 따라, 검증 인프라의 필요 여부는 더 이상 질문의 대상이 아닙니다. 중요한 것은 누가 이를 구축하느냐, 그리고 그것이 탈중앙화되어 있느냐 아니면 소수의 관리자에 의해 통제되느냐 하는 것입니다. Blacklight의 커뮤니티 운영 노드와 개방형 표준은 전자의 필요성을 입증합니다.

온체인 자율 액터의 시대가 도래했습니다. 인프라는 준비되었습니다. 이제 남은 질문은 그 위에 무엇이 구축될 것인가 하는 점입니다.


출처 :

zkML과 암호학적 증명을 통한 검증 가능한 온체인 AI

· 약 32 분
Dora Noda
Software Engineer

소개: 블록체인에서 검증 가능한 AI의 필요성

AI 시스템의 영향력이 커짐에 따라 그 결과물의 신뢰성을 보장하는 것이 중요해졌습니다. 전통적인 방법은 제도적 보증(본질적으로 "그냥 우리를 믿으세요")에 의존하며, 이는 암호학적 보장을 제공하지 않습니다. 이는 블록체인과 같은 탈중앙화된 환경에서 특히 문제가 되는데, 스마트 계약이나 사용자는 무거운 모델을 온체인에서 다시 실행할 수 없이 AI가 도출한 결과를 신뢰해야 하기 때문입니다. **영지식 머신러닝(zkML)**은 ML 연산의 _암호학적 검증_을 허용함으로써 이 문제를 해결합니다. 본질적으로 zkML은 증명자가 _"출력 $Y$는 입력 $X$에 대해 모델 $M$을 실행하여 나왔다"_는 간결한 증명을 생성할 수 있게 해주며, 이때 $X$나 $M$의 내부 세부 정보는 공개하지 않습니다. 이러한 영지식 증명(ZKP)은 누구나(또는 어떤 계약이든) 효율적으로 검증할 수 있어, AI 신뢰를 "정책에서 증명으로" 전환시킵니다.

AI의 온체인 검증 가능성은 블록체인이 연산 자체를 수행하는 대신 정확한 실행 증명을 검증함으로써 고급 연산(신경망 추론 등)을 통합할 수 있음을 의미합니다. 이는 광범위한 영향을 미칩니다. 스마트 계약은 AI 예측을 기반으로 결정을 내릴 수 있고, 탈중앙화된 자율 에이전트는 자신들의 알고리즘을 따랐음을 증명할 수 있으며, 크로스체인 또는 오프체인 연산 서비스는 검증 불가능한 오라클 대신 검증 가능한 결과물을 제공할 수 있습니다. 궁극적으로 zkML은 신뢰가 필요 없고 프라이버시를 보존하는 AI로 가는 길을 제시합니다. 예를 들어, AI 모델의 결정이 개인 데이터나 독점적인 모델 가중치를 노출하지 않고 정확하고 승인되었음을 증명할 수 있습니다. 이는 안전한 의료 분석부터 블록체인 게임, DeFi 오라클에 이르기까지 다양한 애플리케이션에 핵심적입니다.

zkML의 작동 원리: ML 추론을 간결한 증명으로 압축하기

높은 수준에서 zkML은 암호학적 증명 시스템과 ML 추론을 결합하여 복잡한 모델 평가를 작은 증명으로 "압축"할 수 있도록 합니다. 내부적으로 ML 모델(예: 신경망)은 많은 산술 연산(행렬 곱셈, 활성화 함수 등)으로 구성된 회로나 프로그램으로 표현됩니다. 모든 중간 값을 공개하는 대신, 증명자는 전체 연산을 오프체인에서 수행한 다음 영지식 증명 프로토콜을 사용하여 모든 단계가 올바르게 수행되었음을 증명합니다. 검증자는 증명과 일부 공개 데이터(최종 출력 및 모델 식별자 등)만으로 모델을 재실행하지 않고도 정확성을 암호학적으로 확신할 수 있습니다.

이를 달성하기 위해 zkML 프레임워크는 일반적으로 모델 연산을 ZKP에 적합한 형식으로 변환합니다.

  • 회로 컴파일: SNARK 기반 접근 방식에서는 모델의 연산 그래프가 산술 회로 또는 다항식 제약 조건 집합으로 컴파일됩니다. 신경망의 각 계층(컨볼루션, 행렬 곱셈, 비선형 활성화)은 입력이 주어졌을 때 출력이 정확함을 보장하는 제약 조건이 있는 하위 회로가 됩니다. 신경망은 다항식에 자연스럽게 적합하지 않은 비선형 연산(ReLU, Sigmoid 등)을 포함하기 때문에, 이를 효율적으로 처리하기 위해 룩업 테이블과 같은 기술이 사용됩니다. 예를 들어, ReLU(출력 = max(0, 입력))는 입력≥0일 때 출력이 입력과 같고 그렇지 않으면 0임을 검증하는 사용자 정의 제약 조건이나 룩업으로 강제할 수 있습니다. 최종 결과는 증명자가 만족해야 하는 암호학적 제약 조건 집합이며, 이는 모델이 올바르게 실행되었음을 암묵적으로 증명합니다.
  • 실행 추적 및 가상 머신: 대안은 zkVM 접근 방식에서처럼 모델 추론을 프로그램 추적으로 취급하는 것입니다. 예를 들어, JOLT zkVM은 RISC-V 명령어 집합을 대상으로 합니다. ML 모델(또는 이를 계산하는 코드)을 RISC-V로 컴파일한 다음 각 CPU 명령어가 올바르게 실행되었음을 증명할 수 있습니다. JOLT는 "룩업 특이점" 기술을 도입하여, 비용이 많이 드는 산술 제약 조건을 각 유효한 CPU 연산에 대한 빠른 테이블 룩업으로 대체합니다. 모든 연산(덧셈, 곱셈, 비트 연산 등)은 사전 계산된 유효한 결과의 거대한 테이블에서 룩업을 통해 확인되며, 이를 효율적으로 유지하기 위해 특화된 인수(Lasso/SHOUT)를 사용합니다. 이는 증명자의 작업량을 극적으로 줄입니다. 복잡한 64비트 연산조차도 많은 산술 제약 조건 대신 증명에서 단일 테이블 룩업이 됩니다.
  • 상호작용 프로토콜 (GKR 합계 검사): 세 번째 접근 방식은 GKR(Goldwasser–Kalai–Rotblum)과 같은 상호작용 증명을 사용하여 계층화된 연산을 검증하는 것입니다. 여기서 모델의 연산은 계층화된 산술 회로로 간주됩니다(각 신경망 계층은 회로 그래프의 한 계층임). 증명자는 모델을 정상적으로 실행한 다음, 각 계층의 출력이 입력에 따라 정확함을 증명하기 위해 _합계 검사 프로토콜_에 참여합니다. Lagrange의 접근 방식(다음에서 자세히 설명할 DeepProve)에서는 증명자와 검증자가 상호작용 다항식 프로토콜(Fiat-Shamir를 통해 비상호작용적으로 만듦)을 수행하여 각 계층의 연산을 다시 수행하지 않고 일관성을 확인합니다. 이 합계 검사 방법은 단일의 정적 회로를 생성하는 것을 피하고, 대신 최소한의 암호학적 연산(주로 해싱 또는 다항식 평가)으로 단계별로 _연산의 일관성_을 검증합니다.

어떤 접근 방식을 사용하든, 결과는 전체 추론의 정확성을 증명하는 간결한 증명(일반적으로 수 킬로바이트에서 수십 킬로바이트)입니다. 이 증명은 _영지식_이므로, 모든 비밀 입력(개인 데이터 또는 모델 매개변수)은 숨겨질 수 있습니다. 이는 증명에 영향을 미치지만 검증자에게는 공개되지 않습니다. 의도된 공개 출력이나 주장만이 공개됩니다. 이는 _"모델 $M$을 환자 데이터 $X$에 적용하면 진단 $Y$가 나온다는 것을 $X$나 모델의 가중치를 공개하지 않고 증명하라"_와 같은 시나리오를 가능하게 합니다.

온체인 검증 활성화: 증명이 생성되면 블록체인에 게시될 수 있습니다. 스마트 계약은 증명을 확인하기 위한 검증 로직을 포함할 수 있으며, 종종 사전 컴파일된 암호학적 프리미티브를 사용합니다. 예를 들어, 이더리움은 많은 zk-SNARK 검증기에서 사용되는 BLS12-381 페어링 연산을 위한 사전 컴파일을 가지고 있어, SNARK 증명의 온체인 검증을 효율적으로 만듭니다. STARK(해시 기반 증명)는 더 크지만, 신중한 최적화나 일부 신뢰 가정(예를 들어, StarkWare의 L2는 이더리움에서 STARK 증명을 온체인 검증기 계약으로 검증하지만 SNARK보다 가스 비용이 높음)을 통해 여전히 온체인에서 검증될 수 있습니다. 핵심은 체인이 ML 모델을 실행할 필요 없이, 원래 연산보다 훨씬 저렴한 검증만 실행한다는 것입니다. 요약하면, zkML은 _비용이 많이 드는 AI 추론을 블록체인(또는 모든 검증자)이 밀리초에서 초 단위로 확인할 수 있는 작은 증명으로 압축_합니다.

Lagrange DeepProve: zkML의 혁신적인 아키텍처와 성능

Lagrange Labs의 DeepProve는 속도와 확장성에 초점을 맞춘 최첨단 zkML 추론 프레임워크입니다. 2025년에 출시된 DeepProve는 Ezkl과 같은 이전 솔루션보다 극적으로 빠른 새로운 증명 시스템을 도입했습니다. 그 설계는 _합계 검사를 포함한 GKR 상호작용 증명 프로토콜_과 신경망 회로에 대한 특화된 최적화를 중심으로 합니다. DeepProve의 작동 방식과 성능 달성 방법은 다음과 같습니다.

  • 일회성 전처리: 개발자는 훈련된 신경망(현재 다층 퍼셉트론 및 인기 있는 CNN 아키텍처 지원)으로 시작합니다. 모델은 표준 그래프 표현인 ONNX 형식으로 내보내집니다. 그런 다음 DeepProve의 도구는 ONNX 모델을 파싱하고 효율적인 필드 산술을 위해 양자화(가중치를 고정 소수점/정수 형태로 변환)합니다. 이 단계에서 암호학적 프로토콜을 위한 증명 및 검증 키도 생성합니다. 이 설정은 모델당 한 번만 수행되며 추론마다 반복할 필요가 없습니다. DeepProve는 통합의 용이성을 강조합니다: "모델을 ONNX로 내보내기 → 일회성 설정 → 증명 생성 → 어디서든 검증".

  • 증명 (추론 + 증명 생성): 설정 후, 증명자(사용자, 서비스 또는 Lagrange의 탈중앙화 증명자 네트워크에서 실행 가능)는 새로운 입력 $X$를 받아 모델 $M$을 실행하여 출력 $Y$를 얻습니다. 이 실행 동안 DeepProve는 각 계층의 연산에 대한 실행 추적을 기록합니다. SNARK 접근 방식처럼 모든 곱셈을 정적 회로로 미리 변환하는 대신, DeepProve는 선형 시간 GKR 프로토콜을 사용하여 각 계층을 즉석에서 검증합니다. 각 네트워크 계층에 대해 증명자는 계층의 입력과 출력에 커밋하고(예: 암호학적 해시 또는 다항식 커밋을 통해), 그런 다음 출력이 계층의 함수에 따라 실제로 입력에서 비롯되었음을 증명하기 위해 합계 검사 인수에 참여합니다. 합계 검사 프로토콜은 실제 값을 공개하지 않고 계층의 연산을 인코딩하는 다항식의 평가 합계의 정확성을 검증자에게 반복적으로 확신시킵니다. 비선형 연산(ReLU, softmax 등)은 DeepProve에서 _룩업 인수_를 통해 효율적으로 처리됩니다. 활성화의 출력이 계산되면, DeepProve는 각 출력이 해당 함수에 대해 사전 계산된 테이블의 유효한 입력-출력 쌍에 해당함을 증명할 수 있습니다. 계층별로 증명이 생성된 다음, 전체 모델의 순방향 전파를 다루는 하나의 간결한 증명으로 집계됩니다. 암호학의 무거운 작업은 최소화됩니다. DeepProve의 증명자는 거대한 제약 조건 시스템을 푸는 대신, 주로 일반적인 수치 연산(실제 추론)과 일부 가벼운 암호학적 커밋을 수행합니다.

  • 검증: 검증자는 최종 간결한 증명과 함께 몇 가지 공개 값(일반적으로 모델의 커밋된 식별자($M$의 가중치에 대한 암호학적 커밋), 입력 $X$(비공개가 아닌 경우), 주장된 출력 $Y$)을 사용하여 정확성을 확인합니다. DeepProve 시스템에서의 검증은 합계 검사 프로토콜의 트랜스크립트와 최종 다항식 또는 해시 커밋을 검증하는 것을 포함합니다. 이는 고전적인 SNARK를 검증하는 것(몇 번의 페어링일 수 있음)보다 더 복잡하지만, _모델을 다시 실행하는 것보다 훨씬 저렴_합니다. Lagrange의 벤치마크에서, 중간 크기 CNN에 대한 DeepProve 증명을 검증하는 데 소프트웨어에서 0.5초 정도 걸립니다. 이는 예를 들어 수십만 개의 매개변수를 가진 컨볼루션 네트워크가 올바르게 실행되었음을 확인하는 데 약 0.5초가 걸린다는 의미이며, 이는 검증을 위해 GPU에서 해당 CNN을 순진하게 재계산하는 것보다 500배 이상 빠릅니다. (실제로 DeepProve는 CNN에 대해 최대 521배 빠른 검증, MLP에 대해 _671배 빠른 검증_을 재실행과 비교하여 측정했습니다.) 증명 크기는 온체인으로 전송하기에 충분히 작으며(수십 KB), 0.5초의 연산은 신중한 가스 최적화나 레이어 2 실행이 필요할 수 있지만, 필요하다면 스마트 계약에서 검증을 수행할 수 있습니다.

아키텍처 및 도구: DeepProve는 Rust로 구현되었으며 개발자를 위한 툴킷(zkml 라이브러리)을 제공합니다. ONNX 모델 그래프를 기본적으로 지원하므로 PyTorch나 TensorFlow의 모델(내보내기 후)과 호환됩니다. 증명 프로세스는 현재 최대 수백만 개의 매개변수를 가진 모델을 대상으로 합니다(테스트에는 4백만 매개변수 밀집 네트워크 포함). DeepProve는 다중 선형 다항식 커밋(계층 출력에 커밋하기 위해), 연산 검증을 위한 합계 검사 프로토콜, 비선형 연산을 위한 룩업 인수 등 여러 암호학적 구성 요소를 조합하여 활용합니다. 특히 Lagrange의 오픈 소스 저장소는 이전 작업(Scroll의 Ceno 프로젝트에서 온 합계 검사 및 GKR 구현)을 기반으로 구축되었음을 인정하며, 이는 zkML과 영지식 롤업 연구의 교차점을 나타냅니다.

실시간 확장성을 달성하기 위해 Lagrange는 DeepProve를 **증명자 네트워크(Prover Network)**와 결합합니다. 이는 전문 ZK 증명자들의 탈중앙화 네트워크입니다. 무거운 증명 생성은 이 네트워크에 오프로드될 수 있습니다. 애플리케이션이 추론 증명이 필요할 때, 작업을 Lagrange의 네트워크에 보내면, 많은 운영자(보안을 위해 EigenLayer에 스테이킹됨)가 증명을 계산하고 결과를 반환합니다. 이 네트워크는 신뢰할 수 있는 증명 생성을 경제적으로 인센티브화합니다(악의적이거나 실패한 작업은 운영자를 슬래싱함). 증명자들에게 작업을 분산시키고(잠재적으로 GPU나 ASIC 활용), Lagrange 증명자 네트워크는 최종 사용자로부터 복잡성과 비용을 숨깁니다. 그 결과는 빠르고, 확장 가능하며, 탈중앙화된 zkML 서비스입니다: "검증 가능한 AI 추론을 빠르고 저렴하게".

성능 이정표: DeepProve의 주장은 이전 최첨단 기술인 Ezkl과의 벤치마크로 뒷받침됩니다. 약 264k 매개변수를 가진 CNN(CIFAR-10 규모 모델)의 경우, DeepProve의 증명 시간은 약 1.24초였던 반면, Ezkl은 약 196초로, 약 158배 더 빨랐습니다. 4백만 개의 매개변수를 가진 더 큰 밀집 네트워크의 경우, DeepProve는 추론을 약 2.3초 만에 증명했지만, Ezkl은 약 126.8초가 걸렸습니다(약 54배 더 빠름). 검증 시간도 단축되었습니다. DeepProve는 264k CNN 증명을 약 0.6초 만에 검증했지만, Ezkl 증명(Halo2 기반)을 CPU에서 검증하는 데는 5분 이상 걸렸습니다. 이러한 속도 향상은 DeepProve의 거의 선형적인 복잡성에서 비롯됩니다. 증명자는 연산 수에 따라 대략 _O(n)_으로 확장되는 반면, 회로 기반 SNARK 증명자는 종종 초선형적인 오버헤드(FFT 및 다항식 커밋 확장)를 가집니다. 실제로 DeepProve의 증명자 처리량은 일반 추론 런타임의 한 자릿수 이내일 수 있습니다. 최근 GKR 시스템은 대규모 행렬 곱셈에 대해 원시 실행보다 10배 미만으로 느릴 수 있으며, 이는 ZK에서 인상적인 성과입니다. 이는 _실시간 또는 온디맨드 증명_을 더 실현 가능하게 만들어, 상호작용 애플리케이션에서 검증 가능한 AI의 길을 열어줍니다.

사용 사례: Lagrange는 이미 Web3 및 AI 프로젝트와 협력하여 zkML을 적용하고 있습니다. 예시 사용 사례로는 검증 가능한 NFT 특성(게임 캐릭터나 수집품의 AI 생성 진화가 승인된 모델에 의해 계산되었음을 증명), AI 콘텐츠의 출처(딥페이크와 싸우기 위해 이미지나 텍스트가 특정 모델에 의해 생성되었음을 증명), DeFi 위험 모델(독점 데이터를 공개하지 않고 금융 위험을 평가하는 모델의 출력을 증명), 의료 또는 금융에서의 프라이빗 AI 추론(병원이 환자 데이터를 노출하지 않고 정확성을 보장하는 증명과 함께 AI 예측을 받을 수 있음) 등이 있습니다. AI 출력을 검증 가능하고 프라이버시를 보존하게 만듦으로써, DeepProve는 탈중앙화 시스템에서 _"신뢰할 수 있는 AI"_의 문을 엽니다. 이는 _"블랙박스 모델에 대한 맹목적인 신뢰"_의 시대에서 _"객관적인 보증"_의 시대로 나아가는 것입니다.

SNARK 기반 zkML: Ezkl과 Halo2 접근 방식

zkML에 대한 전통적인 접근 방식은 zk-SNARK(Succinct Non-interactive Arguments of Knowledge)를 사용하여 신경망 추론을 증명합니다. Ezkl(ZKonduit/Modulus Labs 제작)은 이 접근 방식의 대표적인 예입니다. 이는 Halo2 증명 시스템(BLS12-381 상의 다항식 커밋을 사용하는 PLONK 스타일의 SNARK)을 기반으로 합니다. Ezkl은 개발자가 PyTorch나 TensorFlow 모델을 가져와 ONNX로 내보내면, Ezkl이 이를 자동으로 맞춤형 산술 회로로 컴파일하는 툴링 체인을 제공합니다.

작동 방식: 신경망의 각 계층은 제약 조건으로 변환됩니다.

  • 선형 계층(밀집 또는 컨볼루션)은 입력, 가중치, 출력 간의 내적을 강제하는 곱셈-덧셈 제약 조건의 모음이 됩니다.
  • 비선형 계층(ReLU, 시그모이드 등)은 이러한 함수가 다항식이 아니기 때문에 룩업 또는 조각별 제약 조건을 통해 처리됩니다. 예를 들어, ReLU는 $y = x \cdot b$, $0 \le b \le 1$, $x>0$일 때 $b=1$을 보장하는 불리언 선택자 $b$로 구현될 수 있거나, 더 효율적으로는 $x$ 값의 범위에 대해 $x \mapsto \max(0,x)$를 매핑하는 룩업 테이블을 사용할 수 있습니다. Halo2의 룩업 인수는 16비트(또는 더 작은) 값의 청크를 매핑할 수 있으므로, 큰 도메인(예: 모든 32비트 값)은 보통 여러 개의 작은 룩업으로 _"청크화"_됩니다. 이 청크화는 제약 조건의 수를 증가시킵니다.
  • 큰 정수 연산이나 나눗셈(있는 경우)도 비슷하게 작은 조각으로 나뉩니다. 그 결과 특정 모델 아키텍처에 맞춰진 대규모 R1CS/PLONK 제약 조건 집합이 생성됩니다.

그런 다음 Ezkl은 Halo2를 사용하여 비밀 입력(모델 가중치, 개인 입력)과 공개 출력이 주어졌을 때 이러한 제약 조건이 성립한다는 증명을 생성합니다. 툴링 및 통합: SNARK 접근 방식의 한 가지 장점은 잘 알려진 프리미티브를 활용한다는 것입니다. Halo2는 이미 이더리움 롤업(예: Zcash, zkEVM)에서 사용되고 있으므로, 실전에서 검증되었고 온체인 검증기를 쉽게 사용할 수 있습니다. Ezkl의 증명은 BLS12-381 곡선을 사용하며, 이더리움은 사전 컴파일을 통해 이를 검증할 수 있어 스마트 계약에서 Ezkl 증명을 검증하는 것이 간단합니다. 팀은 또한 사용자 친화적인 API를 제공했습니다. 예를 들어, 데이터 과학자는 파이썬에서 모델 작업을 하고 Ezkl의 CLI를 사용하여 회로에 대한 깊은 지식 없이도 증명을 생성할 수 있습니다.

강점: Ezkl의 접근 방식은 SNARK의 일반성과 생태계로부터 이점을 얻습니다. 상당히 복잡한 모델을 지원하며 이미 _"실용적인 통합(DeFi 위험 모델에서 게임 AI까지)"_을 통해 실제 ML 작업을 증명했습니다. 모델의 연산 그래프 수준에서 작동하기 때문에, 중요하지 않은 가중치를 가지치기하거나 매개변수를 양자화하여 회로 크기를 줄이는 등 ML 관련 최적화를 적용할 수 있습니다. 또한 모델 기밀성이 자연스럽다는 것을 의미합니다. 가중치는 개인 증인 데이터로 처리될 수 있으므로, 검증자는 단지 어떤 유효한 모델이 출력을 생성했거나 기껏해야 모델에 대한 커밋만 볼 수 있습니다. SNARK 증명의 검증은 매우 빠르며(일반적으로 온체인에서 수 밀리초 이하), 증명 크기가 작아(수 킬로바이트) 블록체인 사용에 이상적입니다.

약점: 성능이 아킬레스건입니다. 회로 기반 증명은 특히 모델이 커질수록 큰 오버헤드를 부과합니다. 역사적으로 SNARK 회로는 증명자에게 모델을 그냥 실행하는 것보다 _백만 배 더 많은 작업_이 될 수 있다고 알려져 있습니다. Halo2와 Ezkl은 이를 최적화하지만, 여전히 대규모 행렬 곱셈과 같은 연산은 수많은 제약 조건을 생성합니다. 모델에 수백만 개의 매개변수가 있는 경우, 증명자는 그에 상응하는 수백만 개의 제약 조건을 처리해야 하며, 그 과정에서 무거운 FFT와 다중 지수 연산을 수행해야 합니다. 이로 인해 증명 시간이 길어지고(종종 중요하지 않은 모델의 경우에도 수 분 또는 수 시간이 걸림) 메모리 사용량이 높아집니다. 예를 들어, 비교적 작은 CNN(예: 수십만 개의 매개변수)을 증명하는 데도 단일 머신에서 Ezkl로 수십 분이 걸릴 수 있습니다. DeepProve 팀은 Ezkl이 특정 모델 증명에 몇 시간이 걸렸지만 DeepProve는 몇 분 만에 할 수 있다고 언급했습니다. 대규모 모델은 메모리에 맞지 않거나 여러 증명으로 분할해야 할 수도 있습니다(그런 다음 재귀적 집계가 필요함). Halo2가 _"적당히 최적화"_되었지만, 룩업을 "청크화"하거나 넓은 비트 연산을 처리해야 하는 필요성은 추가 오버헤드로 이어집니다. 요약하면, 확장성이 제한적입니다. Ezkl은 소규모에서 중간 규모의 모델에 잘 작동하지만(실제로 벤치마크에서 일부 초기 대안보다 성능이 우수했음), 모델 크기가 일정 지점을 넘어서면 어려움을 겪습니다.

이러한 어려움에도 불구하고, Ezkl 및 유사한 SNARK 기반 zkML 라이브러리는 중요한 디딤돌입니다. 그들은 온체인에서 _검증된 ML 추론이 가능함_을 증명했으며 활발하게 사용되고 있습니다. 특히, Modulus Labs와 같은 프로젝트는 SNARK를 사용하여 (대대적인 최적화와 함께) 1,800만 매개변수 모델을 온체인에서 검증하는 것을 시연했습니다. 비용은 상당했지만, 이는 발전 궤도를 보여줍니다. 또한, Mina Protocol은 자체 zkML 툴킷을 가지고 있어, Mina의 스마트 계약(Snark 기반)이 ML 모델 실행을 검증할 수 있도록 합니다. 이는 SNARK 기반 zkML에 대한 다중 플랫폼 지원이 증가하고 있음을 나타냅니다.

STARK 기반 접근 방식: ML을 위한 투명하고 프로그래밍 가능한 ZK

zk-STARK(Scalable Transparent ARguments of Knowledge)는 zkML로 가는 또 다른 경로를 제공합니다. STARK는 해시 기반 암호학(다항식 커밋을 위한 FRI 등)을 사용하며 신뢰 설정이 필요 없습니다. 이들은 종종 CPU나 VM을 시뮬레이션하고 실행 추적이 올바른지 증명하는 방식으로 작동합니다. ML의 맥락에서는 신경망을 위한 맞춤형 STARK를 구축하거나 범용 STARK VM을 사용하여 모델 코드를 실행할 수 있습니다.

일반 STARK VM (RISC Zero, Cairo): 간단한 접근 방식은 추론 코드를 작성하고 STARK VM에서 실행하는 것입니다. 예를 들어, Risc0는 RISC-V 환경을 제공하여 모든 코드(예: 신경망의 C++ 또는 Rust 구현)를 실행하고 STARK를 통해 증명할 수 있습니다. 마찬가지로, StarkWare의 Cairo 언어는 임의의 연산(LSTM 또는 CNN 추론 등)을 표현할 수 있으며, 이는 StarkNet STARK 증명자에 의해 증명됩니다. 장점은 유연성입니다. 각 모델에 대해 맞춤형 회로를 설계할 필요가 없습니다. 그러나 초기 벤치마크에서는 순진한 STARK VM이 ML에 최적화된 SNARK 회로보다 느리다는 것을 보여주었습니다. 한 테스트에서 Halo2 기반 증명(Ezkl)은 Cairo의 STARK 기반 접근 방식보다 약 3배 빨랐고, 2024년 특정 벤치마크에서는 RISC-V STARK VM보다 66배 더 빨랐습니다. 이 격차는 STARK에서 모든 저수준 명령어를 시뮬레이션하는 오버헤드와 STARK 증명의 더 큰 상수(해싱은 빠르지만 많이 필요함, STARK 증명 크기가 더 큼 등) 때문입니다. 그러나 STARK VM은 개선되고 있으며 투명한 설정(신뢰 설정 없음)과 양자내성 보안이라는 이점이 있습니다. STARK 친화적인 하드웨어와 프로토콜이 발전함에 따라 증명 속도는 향상될 것입니다.

DeepProve의 접근 방식 vs STARK: 흥미롭게도, DeepProve가 GKR과 합계 검사를 사용하는 것은 정신적으로 STARK와 더 유사한 증명을 산출합니다. 이는 구조화된 참조 문자열이 필요 없는 상호작용, 해시 기반 증명입니다. 트레이드오프는 증명이 더 크고 검증이 SNARK보다 무겁다는 것입니다. 그러나 DeepProve는 신중한 프로토콜 설계(ML의 계층 구조에 특화됨)가 증명 시간에서 일반 STARK VM과 SNARK 회로를 모두 크게 능가할 수 있음을 보여줍니다. DeepProve를 맞춤형 STARK 스타일 zkML 증명자로 간주할 수 있습니다(간결성을 위해 zkSNARK라는 용어를 사용하지만, 0.5초 검증은 일반적인 SNARK 검증보다 크기 때문에 전통적인 SNARK의 작은 상수 크기 검증은 없음). 전통적인 STARK 증명(StarkNet의 것과 같은)은 종종 검증하는 데 수만 개의 필드 연산이 필요한 반면, SNARK는 아마도 수십 개로 검증합니다. 따라서 한 가지 트레이드오프가 분명합니다. SNARK는 더 작은 증명과 더 빠른 검증기를 산출하는 반면, STARK(또는 GKR)는 증명 크기와 검증 속도를 희생하여 더 쉬운 확장성과 신뢰 설정 없음을 제공합니다.

새로운 개선 사항: JOLT zkVM(앞서 JOLTx에서 논의됨)은 실제로 SNARK(PLONKish 커밋 사용)를 출력하지만, STARK 맥락에서도 적용될 수 있는 아이디어(Lasso 룩업은 이론적으로 FRI 커밋과 함께 사용될 수 있음)를 구현합니다. StarkWare 등은 일반적인 연산의 증명 속도를 높이는 방법(예: Cairo에서 큰 정수 연산을 위해 사용자 정의 게이트나 힌트 사용)을 연구하고 있습니다. 또한 Privacy&Scaling Explorations(PSE)의 Circomlib-ML이 있는데, 이는 CNN 계층 등을 위한 Circom 템플릿을 제공합니다. 이는 SNARK 지향적이지만, 개념적으로 유사한 템플릿을 STARK 언어용으로 만들 수 있습니다.

실제로, STARK를 활용하는 비-이더리움 생태계에는 StarkNet(누군가 검증기를 작성하면 온체인 ML 검증이 가능하지만 비용이 높음)과 Risc0의 Bonsai 서비스(다양한 체인에서 검증할 수 있는 STARK 증명을 내보내는 오프체인 증명 서비스)가 있습니다. 2025년 현재, 블록체인 상의 대부분의 zkML 데모는 (검증기 효율성 때문에) SNARK를 선호했지만, STARK 접근 방식은 투명성과 고보안 또는 양자내성 환경에서의 잠재력 때문에 여전히 매력적입니다. 예를 들어, 탈중앙화 연산 네트워크는 STARK를 사용하여 누구나 신뢰 설정 없이 작업을 검증할 수 있게 하여 장기적인 사용에 유용할 수 있습니다. 또한, 일부 특화된 ML 작업은 STARK 친화적인 구조를 활용할 수 있습니다. 예를 들어, XOR/비트 연산을 많이 사용하는 연산은 SNARK 필드 산술보다 STARK에서 더 빠를 수 있습니다(불 대수와 해싱에서 저렴하기 때문).

ML에 대한 SNARK vs STARK 요약:

  • 성능: SNARK(Halo2 등)는 게이트당 증명 오버헤드가 크지만 강력한 최적화와 검증을 위한 작은 상수의 이점을 누립니다. STARK(일반)는 상수 오버헤드가 더 크지만 더 선형적으로 확장되고 페어링과 같은 비싼 암호화를 피합니다. DeepProve는 접근 방식을 맞춤화(합계 검사)하면 거의 선형적인 증명 시간(빠름)을 얻지만 STARK와 유사한 증명을 갖게 됨을 보여줍니다. JOLT는 일반 VM조차도 룩업을 많이 사용하면 더 빨라질 수 있음을 보여줍니다. 경험적으로, 수백만 연산까지의 모델에 대해: 잘 최적화된 SNARK(Ezkl)는 처리할 수 있지만 수십 분이 걸릴 수 있는 반면, DeepProve(GKR)는 몇 초 만에 할 수 있습니다. 2024년의 STARK VM은 특화되지 않는 한 SNARK보다 중간이거나 더 나빴을 가능성이 높습니다(Risc0는 테스트에서 더 느렸고, Cairo는 사용자 정의 힌트 없이는 더 느렸음).
  • 검증: SNARK 증명은 가장 빠르게 검증됩니다(밀리초, 온체인 데이터는 최소 ~수백 바이트에서 수 KB). STARK 증명은 더 크고(수십 KB) 많은 해싱 단계 때문에 검증하는 데 더 오래 걸립니다(수십 ms에서 수 초). 블록체인 용어로, SNARK 검증은 약 20만 가스가 들 수 있는 반면, STARK 검증은 수백만 가스가 들 수 있어 L1에는 너무 높고, L2나 간결한 검증 체계에서는 수용 가능합니다.
  • 설정 및 보안: Groth16과 같은 SNARK는 회로당 신뢰 설정이 필요하지만(임의의 모델에는 비우호적), 범용 SNARK(PLONK, Halo2)는 특정 크기까지의 모든 회로에 재사용할 수 있는 일회성 설정을 가집니다. STARK는 설정이 필요 없으며 해시 가정(및 고전적인 다항식 복잡성 가정)만 사용하며, 양자내성 보안을 갖습니다. 이는 STARK를 장기적으로 매력적으로 만듭니다. 양자 컴퓨터가 등장하더라도 증명은 안전하게 유지되지만, 현재의 SNARK(BLS12-381 기반)는 양자 공격에 의해 깨질 것입니다.

이러한 차이점들을 곧 비교표로 정리하겠습니다.

ML을 위한 FHE (FHE-o-ML): 프라이빗 연산 vs. 검증 가능한 연산

완전 동형 암호(FHE)는 암호화된 데이터에 대해 직접 연산을 수행할 수 있게 하는 암호화 기술입니다. ML의 맥락에서 FHE는 _프라이버시 보존 추론_의 한 형태를 가능하게 할 수 있습니다. 예를 들어, 클라이언트는 암호화된 입력을 모델 호스트에게 보내고, 호스트는 이를 해독하지 않고 암호문에 대해 신경망을 실행한 다음, 클라이언트가 해독할 수 있는 암호화된 결과를 다시 보냅니다. 이는 데이터 기밀성을 보장합니다. 모델 소유자는 입력에 대해 아무것도 알 수 없으며(잠재적으로 클라이언트는 출력만 알게 되고, 출력만 받으면 모델의 내부는 알 수 없음), FHE 자체는 ZKP와 같은 방식으로 정확성 증명을 생성하지 않습니다. 클라이언트는 모델 소유자가 실제로 정직하게 연산을 수행했다고 신뢰해야 합니다(암호문이 조작될 수 있음). 일반적으로 클라이언트가 모델을 가지고 있거나 특정 출력 분포를 예상하는 경우, 노골적인 속임수는 감지될 수 있지만, 미묘한 오류나 잘못된 모델 버전 사용은 암호화된 출력만으로는 명확하지 않습니다.

성능의 트레이드오프: FHE는 연산이 매우 무겁습니다. FHE 하에서 딥러닝 추론을 실행하면 몇 자릿수나 되는 속도 저하가 발생합니다. 초기 실험(예: 2016년 CryptoNets)에서는 암호화된 데이터에 대해 작은 CNN을 평가하는 데 수십 초가 걸렸습니다. 2024년까지 **CKKS(근사 산술용)**와 더 나은 라이브러리(Microsoft SEAL, Zama의 Concrete)와 같은 개선으로 이 오버헤드가 줄었지만 여전히 큽니다. 예를 들어, 한 사용자는 Zama의 Concrete-ML을 사용하여 CIFAR-10 분류기를 실행하는 데 하드웨어에서 추론당 _25–30분_이 걸렸다고 보고했습니다. 최적화 후 Zama 팀은 192코어 서버에서 해당 추론에 대해 약 40초를 달성했습니다. 40초조차도 평문 추론(0.01초일 수 있음)에 비해 매우 느리며, 약 $10^3$–$10^4\times$의 오버헤드를 보여줍니다. 더 큰 모델이나 더 높은 정밀도는 비용을 더욱 증가시킵니다. 또한 FHE 연산은 많은 메모리를 소비하고 때때로 계산적으로 비싼 부트스트래핑(잡음 감소 단계)이 필요합니다. 요약하면, _확장성은 주요 문제_입니다. 최첨단 FHE는 작은 CNN이나 간단한 로지스틱 회귀를 처리할 수 있지만, 대규모 CNN이나 트랜스포머로 확장하는 것은 현재의 실용적인 한계를 넘어섭니다.

프라이버시 이점: FHE의 큰 매력은 _데이터 프라이버시_입니다. 입력은 프로세스 전체에서 완전히 암호화된 상태로 유지될 수 있습니다. 이는 신뢰할 수 없는 서버가 클라이언트의 개인 데이터에 대해 아무것도 배우지 않고 연산할 수 있음을 의미합니다. 반대로, 모델이 민감한(독점적인) 경우, 모델 매개변수를 암호화하고 클라이언트가 자신의 쪽에서 FHE 추론을 수행하도록 상상할 수 있지만, 클라이언트가 무거운 FHE 연산을 해야 한다면 강력한 서버에 오프로드한다는 아이디어를 무효화하기 때문에 이는 덜 일반적입니다. 일반적으로 모델은 공개되거나 서버가 평문으로 보유하고, 데이터는 클라이언트의 키로 암호화됩니다. 이 시나리오에서 모델 프라이버시는 기본적으로 제공되지 않습니다(서버는 모델을 알고, 클라이언트는 가중치가 아닌 출력을 알게 됨). 모델과 데이터를 서로에게서 비공개로 유지할 수 있는 더 이국적인 설정(보안 2자간 연산 또는 다중 키 FHE 등)이 있지만, 이는 훨씬 더 복잡합니다. 대조적으로, ZKP를 통한 zkML은 _모델 프라이버시_와 _데이터 프라이버시_를 동시에 보장할 수 있습니다. 증명자는 모델과 데이터를 모두 비밀 증인으로 가질 수 있으며, 검증자에게 필요한 것만 공개합니다.

온체인 검증 불필요(그리고 불가능): FHE를 사용하면 결과가 클라이언트에게 암호화되어 나옵니다. 그런 다음 클라이언트는 이를 해독하여 실제 예측을 얻습니다. 그 결과를 온체인에서 사용하려면 클라이언트(또는 해독 키를 가진 사람)가 평문 결과를 게시하고 다른 사람들에게 그것이 정확하다고 설득해야 합니다. 그러나 그 시점에서는 ZKP와 결합하지 않는 한 신뢰가 다시 개입됩니다. 원칙적으로 FHE와 ZKP를 결합할 수 있습니다. 예를 들어, 연산 중 데이터를 비공개로 유지하기 위해 FHE를 사용한 다음, 평문 결과가 올바른 연산에 해당한다는 ZK 증명을 생성합니다. 그러나 이들을 결합하면 FHE ZKP의 성능 페널티를 모두 지불해야 하므로 오늘날의 기술로는 매우 비실용적입니다. 따라서 실제로 FHE-of-ML과 zkML은 다른 사용 사례를 제공합니다.

  • FHE-of-ML: 목표가 _두 당사자(클라이언트와 서버) 간의 기밀성_일 때 이상적입니다. 예를 들어, 클라우드 서비스는 ML 모델을 호스팅하고 사용자는 클라우드에 데이터를 공개하지 않고 민감한 데이터로 쿼리할 수 있습니다(그리고 모델이 민감한 경우 FHE 친화적인 인코딩을 통해 배포할 수 있음). 이는 프라이버시 보존 ML 서비스(의료 예측 등)에 적합합니다. 사용자는 여전히 서비스가 모델을 충실히 실행할 것이라고 신뢰해야 하지만(증명이 없으므로), 적어도 모든 _데이터 유출_은 방지됩니다. Zama와 같은 일부 프로젝트는 스마트 계약이 암호화된 입력에 대해 작동할 수 있는 _"FHE 지원 EVM(fhEVM)"_을 탐색하고 있지만, 이러한 연산을 온체인에서 검증하려면 계약이 어떻게든 올바른 연산을 강제해야 하므로, ZK 증명이나 특수 보안 하드웨어가 필요한 미해결 과제입니다.
  • zkML (ZKPs): 목표가 _검증 가능성과 공개 감사 가능성_일 때 이상적입니다. 누구나(또는 어떤 계약이든) _"모델 $M$이 $X$에 대해 올바르게 평가되어 $Y$를 생성했다"_는 것을 확신하고 싶다면 ZKP가 해결책입니다. 또한 프라이버시를 보너스로 제공하지만(증명에 대한 개인 입력으로 처리하여 $X$, $Y$, $M$을 숨길 수 있음), 주요 기능은 올바른 실행의 증명입니다.

상호 보완적인 관계: ZKP는 _검증자_를 보호하고(비밀에 대해 아무것도 배우지 않고 연산이 올바르게 수행되었다는 것만 알게 됨), FHE는 연산 당사자로부터 _증명자_의 데이터를 보호한다는 점에 주목할 가치가 있습니다. 일부 시나리오에서는 이들을 결합할 수 있습니다. 예를 들어, 신뢰할 수 없는 노드 네트워크는 FHE를 사용하여 사용자의 개인 데이터에 대해 연산한 다음, 사용자(또는 블록체인)에게 연산이 프로토콜에 따라 수행되었다는 ZK 증명을 제공할 수 있습니다. 이는 프라이버시와 정확성을 모두 다루지만, 오늘날의 알고리즘으로는 성능 비용이 막대합니다. 가까운 미래에 더 실현 가능한 것은 신뢰 실행 환경(TEE) + ZKP 또는 _기능적 암호화 + ZKP_와 같은 하이브리드입니다. 이는 우리의 범위를 벗어나지만, 비슷한 것을 제공하는 것을 목표로 합니다(TEE는 연산 중 데이터/모델을 비밀로 유지한 다음, ZKP는 TEE가 올바른 일을 했다고 증명할 수 있음).

요약하면, FHE-of-ML은 입력/출력의 기밀성을 우선시하는 반면, zkML은 검증 가능한 정확성(가능한 프라이버시 포함)을 우선시합니다. 아래 표 1은 주요 속성을 대조합니다.

접근 방식증명자 성능 (추론 및 증명)증명 크기 및 검증프라이버시 기능신뢰 설정 필요 여부양자내성 여부
zk-SNARK (Halo2, Groth16, PLONK 등)무거운 증명자 오버헤드 (최적화 없이는 일반 런타임의 최대 10^6배, 실제로는 10^3–10^5배). 특정 모델/회로에 최적화됨. 중간 크기 모델은 증명에 수 분, 큰 모델은 수 시간이 걸림. 최근 zkML SNARK(GKR을 사용한 DeepProve)는 이를 크게 개선함 (거의 선형적인 오버헤드, 예: 백만 매개변수 모델에 대해 분 대신 초).매우 작은 증명 (종종 100 KB 미만, 때로는 ~수 KB). 검증은 빠름: 몇 번의 페어링 또는 다항식 평가 (일반적으로 온체인에서 50 ms 미만). DeepProve의 GKR 기반 증명은 더 크고(수십–수백 KB) ~0.5초 만에 검증됨 (여전히 모델 재실행보다 훨씬 빠름).데이터 기밀성: 예 – 입력은 증명에서 비공개일 수 있음 (공개되지 않음). 모델 프라이버시: 예 – 증명자는 모델 가중치에 커밋하고 공개하지 않을 수 있음. 출력 숨기기: 선택 사항 – 증명은 출력을 공개하지 않고 명제에 대한 것일 수 있음 (예: "출력은 속성 P를 가짐"). 그러나 출력이 온체인에서 필요한 경우 일반적으로 공개됨. 전반적으로 SNARK는 완전한 영지식 유연성을 제공함 (원하는 부분을 숨길 수 있음).스킴에 따라 다름. Groth16/EZKL은 회로당 신뢰 설정이 필요함. PLONK/Halo2는 범용 설정(일회성)을 사용함. DeepProve의 합계 검사 GKR은 투명함 (설정 없음) – 그 설계의 보너스.고전적인 SNARK(BLS12-381 곡선)는 양자내성 안전하지 않음 (타원 곡선 이산 로그에 대한 양자 공격에 취약함). 일부 최신 SNARK는 양자내성 안전한 커밋을 사용하지만, Ezkl에서 사용되는 Halo2/PLONK는 양자내성 안전하지 않음. GKR(DeepProve)은 해시 커밋(예: Poseidon/Merkle)을 사용하며, 이는 양자내성 안전하다고 추정됨 (해시 프리이미지 저항성에 의존).
zk-STARK (FRI, 해시 기반 증명)증명자 오버헤드는 높지만 더 선형적인 확장성. 일반적으로 큰 작업에 대해 네이티브보다 10^2–10^4배 느리며, 병렬화의 여지가 있음. 일반 STARK VM(Risc0, Cairo)은 2024년 ML에 대해 SNARK보다 느린 성능을 보임 (예: 일부 경우 Halo2보다 3배–66배 느림). 특화된 STARK(또는 GKR)는 선형 오버헤드에 근접하고 큰 회로에 대해 SNARK를 능가할 수 있음.증명은 더 큼: 종종 수십 KB (회로 크기/log(n)에 따라 증가). 검증자는 여러 해시 및 FFT 검사를 해야 함 – 검증 시간 ~O(n^ε) (작은 ε에 대해, 예: 증명 크기에 따라 ~50 ms에서 500 ms). 온체인에서는 더 비쌈 (StarkWare의 L1 검증기는 증명당 수백만 가스가 들 수 있음). 일부 STARK는 증명자 시간을 희생하여 크기를 압축하기 위해 재귀적 증명을 지원함.데이터 및 모델 프라이버시: STARK는 추적 데이터를 무작위화하여(다항식 평가에 블라인딩 추가) 영지식으로 만들 수 있으므로, SNARK와 유사하게 개인 입력을 숨길 수 있음. 많은 STARK 구현은 무결성에 초점을 맞추지만, zk-STARK 변형은 프라이버시를 허용함. 따라서 예, SNARK처럼 입력/모델을 숨길 수 있음. 출력 숨기기: 이론적으로 마찬가지로 가능함 (증명자가 출력을 공개로 선언하지 않음), 그러나 일반적으로 출력이 우리가 공개/검증하려는 것이기 때문에 거의 사용되지 않음.신뢰 설정 없음. 투명성은 STARK의 특징 – 공통 무작위 문자열만 필요함 (Fiat-Shamir가 파생할 수 있음). 이는 개방형 사용(모든 모델, 언제든지, 모델별 의식 없음)에 매력적임.예, STARK는 해시 및 정보 이론적 보안 가정(랜덤 오라클 및 FRI에서 특정 코드워드 디코딩의 어려움 등)에 의존함. 이는 양자 적에 대해 안전하다고 믿어짐. 따라서 STARK 증명은 양자내성이 있어, 검증 가능한 AI를 미래에 대비하는 데 이점이 있음.
ML을 위한 FHE (추론에 적용된 완전 동형 암호)증명자 = 암호화된 데이터에 대해 연산을 수행하는 당사자. 연산 시간은 매우 높음: 평문 추론보다 10^3–10^5배 느린 것이 일반적임. 고급 하드웨어(다중 코어 서버, FPGA 등)가 이를 완화할 수 있음. 일부 최적화(저정밀도 추론, 레벨링된 FHE 매개변수)는 오버헤드를 줄일 수 있지만 근본적인 성능 저하가 있음. FHE는 현재 작은 모델이나 간단한 선형 모델에 실용적임. 딥 네트워크는 장난감 크기를 넘어서는 것이 여전히 어려움.증명이 생성되지 않음. 결과는 암호화된 출력임. 정확성을 확인하는 의미의 검증은 FHE 단독으로는 제공되지 않음 – 연산 당사자가 속이지 않을 것이라고 신뢰해야 함. (보안 하드웨어와 결합하면 증명을 얻을 수 있지만, 그렇지 않으면 악의적인 서버가 클라이언트가 차이를 모른 채 잘못된 출력으로 해독할 수 있는 잘못된 암호화된 결과를 반환할 수 있음).데이터 기밀성: 예 – 입력이 암호화되어 있으므로 연산 당사자는 그것에 대해 아무것도 알 수 없음. 모델 프라이버시: 모델 소유자가 암호화된 입력에 대해 연산을 수행하는 경우, 모델은 그들의 측에서 평문임 (보호되지 않음). 역할이 반대인 경우(클라이언트가 모델을 암호화하여 보유하고 서버가 연산), 모델은 암호화된 상태로 유지될 수 있지만, 이 시나리오는 덜 일반적임. FHE/MPC를 결합하여 둘 다 보호하는 보안 2자간 ML과 같은 기술이 있지만, 이는 일반 FHE를 넘어섬. 출력 숨기기: 기본적으로 연산의 출력은 암호화됨 (비밀 키를 가진 당사자, 보통 입력 소유자만 해독 가능). 따라서 출력은 연산 서버로부터 숨겨짐. 출력을 공개하고 싶다면 클라이언트가 해독하고 공개할 수 있음.설정이 필요 없음. 각 사용자는 암호화를 위해 자신의 키 쌍을 생성함. 신뢰는 키가 비밀로 유지되는 것에 의존함.FHE 스킴(예: BFV, CKKS, TFHE)의 보안은 격자 문제(오류를 사용한 학습)에 기반하며, 이는 양자 공격에 저항성이 있다고 믿어짐 (적어도 효율적인 양자 알고리즘은 알려져 있지 않음). 따라서 FHE는 일반적으로 양자내성 보안으로 간주됨.

표 1: 머신러닝 추론을 위한 zk-SNARK, zk-STARK, FHE 접근 방식 비교 (성능 및 프라이버시 트레이드오프).

Web3 애플리케이션을 위한 사용 사례 및 시사점

zkML을 통한 AI와 블록체인의 융합은 Web3에서 강력한 새로운 애플리케이션 패턴을 열어줍니다.

  • 탈중앙화 자율 에이전트 및 온체인 의사 결정: 스마트 계약이나 DAO는 정확성을 보장받으며 AI 기반 결정을 통합할 수 있습니다. 예를 들어, 거래를 실행하기 전에 시장 상황을 분석하기 위해 신경망을 사용하는 DAO를 상상해 보세요. zkML을 사용하면 DAO의 스마트 계약은 조치가 수락되기 전에 승인된 ML 모델(알려진 해시 커밋 포함)이 최신 데이터에 대해 실행되어 권장 조치를 생성했다는 zkSNARK 증명을 요구할 수 있습니다. 이는 악의적인 행위자가 가짜 예측을 주입하는 것을 방지합니다. 체인은 _AI의 연산을 검증_합니다. 시간이 지남에 따라, DeFi나 게임에서 결정을 내리는 완전한 온체인 자율 에이전트(오프체인 AI를 쿼리하거나 단순화된 모델을 포함하는 계약)가 있을 수 있으며, 모든 움직임은 zk 증명을 통해 정확하고 정책을 준수함이 증명됩니다. 이는 자율 에이전트의 "사고"가 블랙박스가 아닌 투명하고 검증 가능하기 때문에 신뢰를 높입니다.

  • 검증 가능한 연산 시장: Lagrange와 같은 프로젝트는 효과적으로 검증 가능한 연산 마켓플레이스를 만들고 있습니다. 개발자는 무거운 ML 추론을 증명자 네트워크에 아웃소싱하고 결과와 함께 증명을 받을 수 있습니다. 이는 탈중앙화 클라우드 컴퓨팅과 유사하지만, 신뢰가 내장되어 있습니다. 서버를 신뢰할 필요 없이 증명만 신뢰하면 됩니다. 이는 오라클과 오프체인 연산에 대한 패러다임 전환입니다. 이더리움의 곧 출시될 DSC(탈중앙화 시퀀싱 레이어)나 오라클 네트워크와 같은 프로토콜은 이를 사용하여 암호학적 보증이 있는 데이터 피드나 분석 피드를 제공할 수 있습니다. 예를 들어, 오라클은 "입력 Y에 대한 모델 X의 결과"를 제공하고 누구나 오라클의 말을 신뢰하는 대신 온체인에서 첨부된 증명을 검증할 수 있습니다. 이는 블록체인에서 _검증 가능한 AI-as-a-Service_를 가능하게 할 수 있습니다. 모든 계약은 연산("내 개인 모델로 이 신용 위험을 평가하라")을 요청하고 유효한 증명이 있는 경우에만 답변을 수락할 수 있습니다. Gensyn과 같은 프로젝트는 이러한 검증 기술을 사용하여 탈중앙화된 훈련 및 추론 마켓플레이스를 탐색하고 있습니다.

  • NFT 및 게임 – 출처 및 진화: 블록체인 게임이나 NFT 수집품에서 zkML은 특성이나 게임 움직임이 합법적인 AI 모델에 의해 생성되었음을 증명할 수 있습니다. 예를 들어, 게임에서 AI가 NFT 펫의 속성을 진화시킬 수 있습니다. ZK가 없으면 영리한 사용자가 AI나 결과를 수정하여 우월한 펫을 얻을 수 있습니다. zkML을 사용하면 게임은 _"펫의 새로운 능력치가 펫의 이전 능력치에 대해 공식 진화 모델에 의해 계산되었다"_는 증명을 요구하여 부정행위를 방지할 수 있습니다. 생성 예술 NFT도 마찬가지입니다. 작가는 생성 모델을 커밋으로 공개할 수 있습니다. 나중에 NFT를 민팅할 때, 각 이미지가 특정 시드에 대해 해당 모델에 의해 생성되었음을 증명하여 진위성을 보장할 수 있습니다(심지어 정확한 모델을 대중에게 공개하지 않고 작가의 IP를 보존하면서도). 이 _출처 검증_은 검증 가능한 무작위성과 유사한 방식으로 진위성을 보장합니다. 단, 여기서는 검증 가능한 창의성입니다.

  • 민감한 영역에서의 프라이버시 보존 AI: zkML은 입력을 노출하지 않고 결과를 확인할 수 있게 합니다. 의료 분야에서 환자의 데이터는 클라우드 제공업체에 의해 AI 진단 모델을 통해 실행될 수 있습니다. 병원은 진단과 함께 _모델(제약 회사가 비공개로 보유할 수 있음)이 환자 데이터에 대해 올바르게 실행되었다_는 증명을 받습니다. 환자 데이터는 비공개로 유지되고(증명에는 암호화되거나 커밋된 형태만 사용됨), 모델 가중치는 독점적으로 유지되지만 결과는 신뢰할 수 있습니다. 규제 기관이나 보험사도 승인된 모델만 사용되었는지 확인할 수 있습니다. 금융 분야에서 회사는 감사인이나 규제 기관에게 _위험 모델이 내부 데이터에 적용되어 특정 지표를 생성했다_고 증명하면서 민감한 기본 금융 데이터를 공개하지 않을 수 있습니다. 이는 수동적인 신뢰 대신 암호학적 보증으로 규정 준수 및 감독을 가능하게 합니다.

  • 크로스체인 및 오프체인 상호운용성: 영지식 증명은 근본적으로 이식 가능하기 때문에, zkML은 크로스체인 AI 결과를 촉진할 수 있습니다. 한 체인은 오프체인에서 실행되는 AI 집약적인 애플리케이션을 가질 수 있습니다. 결과의 증명을 다른 블록체인에 게시하면, 그 블록체인은 신뢰 없이 이를 수락할 것입니다. 예를 들어, 소셜 미디어 전반의 감성을 집계하기 위해 AI를 사용하는 다중 체인 DAO를 생각해 보세요. AI 분석(대규모 데이터에 대한 복잡한 NLP)은 오프체인에서 서비스에 의해 수행된 다음, _"분석이 올바르게 수행되었고 출력 감성 점수 = 0.85"_라는 증명을 작은 블록체인(또는 여러 체인)에 게시합니다. 모든 체인은 각자 분석을 다시 실행할 필요 없이 해당 결과를 검증하고 거버넌스 로직에 사용할 수 있습니다. 이러한 종류의 상호운용 가능한 검증 가능한 연산은 Lagrange의 네트워크가 여러 롤업이나 L1을 동시에 서비스함으로써 지원하고자 하는 것입니다. 이는 체인 간에 결과를 이동할 때 신뢰할 수 있는 브리지나 오라클 가정이 필요 없게 만듭니다.

  • AI 정렬 및 거버넌스: 더 미래 지향적인 관점에서, zkML은 _AI 거버넌스 및 안전_을 위한 도구로 강조되었습니다. 예를 들어, Lagrange의 비전 선언문은 AI 시스템이 더 강력해짐에 따라(심지어 초지능적으로), 합의된 규칙을 따르도록 보장하기 위해 암호학적 검증이 필수적일 것이라고 주장합니다. AI 모델이 자신의 추론이나 제약 조건에 대한 증명을 생성하도록 요구함으로써, 인간은 어느 정도의 통제력을 유지합니다. "검증할 수 없는 것은 신뢰할 수 없다". 이는 기술적인 측면뿐만 아니라 사회적인 측면도 포함하는 추측이지만, 이 기술은 자율적으로 실행되는 AI 에이전트가 여전히 승인된 모델을 사용하고 있으며 조작되지 않았음을 증명하도록 강제할 수 있습니다. 탈중앙화 AI 네트워크는 온체인 증명을 사용하여 기여를 검증할 수 있습니다(예: 모델을 협력적으로 훈련하는 노드 네트워크는 각 업데이트가 충실하게 계산되었음을 증명할 수 있음). 따라서 zkML은 _AI 시스템이 탈중앙화되거나 통제되지 않는 환경에서도 인간이 정의한 프로토콜에 대해 책임지도록 보장_하는 데 역할을 할 수 있습니다.

결론적으로, zkML과 검증 가능한 온체인 AI는 AI 애플리케이션의 신뢰, 투명성, 프라이버시를 향상시킬 고급 암호학과 머신러닝의 융합을 나타냅니다. 주요 접근 방식인 zk-SNARK, zk-STARK, FHE를 비교함으로써, 우리는 성능과 프라이버시 사이의 다양한 트레이드오프 스펙트럼을 볼 수 있으며, 각각 다른 시나리오에 적합합니다. Ezkl과 같은 SNARK 기반 프레임워크와 Lagrange의 DeepProve와 같은 혁신은 상당한 신경망 추론을 실용적인 노력으로 증명하는 것을 가능하게 하여, 검증 가능한 AI의 실제 배포의 문을 열었습니다. STARK 기반 및 VM 기반 접근 방식은 더 큰 유연성과 양자내성 보안을 약속하며, 이는 분야가 성숙함에 따라 중요해질 것입니다. FHE는 검증 가능성에 대한 해결책은 아니지만, 기밀 ML 연산의 상호 보완적인 요구를 해결하며, ZKP와 결합하거나 특정 개인적인 맥락에서 사용자가 데이터 프라이버시를 희생하지 않고 AI를 활용할 수 있도록 힘을 실어줄 수 있습니다.

Web3에 대한 시사점은 중요합니다. 우리는 AI 예측에 반응하는 스마트 계약이 정확하다는 것을 알게 되고, 결과가 신뢰 없이 판매되는 연산 시장, zkML에 의해 보호되어 생체 이미지 유출 없이 인간임을 확인하는 디지털 신원(Worldcoin의 홍채 AI를 통한 개인 증명 등), 그리고 일반적으로 블록체인 애플리케이션을 풍부하게 하는 새로운 종류의 _"증명 가능한 지능"_을 예견할 수 있습니다. 매우 큰 모델에 대한 성능, 개발자 인체 공학, 특수 하드웨어의 필요성 등 많은 과제가 남아 있지만, 궤적은 분명합니다. 한 보고서에서 언급했듯이, "오늘날의 ZKP는 작은 모델을 지원할 수 있지만, 중간에서 큰 모델은 패러다임을 깨뜨립니다." 그러나 빠른 발전(DeepProve로 이전 기술보다 50배–150배 속도 향상)이 그 경계를 넓히고 있습니다. 지속적인 연구(예: 하드웨어 가속 및 분산 증명)를 통해, 점진적으로 더 크고 복잡한 AI 모델이 증명 가능해질 것으로 기대할 수 있습니다. zkML은 곧 틈새 데모에서 신뢰할 수 있는 AI 인프라의 필수 구성 요소로 진화하여, AI가 보편화됨에 따라 감사 가능하고, 탈중앙화되며, 사용자 프라이버시 및 보안과 일치하는 방식으로 그렇게 되도록 보장할 수 있습니다.