Grass 프로토콜: 850만 노드가 AI의 500억 달러 데이터 위기를 해결하는 방법
인공지능에는 불편한 비밀이 있다. 인터넷이 성장하는 속도보다 AI가 인터넷을 소비하는 속도가 훨씬 빠르다는 것이다. Epoch AI 연구진은 80%의 확신으로 고품질 인간 생성 학습 데이터가 2026년에서 2028년 사이에 고갈될 것이라고 경고한다. 한편, 세계 상위 1,000개 웹사이트 중 35% 이상이 현재 OpenAI의 웹 스크래퍼를 적극적으로 차단하고 있으며, 고품질 데이터 소스의 25%가 프론티어 모델을 구동하는 주요 학습 데이터셋에서 제한되었다. 컴퓨팅에만 수천억 달러를 집단적으로 지출하는 세계 최대 AI 기업들은 5년 전이라면 터무니없어 보였을 가격으로 출판사, 뉴스 기관, 소셜 플랫폼으로부터 콘텐츠 라이선스를 확보하기 위해 안간힘을 쓰고 있다.
Grass 프로토콜은 더 나은 해답을 찾았다고 확신하고 있다. Solana 위에 소버린 데이터 롤업으로 구축된 Grass는 페타바이트 규모로 공개 웹 데이터를 수집하고 이를 검증된 구조화 AI 학습 데이터셋으로 변환하는 850만 개의 월간 활성 노드로 구성된 글로벌 네트워크를 구축했다. 이 네트워크는 합성 데이터가 아닌 실제 데이터를 구매하는 AI 기업들로부터 이미 분기 매출 1,280만 달러를 돌파했으며, Polychain Capital, Tribe Capital, Hack VC 등의 투자자들로부터 약 10억 달러의 기업 가치를 인정받았다.
AI 기업들이 공개적으로 말하지 않는 위기
Grass가 왜 중요한지 이해하려면, 먼저 데이터 문제의 심각성을 이해해야 한다.
OpenAI가 GPT-4를, Anthropic이 Claude를, Google이 Gemini를 학습시켰을 때, 이들은 인터넷이 지금까지 생산한 공개적으로 이용 가능한 고품질 텍스트의 대부분을 집단적으로 흡수했다. 웹은 동일한 품질 기준에서 차세대 모델을 학습시킬 만큼 빠르게 재생되지 않는다. Epoch AI의 연구에 따르면 현재 소비 속도로는 인터넷 텍스트 중 실제로 모델 성능을 향상시키는 유용한 부분이 이번 10년 안에 사실상 고갈될 것이라고 한다.
주요 AI 연구소들은 각각 심각한 단점을 가진 세 가지 방식으로 대응하고 있다.
첫 번째 접근법은 라이선싱이다. News Corp은 OpenAI와 2억 5천만 달러 이상의 5년 계약을 체결했다. Reddit은 주요 AI 연구소들의 API 접근에 연간 2억 3백만 달러를 요구한다고 알려져 있다. 이러한 계약들은 고품질 콘텐츠에 대한 접근을 보장하지만, 막대한 비용이 들고 AI의 데이터 공급망을 소수의 대형 미디어 및 플랫폼 게이트키퍼들의 손에 집중시킨다.
두 번째 접근법은 합성 데이터다. AI 모델 자체를 사용해 학습 예제를 생성하는 방식이다. 문제는 학술 문헌에 잘 기록되어 있다. AI 생성 콘텐츠로 연속적인 세대의 모델을 학습시키면 "모델 붕괴"를 일으키는데, 이는 출력물이 점점 더 일반적이고 환각적이며 실제와 동떨어지게 되는 퇴화 악순환이다. 모델에게 자신의 반영물을 먹임으로써 실세계 지식을 부트스트랩할 수는 없다.
세 번째 접근법, 즉 Grass가 개척하고 있는 방법은 주거용 IP 규모의 분산형 웹 스크래핑이다. 이는 중앙화된 스크래퍼가 해결할 수 없는 특정 기술적 문제를 해결한다.
주거용 IP가 모든 것을 바꾸는 이유
대형 AI 연구소들이 웹을 스크래핑하려 할 때, 그들의 데이터 센터는 차단당한다. 웹사이트들은 데이터센터 IP 대역을 인식하고 CAPTCHA, 봇 차단, 또는 완전한 거부로 응답한다. 주요 웹사이트의 3분의 1 이상이 이제 알려진 AI 스크래퍼 주소를 특정해서 차단한다. 통과되는 데이터는 점점 더 불완전해지고, 차단을 신경 쓰지 않는 사이트에 편향되며, 현대 웹 데이터를 가치 있게 만드는 동적이고 개인화된 콘텐츠가 빠진다.
Grass의 노드는 실제 주거용 IP 주소를 가진 실제 사용자 기기에서 가벼운 브라우저 확장 프로그램으로 실행된다. 웹사이트의 관점에서 Grass의 트래픽은 일반 사람이 브라우징하는 것과 구분할 수 없다. 이는 Grass가 보안 조치를 우회하기 때문이 아니라, 분산된 인간 브라우징 활동을 진정으로 대표하기 때문에 데이터센터 스크래퍼가 접근할 수 없는 웹의 일부에 도달할 수 있다는 것을 의미한다.
그 결과는 근본적으로 다른 데이터셋이다. Grass 노드들은 190개국에 걸쳐 하루에 약 1페타바이트의 웹 데이터를 집단적으로 처리하며, 현지 언어의 콘텐츠, 지역 도메인, 그리고 미국 기반 중앙화 스크래핑 작업은 결코 볼 수 없는 지리적 제한 뒤의 콘텐츠에 접근한다. 다국어 모델을 학습시키거나 글로벌 시장을 위한 제품을 구축하는 AI 기업들에게 이 지리적 다양성은 있으면 좋은 기능이 아니라 필수적인 역량이다.
네트워크가 실제로 작동하는 방식
Grass 노드 운영자는 확장 프로그램을 설치하고 사용하지 않는 대역폭을 공유한다. Wynd Labs의 인프라는 이 노드들을 통해 스크래핑 작업을 라우팅하여 원시 웹 콘텐츠를 수집한다. 여기서 Web3 아키텍처가 기술적으로 중요해진다. 수집된 것과 그 정확성을 중앙 서버에 신뢰를 맡기는 대신, Grass는 영지식 증명을 사용해 각 노드가 무엇을, 언제, 어디서 스크래핑했는지를 암호학적으로 증명한다.
이 출처 레이어는 원시 스크래핑 데이터를 AI 기업들이 실제로 신뢰할 수 있는 것으로 변환한다. Grass 마켓플레이스를 통해 판매되는 모든 데이터셋은 그 출처에 대한 온체인 기록을 가지고 있다. 이는 전 세계적으로 AI 규제가 강화됨에 따라 상업적으로 중 요해지는 기능이다. 유럽 AI 법, 개발 중인 미국 AI 법안, 새롭게 등장하는 저작권 프레임워크 모두 학습 데이터 출처에 대한 법적 책임 압박을 만들고 있다. 증명 가능하고 감사 가능한 데이터 출처는 좋은 기능에서 법적 요구사항으로 빠르게 이동하고 있다.
2025년 2월 Sion 업그레이드는 Grass의 기능을 텍스트에서 완전한 멀티모달 데이터로 확장했다. 이 업데이트는 이미지와 4K 비디오를 위한 처리 파이프라인을 도입하고, 데이터 처리량을 10배 늘렸으며, 일일 수집량을 안정화 전 1,700TB의 사상 최고치까지 잠시 끌어올렸다. 비전 모델, 비디오 이해 시스템, 멀티모달 어시스턴트를 구축하는 AI 기업들에게 Grass는 실세계의 지리적으로 다양한 시각적 학습 데이터의 희귀한 소스로 자리매김하고 있다.
비즈니스 모델: 실제 고객으로부터의 실제 매출
Grass의 제품-시장 적합성에 대한 가장 신뢰할 수 있는 신호 중 하나는 매출 궤적이다. 대부분의 프로젝트들이 순전히 토큰 발행과 투기적 가치평가로 살아남는 DePIN 섹터에서, Grass는 2025년 4분기 약 1,280만 달러의 매출을 보고했으며, 10월과 11월 두 달만으로 1천만 달러 이상을 창출했다. AI 기업들은 이 데이터에 실제 돈을 지불하고 있다.
GRASS 토큰은 네트워크의 경제적 설계의 중심에 있다. 노드 운영자들은 데이터 기여에 대해 GRASS를 획득한다. AI 기업들은 데이터셋 접근을 구매하기 위해 GRASS(또는 동등한 가치)로 지불한다. 토큰 거버넌스는 커뮤니티가 네트워크 개발 우선순위를 결정할 수 있게 한다. 총 공급량 10억 개와 현재 2억 4천만 개가 유통 중인 상황에서, 토크노믹스는 데이터 수요 성장과 네트워크 가치 사이에 직접적인 연결고리를 만든다. 이는 실제 제품 사용에 깔끔하게 매핑되는 토큰 유용성의 드문 사례다.
Grass를 약 10억 달러로 평가하는 시리즈 A를 주도한 Hack VC는 Grass가 Bloomberg가 금융 데이터를 위해 구축한 것과 유사한 인프라를 구축하고 있다고 주장하는 상세한 투자 논리를 발표했다. 단, 분산화되고, 무허가적이며, 가치를 창출하는 참여자들이 소유한다는 차이가 있다. 이 비교는 도발적이지만 터무니없지 않다. Bloomberg의 터미널은 금융 데이터를 접근 가능하고 신뢰할 수 있게 만들어 연간 60억 달러 이상의 매출을 창출한다. AI 학습 데이터는 유사하거나 더 큰 규모의 시장을 대표할 수 있다.
분산형 데이터 스택에서의 경쟁적 위치
Grass는 더 넓은 분산형 AI 인프라 프로젝트 생태계에서 경쟁하지만, 독특한 니치를 점유한다.
가장 오래 확립된 분산형 데이터 마켓플레이스인 Ocean Protocol은 데이터 소유자들이 이미 보유한 데이터셋 — 기업 데이터셋, 연구 저장소, 개인 센서 네트워크 — 을 "Compute-to-Data" 아키텍처를 통해 수익화할 수 있게 하는 데 집중한다. Ocean은 Fetch.ai 및 SingularityNET과 함께 ASI 생태계의 일부로, 신선한 웹 데이터 수집보다 프라이버시 보존 컴퓨팅을 강조한다.
Render Network는 완전히 다른 병목 지점을 다룬다. 데이터 획득이 아닌 렌더링과 AI 추론을 위한 GPU 컴퓨팅이다. 2026년 1월 한 달에만 3,800만 달러의 매출을 올린 Render는 분산형 컴퓨팅에 대한 막대한 수요를 보여주지만, Grass가 운영하는 위치보다 하류의 처리 문제를 해결하고 있다.
Grass가 독보적으로 제공하는 것은 대규모 IP 인프라 투자 없이는 어떤 중앙화된 경쟁자도 따라올 수 없는 규모와 지리적 범위에서의 신선하고 지속적인 실세계 웹 데이터 수집이다. 주거용 IP 접근, ZK 검증 출처, Sion 이후의 멀티모달 기능, Solana 네이티브 결제의 조합은 처음부터 복제하기 어려운 스택을 만든다.
이해해야 할 리스크
Grass에는 진정한 리스크가 없지 않다. 대규모 웹 스크래핑을 둘러싼 법적 환경은 여전히 논쟁 중이다. 여러 주요 출판사들이 허가 없이 콘텐츠를 스크래핑한 AI 기업들을 상대로 소송을 제기했다. AI 연구소들이 공개 웹 콘텐츠에 더 효율적으로 접근하도록 돕고 있다는 Grass의 입장은 중앙화된 스크래퍼와 동일한 법적 질문에 직면하며, 분산되고 주거용 IP 아키텍처가 기본 콘텐츠에 대한 저작권 문제를 자동으로 해결하지는 않는다.
경쟁적 해자는 실재하지만 무적은 아니다. 충분한 자본력을 갖춘 경쟁자가 경쟁 토큰을 통해 사용자를 인센티브화함으로써 유사한 주거용 네트워크를 구축할 수 있다. Grass는 850만 노드라는 선발 우위를 갖고 있지만, 대역폭 공유 네트워크에서의 네트워크 효과는 소셜 플랫폼이나 금융 시장보다 약하다. 사용자들은 여러 대역폭 공유 도구를 동시에 쉽게 실행할 수 있다.
토큰 가격 변동성도 노드 운영자 유지 위험을 만든다. GRASS 토큰 가치가 크게 하락하면, 노드 운영의 경제적 인센티브가 약해져 기업 데이터 계약을 이행하기 위해 규모가 필요한 바로 그 때 네트워크가 축소될 수 있다. 1천만 달러의 브리지 라운드와 AI 기업 고객으로부터의 매출은 순수 토큰 발행을 넘어 네트워크 보상을 유지하는 실제 현금 흐름을 제공하며, 이는 대부분의 DePIN 프로젝트와 비교해 이 리스크를 의미 있게 줄인다.
성공의 모습
2026년 Grass의 로드맵에는 모바일 확장(사용되지 않는 모바일 대역폭을 활용하는 Android 및 iOS 앱), 학습 데이터뿐만 아니라 실시간 AI 추론을 위한 라이브 컨텍스트 검색, 그리고 네트워크가 수집한 4K 비디오, 오디오, 텍스트 콘텐츠 전반에 걸친 시맨틱 멀티모달 검색이 포함된다.
Grass가 로드맵을 달성한다면, 데이터 수집 네트워크에서 실시간 정보 레이어로 전환한다. 학습 자료 라이브러리와 AI 시스템이 지속적으로 쿼리할 수 있는 라이브 피드의 차이다. 그 제품은 배치 데이터셋 판매보다 의미 있게 더 방어 가능하고 더 가치 있다.
Grass의 더 깊은 논지는 AI의 데이터 공급망이 필연성이 아닌 우연에 의해 중앙화되었다는 것이다. 주요 AI 연구소들은 클라 우드 기업들이 컴퓨팅 인프라를 구축한 것과 같은 방식으로 학습 인프라를 구축했다. 대규모로, 자체 시설에서, 자체 통제 하에. 그러나 컴퓨팅과 달리, 데이터는 모든 곳에서, 모든 사람에 의해 생성된다. 그 생성을 공유되고 검증 가능하며 보상받는 파이프라인으로 전환하는 분산형 네트워크는 이 문제에 대한 더 자연스러운 경제 구조일 수 있다.
네트워크에 이미 850만 명의 참여자가 있고, 실제 AI 고객으로부터의 분기 매출 1,280만 달러가 있으며, 시장을 이해하는 기관 투자자들이 지지하는 10억 달러 가치 평가를 받은 Grass는 "흥미로운 실험" 단계를 훨씬 벗어났다. Grass가 AI 학습 데이터의 Bloomberg가 될지 여부는 규제 허용도, 경쟁 역학, 그리고 데이터 희소성 위기가 연구자들의 예측만큼 빠르게 심화되는지에 달려 있다.
현명한 베팅은 그렇게 될 것이라는 쪽이다.
BlockEden.xyz는 네트워크에서 가장 빠르게 성장하는 애플리케이션을 구축하는 개발자들을 위한 기업급 Solana RPC 및 API 인프라를 제공합니다. AI 인접 Web3 제품을 구축하거나 Solana의 데이터 레이어에 대한 안정적인 접근이 필요하다면, API 마켓플레이스를 탐색해보세요.