Grass Protocol:850万节点如何破解AI的500亿美元数据危机
人工智能有一个不为人知的秘密:它消耗互联网数据的速度,已经超过了互联网自身的增长速度。Epoch AI的研究人员以80%的置信度警告称,高质量人类生成的训练数据将在2026至2028年间耗尽。与此同时,全球前1000大网站中,已有超过35%主动屏蔽了OpenAI的网络爬虫,而25%的高质量数据来源已从驱动前沿模型的主要训练数据集中被限制访问。全球最大的AI公司——合计在算力上投入数千亿美元——正在争先恐后地以五年前看来荒诞不经的价格,向出版商、新闻机构和社交平台购买内容授权。
Grass Protocol坚信自己找到了一条更好的出路。作为构建在Solana上的主权数据汇总网络,Grass已汇聚起由850万月活节点组成的全球网络,以PB级规模采集公共网络数据,并将其转化为经过验证的结构化AI训练数据集。该网络来自AI公司购买真实数据(而非合成替代品)的季度营收已突破1280万美元,并获得了Polychain Capital、Tribe Capital和Hack VC等投资方约10亿美元的估值背书。
AI公司不愿公开谈论的危机
要理解Grass为何重要,首先需要认清数据问题的严峻程度。
当OpenAI训练GPT-4、Anthropic训练Claude、谷歌训练Gemini时,它们合计消化了互联网上几乎所有公开可用的高质量文本。网络数据的再生速度根本无法满足下一代模型对同等质量数据的需求。Epoch AI的研究表明,按当前的消耗速度,互联网文本中真正能提升模型能力的有效部分,将在本十年内基本耗尽。
主要AI实验室正以三种方式应对这一危机,但每种方式都存在严重缺陷。
第一种是版权授权。新闻集团与OpenAI签署了一项价值超过2.5亿美元的五年协议。Reddit据报道每年向各大AI实验室收取2.03亿美元的API访问费用。尽管这些协议能保障高质量内容的获取,但代价极为高昂,且将AI的数据供应链集中在少数大型媒体和平台守门人手中。
第二种是合成数据——用AI模型自身生成训练样本。学术文献对这一问题已有充分记录:用AI生成的内容训练一代又一代的模型,会导致"模型坍塌",即输出结果逐渐趋于泛化、幻觉频发、与现实脱节的恶性循环。用模型自身的"镜像"来喂养模型,根本无法积累真实世界的知识。
第三种——也是Grass正在开创的路径——是在住宅IP规模上进行去中心化网络爬取。它解决了中心化爬虫无法克服的特定技术难题。
为何住宅IP改变了一切
当 大型AI实验室尝试爬取网络时,它们的数据中心往往遭到封锁。网站能识别数据中心IP段,并以验证码、机器人挑战或直接拒绝访问来应对。如今,超过三分之一的主要网站专门针对并封锁已知的AI爬虫地址。得以通过的数据愈发残缺不全,偏向于那些不设防的网站,同时缺失了使现代网络数据真正有价值的动态个性化内容。
Grass的节点以轻量级浏览器扩展的形式运行在真实用户的设备上,使用真实的住宅IP地址。从网站的视角来看,Grass的流量与普通用户的浏览行为毫无二致。这意味着Grass能够触达数据中心爬虫无法企及的网络角落——不是因为它绕过了安全措施,而是因为它本质上代表的是分布式的真实人类浏览行为。
这带来了一个在根本上截然不同的数据集。Grass节点每天在190个国家合计处理约1PB的网络数据,触及本地语言内容、地区性域名,以及地理限制背后的内容——这些都是美国中心化爬虫作业永远无缘见到的。对于训练多语言模型或为全球市场构建产品的AI公司而言,这种地理多样性不是锦上添花,而是能力的前提条件。
网络究竟如何运转
Grass节点运营者安装扩展程序并共享闲置带宽。Wynd Labs的基础设施将爬取任务路由至这些节点,采集原始网络内容。Web3架构的技术意义正体现于此:Grass不依赖中央服务器来汇报采集内容并核实准确性,而是使用零知识证明,对每个节点爬取的内容、时间和来源进行密码学层面的认证。
这一数据溯源层将原始爬取数据转化为AI公司真正可以信任的东西。通过Grass市场出售的每个数据集都在链上记录了其来源——随着全球AI监管趋严,这一能力的商业价值愈发凸显。欧盟《人工智能法案》、美国正在推进的AI立法以及新兴版权框架,都对训练数据来源施加了法律责任压力。可证明、可审计的数据溯源,正在迅速从加分项转变为法律要求。
2025年2月的Sion升级将Grass的能力从文本扩展至完整的多模态数据。此次更新引入了图像和4K视频处理管线,数据吞吐量提升了10倍,日采集量一度冲至1700TB的历史峰值,随后稳定在约每日1000TB。对于构建视觉模型、视频理解系统或多模态助手的AI公司而言,Grass成为了稀有的现实世界、地理多元视觉训练数据的重要来源。
商业模式:来自真实客户的真实营收
关于Grass产品市场契合度最有说服力的信号之一,是其营收走势。在DePIN领域,大多数项目纯粹依靠代币释放和投机估值维系运营,而Grass在2025年第四季度报告的营收约为1280万美元,仅10月和11月就产生了超过1000万美元的收入。AI公司正在为这些数据真金白银地买单。
GRASS代币处于网络经济设计的核心。节点运营者通过数据贡献赚取GRASS。AI公司以GRASS(或等值货币)购买数据集访问权限。代币治理机制允许社区主导网络开发优先级。总供应量为10亿枚,当前流通量为2.4亿枚,代币经济学在数据需求增长与网络价值之间建立了直接联系——这是代币实用性与真实产品使用高度匹配的罕见案例。
领投A轮、将Grass估值约10亿美元的Hack VC发布了详细的投资论文,认为Grass正在构建的基础设施类似于彭博社在金融数据领域所建立的体系——只不过是去中心化的、无需许可的、归创造价值的参与者所有的。这一类比颇为大胆,但并非没有依据:彭博终端每年凭借让金融数据触手可及且可靠可信,创造超过60亿美元的年收入。AI训练数据所代表的市场规模,或将与之相当,甚至有过之而无不及。
在去中心化数据栈中的竞争地位
Grass在更广泛的去中心化AI基础设施生态中竞争,但占据着独特的细分位置。
Ocean Protocol是最为成熟的去中心化数据市场,专注于通过"数据计算"架构,帮助数据所有者将已有数据集货币化——包括企业数据集、研究数据库和私有传感器网络。Ocean是ASI生态的一部分,与Fetch.ai和SingularityNET并列,侧重于隐私保护计算,而非新鲜网络数据的采集。
Render Network则针对完全不同的瓶颈:用于渲染和AI推理的GPU算力,而非数据获取。仅2026年1月,Render的营收就达到3800万美元,证明了去中心化算力的强劲需求,但它解决的是Grass运营领域下游的处理问题。
Grass的独特价值在于:以任何中心化竞争对手在不进行大规模IP基础设施投入的情况下都无法企及的规模和地理广度,持续采集新鲜的现实世界网络数据。住宅IP访问、ZK验证溯源、Sion升级后的多模态能力,以及Solana原生结算,共同构成了一套极难从零复制的技术栈。