跳到主要内容

Grass Protocol:850万节点如何破解AI的500亿美元数据危机

· 阅读需 11 分钟
Dora Noda
Software Engineer

人工智能有一个不为人知的秘密:它消耗互联网数据的速度,已经超过了互联网自身的增长速度。Epoch AI的研究人员以80%的置信度警告称,高质量人类生成的训练数据将在2026至2028年间耗尽。与此同时,全球前1000大网站中,已有超过35%主动屏蔽了OpenAI的网络爬虫,而25%的高质量数据来源已从驱动前沿模型的主要训练数据集中被限制访问。全球最大的AI公司——合计在算力上投入数千亿美元——正在争先恐后地以五年前看来荒诞不经的价格,向出版商、新闻机构和社交平台购买内容授权。

Grass Protocol坚信自己找到了一条更好的出路。作为构建在Solana上的主权数据汇总网络,Grass已汇聚起由850万月活节点组成的全球网络,以PB级规模采集公共网络数据,并将其转化为经过验证的结构化AI训练数据集。该网络来自AI公司购买真实数据(而非合成替代品)的季度营收已突破1280万美元,并获得了Polychain Capital、Tribe Capital和Hack VC等投资方约10亿美元的估值背书。

AI公司不愿公开谈论的危机

要理解Grass为何重要,首先需要认清数据问题的严峻程度。

当OpenAI训练GPT-4、Anthropic训练Claude、谷歌训练Gemini时,它们合计消化了互联网上几乎所有公开可用的高质量文本。网络数据的再生速度根本无法满足下一代模型对同等质量数据的需求。Epoch AI的研究表明,按当前的消耗速度,互联网文本中真正能提升模型能力的有效部分,将在本十年内基本耗尽。

主要AI实验室正以三种方式应对这一危机,但每种方式都存在严重缺陷。

第一种是版权授权。新闻集团与OpenAI签署了一项价值超过2.5亿美元的五年协议。Reddit据报道每年向各大AI实验室收取2.03亿美元的API访问费用。尽管这些协议能保障高质量内容的获取,但代价极为高昂,且将AI的数据供应链集中在少数大型媒体和平台守门人手中。

第二种是合成数据——用AI模型自身生成训练样本。学术文献对这一问题已有充分记录:用AI生成的内容训练一代又一代的模型,会导致"模型坍塌",即输出结果逐渐趋于泛化、幻觉频发、与现实脱节的恶性循环。用模型自身的"镜像"来喂养模型,根本无法积累真实世界的知识。

第三种——也是Grass正在开创的路径——是在住宅IP规模上进行去中心化网络爬取。它解决了中心化爬虫无法克服的特定技术难题。

为何住宅IP改变了一切

当大型AI实验室尝试爬取网络时,它们的数据中心往往遭到封锁。网站能识别数据中心IP段,并以验证码、机器人挑战或直接拒绝访问来应对。如今,超过三分之一的主要网站专门针对并封锁已知的AI爬虫地址。得以通过的数据愈发残缺不全,偏向于那些不设防的网站,同时缺失了使现代网络数据真正有价值的动态个性化内容。

Grass的节点以轻量级浏览器扩展的形式运行在真实用户的设备上,使用真实的住宅IP地址。从网站的视角来看,Grass的流量与普通用户的浏览行为毫无二致。这意味着Grass能够触达数据中心爬虫无法企及的网络角落——不是因为它绕过了安全措施,而是因为它本质上代表的是分布式的真实人类浏览行为。

这带来了一个在根本上截然不同的数据集。Grass节点每天在190个国家合计处理约1PB的网络数据,触及本地语言内容、地区性域名,以及地理限制背后的内容——这些都是美国中心化爬虫作业永远无缘见到的。对于训练多语言模型或为全球市场构建产品的AI公司而言,这种地理多样性不是锦上添花,而是能力的前提条件。

网络究竟如何运转

Grass节点运营者安装扩展程序并共享闲置带宽。Wynd Labs的基础设施将爬取任务路由至这些节点,采集原始网络内容。Web3架构的技术意义正体现于此:Grass不依赖中央服务器来汇报采集内容并核实准确性,而是使用零知识证明,对每个节点爬取的内容、时间和来源进行密码学层面的认证。

这一数据溯源层将原始爬取数据转化为AI公司真正可以信任的东西。通过Grass市场出售的每个数据集都在链上记录了其来源——随着全球AI监管趋严,这一能力的商业价值愈发凸显。欧盟《人工智能法案》、美国正在推进的AI立法以及新兴版权框架,都对训练数据来源施加了法律责任压力。可证明、可审计的数据溯源,正在迅速从加分项转变为法律要求。

2025年2月的Sion升级将Grass的能力从文本扩展至完整的多模态数据。此次更新引入了图像和4K视频处理管线,数据吞吐量提升了10倍,日采集量一度冲至1700TB的历史峰值,随后稳定在约每日1000TB。对于构建视觉模型、视频理解系统或多模态助手的AI公司而言,Grass成为了稀有的现实世界、地理多元视觉训练数据的重要来源。

商业模式:来自真实客户的真实营收

关于Grass产品市场契合度最有说服力的信号之一,是其营收走势。在DePIN领域,大多数项目纯粹依靠代币释放和投机估值维系运营,而Grass在2025年第四季度报告的营收约为1280万美元,仅10月和11月就产生了超过1000万美元的收入。AI公司正在为这些数据真金白银地买单。

GRASS代币处于网络经济设计的核心。节点运营者通过数据贡献赚取GRASS。AI公司以GRASS(或等值货币)购买数据集访问权限。代币治理机制允许社区主导网络开发优先级。总供应量为10亿枚,当前流通量为2.4亿枚,代币经济学在数据需求增长与网络价值之间建立了直接联系——这是代币实用性与真实产品使用高度匹配的罕见案例。

领投A轮、将Grass估值约10亿美元的Hack VC发布了详细的投资论文,认为Grass正在构建的基础设施类似于彭博社在金融数据领域所建立的体系——只不过是去中心化的、无需许可的、归创造价值的参与者所有的。这一类比颇为大胆,但并非没有依据:彭博终端每年凭借让金融数据触手可及且可靠可信,创造超过60亿美元的年收入。AI训练数据所代表的市场规模,或将与之相当,甚至有过之而无不及。

在去中心化数据栈中的竞争地位

Grass在更广泛的去中心化AI基础设施生态中竞争,但占据着独特的细分位置。

Ocean Protocol是最为成熟的去中心化数据市场,专注于通过"数据计算"架构,帮助数据所有者将已有数据集货币化——包括企业数据集、研究数据库和私有传感器网络。Ocean是ASI生态的一部分,与Fetch.ai和SingularityNET并列,侧重于隐私保护计算,而非新鲜网络数据的采集。

Render Network则针对完全不同的瓶颈:用于渲染和AI推理的GPU算力,而非数据获取。仅2026年1月,Render的营收就达到3800万美元,证明了去中心化算力的强劲需求,但它解决的是Grass运营领域下游的处理问题。

Grass的独特价值在于:以任何中心化竞争对手在不进行大规模IP基础设施投入的情况下都无法企及的规模和地理广度,持续采集新鲜的现实世界网络数据。住宅IP访问、ZK验证溯源、Sion升级后的多模态能力,以及Solana原生结算,共同构成了一套极难从零复制的技术栈。

值得正视的风险

Grass并非没有真实的风险。大规模网络爬取的法律环境仍存争议。多家大型出版商已就AI公司未经授权爬取其内容提起诉讼。Grass的立场——协助AI实验室更高效地访问公共网络内容——面临着与中心化爬虫同样的法律质疑,而分布式住宅IP架构并不能自动解决底层内容的版权问题。

竞争护城河真实存在,但并非无懈可击。一个资金充裕的竞争对手可以通过竞争性代币激励用户,建立类似的住宅网络。Grass凭借850万节点拥有先发优势,但带宽共享网络的网络效应弱于社交平台或金融市场——用户可以轻易同时运行多个带宽共享工具。

代币价格波动也会带来节点运营者流失的风险。若GRASS代币价值大幅下跌,运行节点的经济激励将会减弱,在网络最需要规模来履行企业数据合同之际,可能导致网络萎缩。1000万美元的过桥融资轮和来自AI客户的实际营收提供了真实的现金流,使网络奖励得以超越纯代币释放而持续运转,这相较于大多数DePIN项目,显著降低了上述风险。

成功的图景

Grass 2026年路线图包括:移动端扩展(推出Android和iOS应用,以利用闲置的移动带宽)、用于实时AI推理而非仅限训练数据的实时上下文检索,以及跨越网络所采集的4K视频、音频和文本内容的语义多模态搜索。

如果Grass实现路线图目标,它将从数据采集网络升级为实时信息层——这相当于从一座训练素材图书馆,跃变为AI系统可以持续查询的实时数据馈送。这一产品形态,无论是防御性还是商业价值,都远超批量数据集销售。

Grass背后更深层的论点在于:AI的数据供应链走向集中化,是历史的偶然,而非内在的必然。各大AI实验室建立训练基础设施的方式,与云计算公司建立算力基础设施的方式如出一辙——大规模、集中于自有设施、完全自主掌控。但数据不同于算力,它由所有人、在任何地方产生。一个将这种产生过程重新导向为共享、可验证、有补偿管道的去中心化网络,或许才是解决这一问题更为自然的经济结构。

如今,网络中已有850万参与者,来自真实AI客户的季度营收达1280万美元,获得了深谙市场的机构投资者背书,估值高达10亿美元。Grass早已走出"有趣实验"的阶段。它能否成为AI训练数据领域的彭博社,取决于监管的容忍度、竞争格局的演变,以及数据稀缺危机是否会如研究人员预测的那样快速收紧。

而聪明的赌注,是押它会。


BlockEden.xyz为在网络最快增长应用上构建产品的开发者提供企业级Solana RPC和API基础设施。如果你正在构建与AI相邻的Web3产品,或需要可靠访问Solana数据层,欢迎探索我们的API市场