跳到主要内容

推理反转:为什么去中心化 GPU 网络正在赢得服务 AI 增长最快工作负载的竞赛

· 阅读需 10 分钟
Dora Noda
Software Engineer

NVIDIA 对电力的渴求已达到极致,在 GTC 2026 上甚至宣布了轨道数据中心计划。与此同时,今年三分之二的 AI 计算将完全不会触及训练集群——而是推理(inference),即为真实用户运行模型的枯燥但至关重要的任务。去中心化 GPU 网络正悄然成为提供此类服务的最优基础设施。

大算力逆转

在 AI 的现代纪元中,训练一直占据着话题中心和资本投入。构建前沿模型意味着需要将数千个互联的 H100 锁定数月,在单个数据中心消耗数兆瓦的电力。这种集中化使得中心化超大规模云服务商(hyperscalers)形成了天然垄断。

但经济格局已经发生逆转。德勤(Deloitte)估计,2025 年推理工作负载已占所有 AI 计算的一半。到 2026 年,这一数字将跃升至三分之二。仅推理优化芯片市场今年预计就将突破 500 亿美元。

为什么会发生这种转变?因为企业已经停止了实验,开始正式部署。每一个聊天机器人、每一个 AI 助手(copilot)、每一个在生产环境中运行的自主智能体都是推理工作负载——与训练不同,推理是持续不断的。一个为数百万用户提供服务的 GPT-4 级部署所产生的累计计算需求,比创建该模型的长达数月的训练运行还要大。

这里有一个关键的架构差异:训练需要通过 NVLink 将数千个 GPU 在单一设施内紧密耦合。而推理则不然。单个 GPU 或小型集群就可以独立处理模型请求。这使得推理具有天生的可分发性、地理灵活性,并完美契合去中心化网络。

为什么延迟是新的瓶颈

向推理的转变带来了一个中心化云在训练时代从未需要优化的约束:延迟。

智能体 AI 系统(Agentic AI systems)——即代表用户感知、推理并采取行动的自主工具——需要几十毫秒级别的响应时间。执行套利的交易机器人、处理语音命令的 AI 助手、实时路由流动性的 DeFi 协议——这些都无法容忍与另一个大陆上的中心化数据中心之间超过 200 毫秒的往返延迟。

行业分析师现在将“边缘推理”(edge inference)定义为部署在主要大都市区 100 英里范围内的计算。这是一个地理分布问题,而不是纯粹的算力问题。相比于弗吉尼亚州、俄勒冈州和爱尔兰的少数超大规模设施,由 50,000 多个分布式 GPU 主机组成的网络能更自然地解决这个问题。

DePIN 推理命题——在大规模应用中得到验证

去中心化物理基础设施网络(DePIN)最初被宣传为众包闲置硬件的一种方式。早期的批评不无道理:去中心化计算无法匹配前沿模型训练所需的紧密耦合。但推理完全改变了这一逻辑。

数据说明了一切。CoinGecko 目前追踪了近 250 个 DePIN 项目,总市值超过 190 亿美元——比 12 个月前的 52 亿美元增长了 265%。与 AI 相关的 DePIN 占据主导地位,占总市值的 48%。

更重要的是,这些网络不再只是理论。真实的生产流量正在涌入:

  • Akash Network 报告称其使用量同比增长 428%,利用率超过 80%。其在 2025 年底推出的 AkashML 服务提供了一个与 OpenAI 兼容的 API,可将流量路由到全球 80 多个数据中心中最近的一个,实现低于 200 毫秒的响应时间。成本节省:与传统云相比最高可达 85%。

  • Aethir 提供了超过 14 亿个计算小时,并报告季度收入近 4000 万美元,成为首批展示出超大规模云服务商级别吞吐量的 DePIN 项目之一。

  • Nosana 的独立 GPU 主机数量超过了 50,000 个,专门专注于其基于 Solana 的网络上的 Stable Diffusion 图像生成和 LLM 推理服务。

经济账:便宜 45–60%,但仍有注意事项

DePIN 网络上的原始 GPU 定价远低于超大规模云服务商。Hyperbolic 提供的 NVIDIA H100 实例价格为 1.49 美元/小时,而 AWS 为 3.90 美元/小时(2025 年降价后)、Azure 为 6.98 美元/小时、Google Cloud 为 3.00 美元/小时。

对于运行聊天机器人或图像生成服务的初创公司来说,这意味着基础设施成本降低了 45–60%。在规模化运行下,节省的费用更为显著:一个每月在推理计算上花费 100 万美元的企业,每年可以将 45 万至 60 万美元重新投入到产品开发中。

But 原始价格并非全部。去中心化网络的可靠性波动可能导致过度拨备(overprovisioning)——你可能需要额外保留 20–30% 的容量,以保证与 AWS 的 99.99% 相当的可用性 SLA。操作复杂性也更高。此外,企业合规性要求(SOC 2、HIPAA)对于受监管行业仍是一个障碍。

直面这些问题的项目正在获得青睐。Hyperbolic 即将推出的采样证明(Proof of Sampling, PoSP)协议——与加州大学伯克利分校和哥伦比亚大学的研究人员共同开发——将提供推理结果计算正确的加密验证,而无需信任 GPU 提供商。Akash 的 Starcluster 计划将其协议拥有的企业级数据中心与其去中心化市场相结合,创建了一个既能节省成本又能保证可靠性的混合模式。

Vera Rubin 悖论

在 GTC 2026 上,NVIDIA 首席执行官黄仁勋 (Jensen Huang) 发布了 Vera Rubin 平台 —— 包含七款新芯片和五种机架类型,旨在打造一台巨大的 AI 超级计算机。核心指标是:与前代 Grace Blackwell 相比,每瓦性能提升了 10 倍,每吉瓦产生的收入增加了 5 倍。

黄仁勋还预测,到 2027 年,Blackwell 和 Vera Rubin 的累计订单将达到 1 万亿美元。或许最能说明电力危机严重程度的迹象是,NVIDIA 宣布了 Vera Rubin Space-1 —— 旨在完全绕过地面电网限制的轨道数据中心。

悖论在于:Vera Rubin 的效率提升是惊人的,但它们是为吉瓦级的 AI 工厂设计的 —— 这些中心化设施对电力的渴求如此巨大,以至于 NVIDIA 竟然在向太空寻求解决方案。与此同时,推理工作负载并不需要吉瓦级的设施。它们需要成千上万个规模较小的部署,在地理上分布,且靠近终端用户。

NVIDIA 正在构建有史以来最强大的中心化推理机器。而 DePIN 网络正在构建最分布式的推理机器。问题不在于哪种方式会获胜,而在于它们各自最适合服务哪些工作负载。前沿模型训练和大规模批处理推理将继续留在中心化设施中。而实时、延迟敏感、地理分布广泛的推理正是去中心化网络拥有结构性优势的地方。

专业化推理层

下一阶段的演进已经显现:超越通用 GPU 共享的专用推理 DePIN 网络。

Ritual 将自己定位为区块链的首个 AI 协处理器 —— 允许智能合约像从预言机请求价格数据一样请求神经网络推理。这创建了一个原生的链上推理层,DeFi 协议可以在其中集成 AI 决策,而无需信任离链 API。

Hyperbolic 正在构建一个可验证的推理网络,其中每一项计算在加密学上都是可证明的。对于需要审计 AI 输出的企业 —— 金融服务、医疗保健、法律 —— 这解决了阻碍它们采用去中心化计算的信任问题。

这些专业化网络代表了 DePIN 从“廉价 GPU”向解决中心化云无法解决的问题的基础设施的转型:可验证计算、链上集成以及精细化的地理分布,这种分布细度是任何超级规模云服务商在经济上都无法合理复制的。

未来展望

推理时代比训练时代更能验证 DePIN 的原始论点。训练需要紧密耦合;推理需要广泛分布。训练是一个批处理过程;推理是持续不断的。训练是一个成本中心;推理则是产生收入的地方。

未来 12 个月值得关注的三个发展方向:

  1. 企业混合采用:Akash 的 Starcluster 模型 —— 将协议拥有的企业级硬件与去中心化容量相结合 —— 将成为模板。企业不会在一夜之间实现完全去中心化,但它们会越来越多地使用 DePIN 网络来应对突发容量需求和边缘部署。

  2. 可验证推理成为基本要求:随着 AI 代理处理金融交易、医疗决策和法律分析,证明推理计算正确性的能力将从“加分项”转变为“监管要求”。像 Hyperbolic 和 Ritual 这样的项目正在构建这种基础设施。

  3. 500 亿美元的推理芯片市场催生硬件多样性:随着 NVIDIA、AMD、Intel 和定制 ASIC 制造商向市场投放大量推理优化芯片,DePIN 网络将比任何单一云提供商更有效地整合这些异构硬件,提供超级规模云服务商无法比拟的特定工作负载优化。

全球 AI 基础设施市场预计在 2026 年达到 1.36 万亿美元。大部分支出正在从训练集群转向推理基础设施。去中心化 GPU 网络不会占据全部市场 —— 但它们也不需要。即使只是推理市场个位数的百分比,对于能够提供可靠性、低延迟和低成本的 DePIN 网络来说,也是一个数十亿美元的机会。

训练时代属于中心化的超级规模云服务商。推理时代则是群雄逐鹿 —— 而去中心化网络的架构可能正是推理时代所需要的。


BlockEden.xyz 为包括 Sui、Aptos 和 Ethereum 在内的领先区块链网络提供高性能 API 基础设施 —— 这些链正是驱动下一代 DePIN 协议的基石。探索我们的 API 市场,在专为去中心化未来设计的基础设施上进行构建。