推理反转:为什么去中心化 GPU 网络正在赢得服务 AI 增长最快工作负载的竞赛
NVIDIA 对电力的渴求已达到极致,在 GTC 2026 上甚至宣布了轨道数据中心计划。与此同时,今年三分之二的 AI 计算将完全不会触及训练集群——而是推理(inference),即为真实用户运行模型的枯燥但至关重要的任务。去中心化 GPU 网络正悄然成为提供此类服务的最优基础设施。
大算力逆转
在 AI 的现代纪元中,训练一直占据着话题中心和资本投入。构建前沿模型意味着需要将数千个互联的 H100 锁定数月,在单个数据中心消耗数兆瓦的电力。这种集中化使得中心化超大规模云服务商(hyperscalers)形成了天然垄断。
但经济格局已经发生逆转。德勤(Deloitte)估计,2025 年推理工作负载已占所有 AI 计算的一半。到 2026 年,这一数字将跃升至三分之二。仅推理优化芯片市场今年预计就将 突破 500 亿美元。
为什么会发生这种转变?因为企业已经停止了实验,开始正式部署。每一个聊天机器人、每一个 AI 助手(copilot)、每一个在生产环境中运行的自主智能体都是推理工作负载——与训练不同,推理是持续不断的。一个为数百万用户提供服务的 GPT-4 级部署所产生的累计计算需求,比创建该模型的长达数月的训练运行还要大。
这里有一个关键的架构差异:训练需要通过 NVLink 将数千个 GPU 在单一设施内紧密耦合。而推理则不然。单个 GPU 或小型集群就可以独立处理模型请求。这使得推理具有天生的可分发性、地理灵活性,并完美契合去中心化网络。
为什么延迟是新的瓶颈
向推理的转变带来了一个中心化云在训练时代从未需要优化的约束:延迟。
智能体 AI 系统(Agentic AI systems)——即代表用户感知、推理并采取行动的自主工具——需要几十毫秒级别的响应时间。执行套利的交易机器人、处理语音命令的 AI 助手、实时路由流动性的 DeFi 协议——这些都无法容忍与另一个大陆上的中心化数据中心之间超过 200 毫秒的往返延迟。
行业分析师现在将“边缘推理”(edge inference)定义为部署在主要大都市区 100 英里范围内的计算。这是一个地理分布问题,而不是纯粹的算力问题。相比于弗吉尼亚州、俄勒冈州和爱尔兰的少数超大规模设施,由 50,000 多个分布式 GPU 主机组成的网络能更自然地解决这个问题。