インフェレンス・フリップ:分散型 GPU ネットワークが AI の急成長ワークロードを支える競争で勝っている理由
NVIDIA は電力を切望するあまり、GTC 2026 で軌道上データセンターを発表したばかりです。一方、今年の AI コンピュート全体の 3 分の 2 は、学習クラスターには一切触れません。それは、実際のユーザーのためにモデルを実際に「実行」するという、地味ながらもミッションクリティカルな作業である「推論(インファレンス)」になるでしょう。そして、分散型 GPU ネットワークが、それを支えるのに最も適したインフラストラクチャとして静かに台頭しています。
コンピュートの逆転現象
AI の近 代における大半の期間、学習(トレーニング)が議論と資本の大部分を占めてきました。フロンティアモデルを構築するということは、数千台の相互接続された H100 を数ヶ月間にわたって稼働させ、単一のデータセンターでメガワット級の電力を消費することを意味していました。この集中こそが、中央集権的なハイパースケーラーを自然な独占状態にしていました。
しかし、経済構造は一変しました。デロイトの推計によると、2025 年には AI コンピュート全体の半分を推論ワークロードが占めるとされています。2026 年までに、その数字は 3 分の 2 にまで跳ね上がります。推論に最適化されたチップ市場だけでも、今年 500 億ドルを超えると予測されています。
なぜこのシフトが起きているのでしょうか? それは、企業が実験を終え、実際の導入を開始したからです。本番環境で動作するあらゆるチャットボット、あらゆる AI コパイロット、あらゆる自律型エージェントは推論ワークロードです。そして学習とは異なり、推論は止まることがありません。数百万人のユーザーにサービスを提供する単一の GPT-4 クラスのデプロイメントは、モデルを作成した数ヶ月に及ぶ学習実行よりも、累積的に多くのコンピュート需要を生み出します。
ここには決定的なアーキテクチャの違いがあります。学習には、単一の施設内で NVLink を介して密に結合された数千台の GPU が必要です。しかし、推論はそうではありません。単一の GPU、あるいは小さなクラスターで、モデルのリクエストを独立して処理できます。この性質により、推論は本質的に分散可能であり、地理的な柔軟性が高く、分散型ネットワーク に完璧に適合するのです。
なぜレイテンシが新たなボトルネックになるのか
推論への移行は、中央集権的なクラウドが学習時代に最適化する必要のなかった制約をもたらしました。それがレイテンシ(遅延)です。
エージェント AI システム — ユーザーに代わって感知し、推論し、行動する自律型ツール — には、ミリ秒単位で測定される応答時間が必要です。裁定取引を実行するトレーディングボット、音声コマンドを処理する AI アシスタント、リアルタイムで流動性をルーティングする DeFi プロトコル。これらはいずれも、他の大陸にある中央集権的なデータセンターとの 200 ミリ秒以上の往復レイテンシを許容できません。
業界アナリストは現在、「エッジ推論」を主要な大都市圏から 100 マイル以内に展開されたコンピュートと定義しています。これは生の計算力の問題ではなく、地理的な分散の問題です。そして、これはバージニア、オレゴン、アイルランドにある一握りのハイパースケール施設よりも、50,000 以上の分散型 GPU ホストのネットワークの方が自然に解決できる問題なのです。
DePIN 推論テーゼ — 大規模での実証
分散型物理インフラストラクチャネットワーク(DePIN)は、当初、十分に活用されていないハードウェアをクラウドソーシングする方法として提案されました。初期の批判は妥当なものでした。分散型コンピュートは、フロンティアモデルの学習に必要な密結合には太刀打ちできなかったからです。しかし、推論はその計算式を完全に書き換えます。
数字がそれを物語っています。CoinGecko は現在、250 近い DePIN プロジェクトを追跡しており、その時価総額の合計は 190 億ドルを超えています。これはわずか 12 ヶ月前の 52 億ドルから 265 % 増加しています。AI 関連の DePIN が支配的で、時価総額全体の 48 % を占めています。
さらに重要なのは、これらのネットワークがもはや理論上のものではないということです。実際のプロダクション・トラフィックが流れ始めています。
- Akash Network は、利用率 80 % 以上で前年比 428 % の利用増を報告しました。2025 年後半にリリースされた AkashML サービスは、OpenAI 互換の API を提供し、世界 80 以上のデータセンターのうち最も近い場所にトラフィックをルーティングし、200ms 未満の応答時間を実現しています。コスト削減効果は、従来のクラウドと比較して最大 85 % です。
- Aethir は 14 億時間以上のコンピュート時間を提供し、四半期収益は 4,000 万ドル近くに達したと報告しており、ハイパースケーラー規模のスループットを実証した最初の DePIN プロジェクトの一つとなりました。
- Nosana は 50,000 を超える独立した GPU ホストを突破しました。同社は、Solana ベースのネットワーク上で Stable Diffusion による画像生成や LLM サービングなどの推論ワークロードに特化しています。
経済性:45 ~ 60 % 低コスト、ただし注意点も
DePIN ネットワーク上の生の GPU 価格設定は、ハイパースケーラーを大きく下回ります。Hyperbolic は NVIDIA H100 インスタンスを 1.49 ドル / 時間で提供しています。これに対し、AWS は 3.90 ドル / 時間(2025 年の値下げ後)、Azure は 6.98 ドル / 時間、Google Cloud は 3.00 ドル / 時間です。
チャットボットや画像生成サービス向けに推論を実行するスタートアップにとって、これはインフラコストの 45 ~ 60 % 削減を意味します。規模が大きくなれば、その節約効果は複利的に増大します。推論コンピュートに月額 100 万ドルを費やしている企業は、年間 45 万 ~ 60 万ドルを製品開発に振り向けることができるようになります。
しかし、生の価格がすべてではありません。分散型ネットワークの信頼性のばらつきにより、オーバープロビジョニングが必要になる場合があります。AWS の 99.99 % に匹敵する稼働率 SLA を保証するには、20 ~ 30 % 多めに容量を確保する必要があるかもしれません。運用上の複雑さも増します。また、エンタープライズ向けのコンプ ライアンス要件(SOC 2、HIPAA)は、規制の厳しい業界にとって依然として障壁となっています。
これらに真っ向から取り組んでいるプロジェクトが勢いを増しています。Hyperbolic がカリフォルニア大学バークレー校やコロンビア大学の研究者と共同で開発している次世代の Proof of Sampling(PoSP)プロトコルは、GPU プロバイダーを信頼することなく、推論結果が正しく計算されたことを暗号学的に検証します。Akash の Starcluster イニシアチブは、プロトコルが所有するエンタープライズグレードのデータセンターと分散型マーケットプレイスを組み合わせ、コスト削減と信頼性の保証を両立させるハイブリッドモデルを構築しています。
ヴェラ・ルービンのパラドックス
GTC 2026 において、NVIDIA の CEO であるジェンスン・フアン氏は、7 つの新しいチップと 5 つのラックタイプで構成され、一つの巨大な AI スーパーコンピューターとして設計された「Vera Rubin」プラットフォームを発表しました。その主要な指標は、前世代の Grace Blackwell と比較してワットあたりの性能が 10 倍向上し、1 ギガワットあたりの収益が 5 倍になるというものです。
フアン氏はまた、Blackwell と Vera Rubin の累計受注額が 2027 年までに 1 兆ドルに達すると予測しています。そして、電力危機の深刻化を象徴するように、NVIDIA は地上電力網の制約を完全に回避するために設計された軌道データセンター「Vera Rubin Space-1」を発表しました。
ここにパラドックスがあります。Vera Rubin の効率向上は驚異的ですが、それはギガワット規模の AI 工場(NVIDIA が解決策を宇宙に求めるほど電力を消費する中央集権的な施設)向けに設計されています。一方で、推論ワークロードはギガワット規模の施設を必要としません。エンドユーザーに近い、地理的に分散された数千の小規模なデプロイメントを必要としています。
NVIDIA は、これまでに構想された中で最も強力な中央集権型推論マシンを構築しています。対して、DePIN ネットワークは最も分散されたものを構築しています。問題はどちらのアプローチが勝つかではなく、それぞれのワークロードにどちらが適しているかです。フロンティアモデルのトレーニングや大規模なバッチ推論は、引き続き中央集権的な施設で行われるでしょう。リアルタイムで遅延に敏感な、地理的に多様な推論こそ、分散型ネットワークが構造的な優位性を持つ領域です。
特化型推論レイヤー
次の進化はすでに始まっています。汎用的な GPU 共有を超えた、推論特化型の DePIN ネットワークです。
Ritual は、ブロックチェーン初の AI コプロセッサとして位置付けられています。スマートコントラクトがオラクルから価格データをリクエストするのと同じように、ニューラルネットワークの推論をリクエストできるようにします。これにより、DeFi プロトコルがオフチェーン API を信頼することなく AI の意思決定を統合できる、ネイティブなオンチェーン推論レイヤーが構築されます。
Hyperbolic は、すべての計算が暗号学的に証明可能な「検証可能な推論ネットワーク」を構築しています。金融サービス、ヘルスケア、法務など、AI の出力を監査する必要がある企業にとって、これは分散型コンピューティングの採用を阻んできた信頼の問題を解決します。
これらの専門ネットワークは、DePIN が「安価な GPU」から、中央集権型クラウドでは解決できない課題(検証可能な計算、オンチェーン統合、ハイパースケーラーが経済的に合理的とは考えないほど細粒度な地理的分散)を解決するインフラへと成熟したことを示しています。
今後の展望
推論時代は、トレーニング時代よりも DePIN の本来のテーゼをより良く証明しています。トレーニングには密な結合が必要ですが、推論には広範な分散が必要です。トレーニングはバッチプロセスですが、推論は継続的です。トレーニングはコストセンターですが、推論は収益を生み出す場所です。
今後 12 ヶ月で注目すべき 3 つの進展:
-
企業のハイブリッド採用:プロトコルが所有するエンタープライズハードウェアと分散型のキャパシティを組み合わせた Akash の Starcluster モデルがテンプレートになるでしょう。企業が一夜にして完全に分散化することはあり ませんが、バーストキャパシティやエッジデプロイメントのために DePIN ネットワークを使用することが増えるでしょう。
-
検証可能な推論が必須要件に:AI エージェントが金融取引、医療上の決定、法的分析を扱うようになるにつれ、推論が正しく計算されたことを証明する能力は、「あれば便利」なものから規制上の要件へと変化します。Hyperbolic や Ritual のようなプロジェクトは、現在このインフラを構築しています。
-
500 億ドルの推論チップ市場がハードウェアの多様性を生む:NVIDIA、AMD、Intel、そしてカスタム ASIC メーカーが推論に最適化されたシリコンを市場に投入する中、DePIN ネットワークは単一のクラウドプロバイダーよりも効果的にこれらの異種ハードウェアを集約し、ハイパースケーラーが太刀打ちできないワークロード固有の最適化を提供します。
世界の AI インフラ市場は 2026 年に 1 兆 3600 億ドルに達すると予測されています。その支出の大部分は、トレーニングクラスターから推論インフラへとシフトしています。分散型 GPU ネットワークがそのすべてを獲得することはありませんが、その必要もありません。推論市場のわずか数パーセントであっても、信頼性、低遅延、コストを実現できる DePIN ネットワークにとっては、数十億ドル規模のチャンスを意味します。
トレーニング時代は中央集権的なハイパースケーラーのものでした。推論時代は誰の手にも渡る可能性があり、分散型ネットワークのアーキテクチャこそが、その時代が求めているものかもしれません。
BlockEden.xyz は、Sui、Aptos、Ethereum を含む主要なブロックチェーンネットワーク向けに、次世代の DePIN プロトコルを支える高性能な API インフラを提供しています。API マーケットプレイスを探索して、分散型の未来のために設計されたインフラ上で構築を始めましょう。