Grass Protocol:850万ノードがAIの500億ドルデータ危機を解決する方法
人工知能には不都合な秘密がある。インターネットが成長するよりも速く、インターネットを食い尽くしているのだ。Epoch AIの研究者たちは80%の確率で、高品質な人間生成の学習データが2026年から2028年の間に枯渇すると警告している。一方、世界トップ1,000サイトの35%超がOpenAIのウェブクローラーを積極的にブロックしており、フロンティアモデルを支える主要な学習データセットから、高品質なデータソースの25%がすでに締め出されている。コンピュートに総額数千億ドルを費やす世界最大のAI企業群は、5年前なら到底考えられなかった金額で、出版社・報道機関・SNSプラットフォームからコンテンツのライセンス取得に躍起になっている。
Grass Protocolは、より良い答えを見つけたと確信している。Solana上にソブリン・データ・ロールアップとして構築されたGrassは、月間850万のアクティブノードからなるグローバルネットワークを組成し、ペタバイト規模で公開ウェブデータを収集して 、検証済みの構造化AI学習データセットへと変換している。ネットワークはすでに四半期収益1,280万ドルを突破しており、AI企業が合成データの代替品ではなく本物のデータに対して対価を支払っている。Polychain Capital・Tribe Capital・Hack VCなどの投資家から約10億ドルの評価額を獲得している。
AIが公には認めたがらない危機
Grassがなぜ重要なのかを理解するには、まずデータ問題の深刻さを把握する必要がある。
OpenAIがGPT-4を、AnthropicがClaudeを、GoogleがGeminiを学習させた際、インターネット上でこれまでに生成された高品質な公開テキストの大半を、各社が合わせて摂取してしまった。ウェブは次世代モデルを同等の品質水準で養うほど速くは再生されない。Epoch AIの研究によれば、現在の消費ペースが続く限り、インターネットテキストのうち実際にモデルの能力向上に寄与する有用な部分は、今世紀中に事実上枯渇するという。
主要AIラボは三つのアプローチで対応しているが、いずれも深刻な欠点を抱えている。
第一のアプローチはライセンス契約だ。News CorpはOpenAIと5年間で2億5,000万ドル超の契約を締結した。Redditは主要AIラボへのAPIアクセスで年間2億300万ドルを要求していると報じられている。こうした契約は質の高いコンテンツへのアクセスを保証するが、莫大なコストがかかり、AIのデータ・サプライチェーンを少数の大手メディアおよびプラットフォーム企業の手に集中させてしまう。
第二のアプローチは合成データだ——AIモデル自身を使って学習用サンプルを生成する方法である。問題はすでに学術文献で実証されている。AI生成コンテンツで連続的に世代を重ねて学習させると「モデル崩壊」が生じ、出力がどんどん凡庸になり、幻覚が増え、現実との乖離が拡大する悪化スパイラルに陥る。モデルに自分自身の映し鏡を与え続けても、現実世界の知識をゼロから構築することはできない。
第三のアプローチ——Grassが切り拓きつつある手法——が、住宅用IP規模での分散型ウェブスクレイピングだ。これは集中型スクレイパーには解決できない特定の技術的問題を解消する。
住宅用IPがすべてを変える理由
大手AIラボがウェブをスクレイピングしようとすると、データセンターからのアクセスはブロックされる。ウェブサイトはデータセンターのIPレンジを識別し、CAPTCHA・ボット検証・完全な拒否で応答する。主要サイトの3分の1超が、既知のAIスクレイパーアドレスを特定してブロックするようになっている。通過できるデータはますます不完全になり、ブロックを気にしないサイトに偏り、現代のウェブデータを価値あるものにしている動的でパーソナライズされたコンテンツが欠落している。
Grassのノードは、実際のユーザーの端末上で動作する軽量なブラウ ザ拡張機能として稼働し、本物の住宅用IPアドレスを使用する。ウェブサイトの視点から見ると、Grassのトラフィックは普通のユーザーがブラウジングしているものと区別がつかない。セキュリティ対策を迂回するのではなく、分散した人間のブラウジング活動を真に体現しているため、Grassはデータセンタースクレイパーが届かないウェブの領域にアクセスできる。
その結果、根本的に異なるデータセットが生まれる。Grassのノードは190カ国で1日あたり合計約1ペタバイトのウェブデータを処理し、中央集権型の米国拠点スクレイピング事業では決して到達できない、地域の言語・地域ドメイン・地理的制限の内側にあるコンテンツにアクセスする。多言語モデルを学習させるAI企業や、グローバル市場向け製品を構築する企業にとって、この地理的多様性は「あれば便利」な機能ではなく、能力を実現するための前提条件だ。
ネットワークの実際の仕組み
Grassのノードオペレーターは拡張機能をインストールし、未使用の帯域幅を提供する。Wynd Labsのインフラがこれらのノードを通じてスクレイピングタスクをルーティングし、生のウェブコンテンツを収集する。ここでWeb3アーキテクチャが技術的に重要になる。収集内容とその正確性を中央サーバーに委ねるのではなく、Grassはゼロ知識証明を使い、各ノードが何を・いつ・どこからスクレイピングしたか を暗号学的に証明する。
このプロベナンス(出自証明)レイヤーが、生のスクレイピングデータをAI企業が実際に信頼できるものへと変換する。Grassマーケットプレイスで販売されるすべてのデータセットには、その起源のオンチェーン記録が付随する——AI規制が世界的に厳格化する中で、商業的に重要性を増す機能だ。欧州AI規制・策定中の米国AI法・新興著作権フレームワークはいずれも、学習データの調達に関する法的責任を生み出している。証明可能で監査可能なデータプロベナンスは、「便利な機能」から「法的要件」へと急速に移行しつつある。
2025年2月のSionアップグレードにより、Grassの能力はテキストからフルマルチモーダルデータへと拡張された。このアップデートで画像および4Kビデオの処理パイプラインが導入され、データスループットが10倍増加、一時的に日次収集量が1,700TBという過去最高値に達した後、現在は1日あたり約1,000TBで安定している。ビジョンモデル・映像理解システム・マルチモーダルアシスタントを構築するAI企業にとって、Grassは現実世界の地理的に多様な視覚学習データの希少な供給源として位置づけられる。
ビジネスモデル:実際の顧客からの実際の収益
Grassのプロダクト・マーケット・フィットを示す最も信頼性の高いシグナルの一つが 、収益の軌跡だ。ほとんどのプロジェクトがトークン排出と投機的評価のみで生き延びているDePINセクターにおいて、Grassは2025年Q4の収益を約1,280万ドルと報告しており、10月と11月だけで1,000万ドル超を生み出した。AI企業がこのデータに本物の資金を支払っている。
GRASSトークンはネットワークの経済設計の中心に位置する。ノードオペレーターはデータ提供の対価としてGRASSを獲得する。AI企業はデータセットアクセスのためにGRASS(または同等の通貨)で支払う。トークンガバナンスにより、コミュニティはネットワークの開発優先事項を決定できる。10億トークンの固定供給量のうち現在2億4,000万が流通しており、トークノミクスはデータ需要の成長とネットワーク価値を直接結びつけている——実際の製品利用に明確にマッピングされるトークンユーティリティの稀有な事例だ。
GrassをシリーズA(約10億ドル評価)でリードしたHack VCは、Grassがブルームバーグの金融データ向けインフラに類似したインフラを構築していると主張する詳細な投資論文を公開している——ただし分散型、パーミッションレスで、価値を生み出す参加者が所有する点が異なる。この比較は挑発的だが、根拠がないわけではない。ブルームバーグのターミナルは金融データをアクセス可能で信頼性の高いものにすることで年間60億ドル超の収益を上げている。AI学習データは同等またはそれ以上の規模の市場を代表する可能性がある。
分散型データスタックにおける競合上の位置づけ
Grassはより広範な分散型AIインフラプロジェクトのエコシステムで競合しているが、独自のニッチを占めている。
最も確立された分散型データマーケットプレイスであるOcean Protocolは、企業データセット・研究リポジトリ・プライベートセンサーネットワークといった既存のデータセットを持つデータオーナーが、「Compute-to-Data」アーキテクチャを通じて収益化できるよう支援することに注力している。OceanはFetch.aiやSingularityNETと並んでASIエコシステムの一部であり、新鮮なウェブデータ収集よりもプライバシーを保護するコンピュートを重視している。
Render Networkはまったく異なるボトルネック——データ取得ではなく、レンダリングとAI推論のためのGPUコンピュート——に対処している。2026年1月だけで3,800万ドルの収益を誇るRenderは、分散型コンピュートへの巨大な需要を示しているが、解決しているのはGrassが活動する上流ではなく下流の処理問題だ。
Grassが独自に提供するのは、いかなる集中型競合他社も莫大なIPインフラ投資なしには対抗できない規模と地理的広がりでの、新鮮で継続的な現実世界のウェブデータ収集だ。住宅用IPアクセス・ZK検証済みプロベナンス・Sion後のマルチモーダル能力・Solanaネイティブな決済の組み合わせは、ゼロから複製することが困難なスタックを生み出している。