Перейти к основному контенту

Grass Protocol: как 8,5 миллиона узлов решают кризис данных ИИ на $50 млрд

· 9 мин чтения
Dora Noda
Software Engineer

У искусственного интеллекта есть неудобная тайна: он поглощает интернет быстрее, чем тот успевает расти. Исследователи Epoch AI предупреждают с вероятностью 80%, что высококачественные обучающие данные, созданные людьми, будут исчерпаны к 2026–2028 годам. При этом более 35% из тысячи крупнейших сайтов мира уже активно блокируют скраперы OpenAI, а 25% качественных источников данных закрыты для основных обучающих датасетов, питающих передовые модели. Крупнейшие ИИ-компании мира — совокупно тратящие сотни миллиардов на вычисления — в спешке лицензируют контент у издателей, новостных организаций и социальных платформ по ценам, которые пять лет назад показались бы абсурдными.

Grass Protocol убеждён, что нашёл лучший ответ. Выстроенный на Solana как суверенный data rollup, Grass создал глобальную сеть из 8,5 миллиона ежемесячно активных узлов, собирающих публичные веб-данные петабайтного масштаба и преобразующих их в верифицированные структурированные датасеты для обучения ИИ. Сеть уже превысила $12,8 млн квартальной выручки от ИИ-компаний, платящих за реальные данные — а не синтетические заменители, — и оценивается примерно в $1 млрд инвесторами, включая Polychain Capital, Tribe Capital и Hack VC.

Кризис, о котором ИИ-компании не говорят публично

Чтобы понять, почему Grass важен, сначала нужно осознать серьёзность проблемы с данными.

Когда OpenAI обучала GPT-4, Anthropic — Claude, а Google — Gemini, они совокупно поглотили большую часть высококачественного публичного текста, когда-либо созданного в интернете. Веб не регенерирует достаточно быстро, чтобы кормить следующее поколение моделей с тем же порогом качества. Исследования Epoch AI показывают: при нынешних темпах потребления полезная доля интернет-текста — та, что действительно улучшает возможности модели, — будет фактически исчерпана в течение этого десятилетия.

Ведущие ИИ-лаборатории реагируют тремя способами, каждый из которых имеет серьёзные недостатки.

Первый подход — лицензирование. News Corp подписала пятилетнее соглашение с OpenAI стоимостью более $250 млн. Reddit, по имеющимся данным, получает $203 млн в год за доступ к API от крупных ИИ-лабораторий. Подобные сделки гарантируют доступ к качественному контенту, однако обходятся чрезвычайно дорого и сосредотачивают цепочку поставок данных ИИ в руках горстки крупных медиа-холдингов и платформенных операторов.

Второй подход — синтетические данные: генерация обучающих примеров с помощью самих ИИ-моделей. Проблема хорошо задокументирована в научной литературе: обучение последовательных поколений моделей на контенте, созданном ИИ, вызывает «коллапс модели» — деградационную спираль, при которой выходные данные становятся всё более шаблонными, галлюцинаторными и оторванными от реальности. Подлинные знания о мире невозможно получить, скармливая моделям их собственные отражения.

Третий подход — тот, что пионирует Grass, — это децентрализованный веб-скрапинг в масштабе резидентных IP. И он решает конкретную техническую проблему, которую централизованные скраперы решить не могут.

Почему резидентные IP меняют всё

Когда крупные ИИ-лаборатории пытаются скрапить веб, их дата-центры блокируются. Сайты распознают диапазоны IP дата-центров и отвечают CAPTCHA, проверками на ботов или прямым отказом в доступе. Более трети крупных сайтов теперь целенаправленно блокируют известные адреса ИИ-скраперов. Данные, которые всё же удаётся получить, становятся всё более неполными, смещёнными в сторону сайтов, не утруждающих себя блокировкой, и лишёнными динамичного персонализированного контента, который делает современные веб-данные ценными.

Узлы Grass работают как лёгкие браузерные расширения на устройствах реальных пользователей с настоящими резидентными IP-адресами. С точки зрения сайта, трафик Grass неотличим от обычного пользователя, который просто сёрфит в сети. Это означает, что Grass может достичь тех частей веба, которые недоступны скраперам дата-центров — не потому что он обходит меры безопасности, а потому что действительно представляет распределённую активность реальных людей.

Результатом становится принципиально иной датасет. Узлы Grass суммарно обрабатывают около 1 петабайта веб-данных ежедневно в 190 странах, охватывая контент на локальных языках, региональных доменах и за географическими ограничениями, которые централизованная американская операция по скрапингу никогда бы не увидела. Для ИИ-компаний, обучающих многоязычные модели или создающих продукты для глобальных рынков, эта географическая разнородность — не приятная добавка, а обязательное условие.

Как сеть работает на самом деле

Оператор узла Grass устанавливает расширение и делится неиспользуемой пропускной способностью. Инфраструктура Wynd Labs маршрутизирует задачи скрапинга через эти узлы, собирая необработанный веб-контент. Именно здесь Web3-архитектура приобретает техническую значимость: вместо того чтобы доверять центральному серверу сообщать о собранном и верифицировать его точность, Grass использует доказательства с нулевым разглашением для криптографического подтверждения того, что именно каждый узел собрал, когда и откуда.

Этот слой провенанса превращает необработанные скрапированные данные в нечто, которому ИИ-компании действительно могут доверять. Каждый датасет, продаваемый через маркетплейс Grass, несёт в блокчейне запись о своём происхождении — возможность, приобретающая коммерческое значение по мере ужесточения регулирования ИИ во всём мире. Европейский акт об ИИ, разрабатываемое американское законодательство об ИИ и формирующиеся авторско-правовые механизмы создают юридическое давление вокруг источников обучающих данных. Доказуемый и проверяемый провенанс данных стремительно превращается из приятной функции в юридическое требование.

Обновление Sion в феврале 2025 года расширило возможности Grass с текста до полноценных мультимодальных данных. Оно внедрило конвейеры обработки изображений и 4K-видео, увеличило пропускную способность данных в 10 раз и кратковременно подняло суточный сбор до рекордных 1 700 ТБ, после чего показатель стабилизировался примерно на уровне 1 000 ТБ в день. Для ИИ-компаний, создающих модели компьютерного зрения, системы понимания видео или мультимодальных ассистентов, это позиционирует Grass как редкий источник реальных, географически разнообразных визуальных обучающих данных.

Бизнес-модель: реальная выручка от реальных клиентов

Одним из наиболее убедительных сигналов о соответствии продукта Grass рынку является траектория его выручки. В секторе DePIN, где большинство проектов существует исключительно на эмиссии токенов и спекулятивной оценке, Grass отчитался о выручке за IV квартал 2025 года в размере около $12,8 млн, причём только октябрь и ноябрь принесли более $10 млн. ИИ-компании платят реальные деньги за эти данные.

Токен GRASS находится в центре экономической конструкции сети. Операторы узлов получают GRASS за вклад в сбор данных. ИИ-компании платят в GRASS (или эквиваленте) за доступ к датасетам. Токен-управление позволяет сообществу определять приоритеты развития сети. При фиксированном предложении в 1 млрд токенов и 240 млн в обращении токеномика создаёт прямую связь между ростом спроса на данные и стоимостью сети — редкий случай токен-утилити, чётко привязанного к реальному использованию продукта.

Hack VC, лидировавший в раунде Серии A, оценившем Grass примерно в $1 млрд, опубликовал детальный инвестиционный тезис о том, что Grass строит инфраструктуру, аналогичную той, что Bloomberg создал для финансовых данных, — только децентрализованную, без разрешений и принадлежащую участникам, создающим ценность. Сравнение провокационно, но небезосновательно: терминал Bloomberg приносит более $6 млрд годовой выручки, делая финансовые данные доступными и надёжными. Рынок обучающих данных для ИИ может быть сопоставимого или большего масштаба.

Конкурентные позиции в децентрализованном стеке данных

Grass конкурирует в более широкой экосистеме децентрализованных ИИ-инфраструктурных проектов, но занимает отдельную нишу.

Ocean Protocol, наиболее зрелый децентрализованный маркетплейс данных, сосредоточен на том, чтобы позволить владельцам данных монетизировать уже имеющиеся датасеты — корпоративные данные, исследовательские репозитории, частные сенсорные сети — через архитектуру «Compute-to-Data». Ocean входит в экосистему ASI наряду с Fetch.ai и SingularityNET, делая упор на вычислениях с сохранением конфиденциальности, а не на сборе свежих веб-данных.

Render Network решает совершенно иное узкое место: GPU-вычисления для рендеринга и инференса ИИ, а не сбор данных. При $38 млн выручки только в январе 2026 года Render демонстрирует огромный спрос на децентрализованные вычисления, однако решает проблему обработки — ниже по цепочке от точки, где работает Grass.

Уникальное преимущество Grass — свежий, непрерывный сбор реальных веб-данных в масштабе и географическом охвате, которого ни один централизованный конкурент не может достичь без масштабных инвестиций в IP-инфраструктуру. Комбинация доступа через резидентные IP, ZK-верифицированного провенанса, мультимодальных возможностей после Sion и нативного расчёта на Solana формирует стек, который было бы крайне сложно воспроизвести с нуля.

Риски, которые стоит понимать

Grass не лишён реальных рисков. Правовая среда вокруг крупномасштабного веб-скрапинга остаётся спорной. Ряд крупных издателей инициировал судебные разбирательства против ИИ-компаний, скрапивших их контент без разрешения. Позиция Grass — что он помогает ИИ-лабораториям эффективнее получать доступ к публичному веб-контенту — сталкивается с теми же правовыми вопросами, что и централизованные скраперы, а распределённая архитектура резидентных IP автоматически не снимает вопросов об авторских правах на исходный контент.

Конкурентный ров реален, но не непреодолим. Достаточно капитализированный конкурент мог бы построить аналогичную резидентную сеть, стимулируя пользователей через конкурирующий токен. У Grass есть форы с 8,5 млн узлов, однако сетевые эффекты в сетях совместного использования пропускной способности мягче, чем в социальных платформах или финансовых рынках — пользователи могут легко одновременно запускать несколько инструментов совместного использования полосы пропускания.

Волатильность цены токена также создаёт риск оттока операторов узлов. Если стоимость токена GRASS значительно упадёт, экономический стимул к работе узла ослабнет, что потенциально сожмёт сеть именно тогда, когда ей нужен масштаб для выполнения корпоративных контрактов на данные. Промежуточный раунд на $10 млн и выручка от ИИ-клиентов обеспечивают реальный денежный поток для поддержки вознаграждений сети сверх чистой эмиссии токенов, что существенно снижает этот риск по сравнению с большинством DePIN-проектов.

Как выглядит успех

Дорожная карта Grass на 2026 год включает мобильное расширение (приложения для Android и iOS для задействования неиспользуемой мобильной пропускной способности), получение живого контекста для инференса ИИ в режиме реального времени, а не только для обучающих данных, и семантический мультимодальный поиск по собранному сетью контенту в формате 4K-видео, аудио и текста.

Если Grass реализует дорожную карту, он превратится из сети сбора данных в слой информации реального времени — разница между библиотекой обучающих материалов и живым потоком, который ИИ-системы могут непрерывно запрашивать. Такой продукт значительно более защищён от конкуренции и более ценен, чем пакетные продажи датасетов.

Более глубокий тезис Grass состоит в том, что цепочка поставок данных для ИИ была централизована случайно, а не по необходимости. Крупные ИИ-лаборатории выстраивали обучающую инфраструктуру так же, как облачные компании — вычислительную: в огромных масштабах, в собственных объектах, под собственным контролем. Но данные, в отличие от вычислений, генерируются повсюду и всеми. Децентрализованная сеть, перенаправляющая эту генерацию в общий, верифицируемый и вознаграждаемый конвейер, может оказаться просто более естественной экономической структурой для данной проблемы.

При 8,5 млн участников уже в сети, $12,8 млн квартальной выручки от реальных ИИ-клиентов и миллиардной оценке, поддержанной институциональными инвесторами, понимающими рынок, Grass уверенно вышел за рамки фазы «интересного эксперимента». Станет ли он Bloomberg для обучающих данных ИИ — зависит от регуляторной толерантности, конкурентной динамики и того, ужесточится ли кризис дефицита данных так быстро, как предсказывают исследователи.

Умный расчёт говорит, что да.


BlockEden.xyz предоставляет Solana RPC и API-инфраструктуру корпоративного класса для разработчиков, работающих с самыми быстрорастущими приложениями сети. Если вы создаёте Web3-продукты, смежные с ИИ, или нуждаетесь в надёжном доступе к слою данных Solana, изучите наш API-маркетплейс.