Переворот в инференсе: почему децентрализованные GPU-сети побеждают в гонке за обслуживание самой быстрорастущей нагрузки ИИ

27 марта 2026 г. · 9 мин чтения

Software Engineer

NVIDIA настолько отчаянно нуждается в энергии, что на GTC 2026 только что анонсировала орбитальные центры обработки данных. Между тем, две трети всех вычислений ИИ в этом году вообще не коснутся кластеров обучения — это будет инференс, не самая эффектная, но критически важная работа по фактическому запуску моделей для реальных пользователей. И децентрализованные сети GPU незаметно становятся наиболее подходящей инфраструктурой для его обеспечения.

Великая инверсия вычислений

На протяжении большей части современной эры ИИ в обсуждениях — и в капитале — доминировало обучение. Создание передовой модели означало блокировку тысяч взаимосвязанных H100 на месяцы и сжигание мегаватт энергии в одном дата-центре. Такая концентрация сделала централизованных гиперскейлеров естественными монополистами.

Но экономика перевернулась. По оценкам Deloitte, в 2025 году на рабочие нагрузки инференса приходилась половина всех вычислений ИИ. К 2026 году эта цифра подскочит до двух третей. Только рынок чипов, оптимизированных для инференса, по прогнозам, в этом году превысит $ 50 миллиардов.

Почему произошел этот сдвиг? Потому что предприятия перестали экспериментировать и начали внедрять. Каждый чат-бот, каждый ИИ-копилот, каждый автономный агент, работающий в продакшене, — это нагрузка инференса, и, в отличие от обучения, инференс не прекращается. Одно развертывание класса GPT-4, обслуживающее миллионы пользователей, генерирует больший совокупный спрос на вычисления, чем многомесячный цикл обучения, в ходе которого была создана модель.

Вот критическое архитектурное различие: обучение требует тысяч GPU, тесно связанных через NVLink на одном объекте. Инференс — нет. Один GPU — или небольшой кластер — может независимо обслуживать запросы к модели. Это делает инференс по своей сути распределяемым, географически гибким и идеально подходящим для децентрализованных сетей.

Почему задержка — это новое узкое место

Переход к инференсу привносит ограничение, ради которого централизованным облакам никогда не приходилось оптимизироваться в эпоху обучения: задержка (latency).

Агентные системы ИИ — автономные инструменты, которые воспринимают информацию, рассуждают и действуют от имени пользователей — требуют времени отклика, измеряемого десятками миллисекунд. Торговый бот, выполняющий арбитраж, ИИ-ассистент, обрабатывающий голосовые команды, протокол DeFi, маршрутизирующий ликвидность в реальном времени — ничто из этого не может допустить задержку более 200 мс при обращении к централизованному дата-центру на другом континенте.

Отраслевые аналитики теперь определяют «краевой инференс» (edge inference) как вычисления, развернутые в пределах 100 миль от крупных мегаполисов. Это проблема географического распределения, а не чистой вычислительной мощности. И это проблема, которую сеть из более чем 50 000 распределенных хостов GPU решает более естественно, чем несколько гигантских объектов в Вирджинии, Орегоне и Ирландии.

Тезис о DePIN-инференсе — подтверждено в масштабе

Децентрализованные сети физической инфраструктуры (DePIN) изначально позиционировались как способ краудсорсинга недоиспользуемого оборудования. Ранняя критика была справедливой: децентрализованные вычисления не могли обеспечить тесную связь, необходимую для обучения передовых моделей. Но инференс полностью меняет расчет.

Цифры говорят сами за себя. CoinGecko сейчас отслеживает почти 250 DePIN-проектов с совокупной рыночной капитализацией более $19 миллиардов — это на 265 % больше по сравнению с$ 5,2 миллиарда всего 12 месяцами ранее. DePIN, связанные с ИИ, доминируют, составляя 48 % от общей рыночной капитализации.

Более того, эти сети больше не являются теоретическими. Идет реальный производственный трафик:

Akash Network сообщила о росте использования на 428 % в годовом исчислении при загрузке мощностей более 80 %. Сервис AkashML, запущенный в конце 2025 года, предлагает OpenAI-совместимый API, который направляет трафик в ближайший из 80+ глобальных дата-центров, обеспечивая время отклика менее 200 мс. Экономия средств: до 85 % по сравнению с традиционным облаком.
Aethir предоставила более 1,4 миллиарда часов вычислений и сообщила о квартальной выручке в размере почти $ 40 миллионов, став одним из первых DePIN-проектов, продемонстрировавших пропускную способность на уровне гиперскейлеров.
Nosana преодолела отметку в 50 000 независимых хостов GPU, сосредоточившись именно на рабочих нагрузках инференса, таких как генерация изображений Stable Diffusion и обслуживание LLM в своей сети на базе Solana.

Экономика: на 45–60 % дешевле, но с оговорками

Цены на чистые мощности GPU в сетях DePIN значительно ниже, чем у гиперскейлеров. Hyperbolic предлагает инстансы NVIDIA H100 по цене $1,49/час — по сравнению с$ 3,90/час у AWS (после снижения цен в 2025 году), $6,98/час у Azure и$ 3,00/час у Google Cloud.

Для стартапа, запускающего инференс для чат-бота или сервиса генерации изображений, это означает снижение затрат на инфраструктуру на 45–60 %. В масштабе экономия суммируется: предприятие, тратящее $1 миллион в месяц на вычисления для инференса, могло бы вместо этого перенаправить$ 450 000 – $ 600 000 в год на разработку продукта.

Но чистая цена — это еще не вся картина. Изменчивость надежности в децентрализованных сетях может вынудить к избыточному резервированию — вам может потребоваться зарезервировать на 20–30 % больше мощностей, чтобы гарантировать SLA по доступности, сравнимый с 99,99 % у AWS. Операционная сложность выше. А требования корпоративного комплаенса (SOC 2, HIPAA) остаются барьером для регулируемых отраслей.

Проекты, решающие эти проблемы напрямую, набирают обороты. Предстоящий протокол Proof of Sampling (PoSP) от Hyperbolic, разработанный совместно с исследователями из Калифорнийского университета в Беркли и Колумбийского университета, обеспечит криптографическую проверку правильности вычислений результатов инференса без необходимости доверять поставщику GPU. Инициатива Starcluster от Akash сочетает в себе принадлежащие протоколу дата-центры корпоративного уровня с децентрализованным маркетплейсом, создавая гибридную модель, которая предлагает как экономию средств, так и гарантии надежности.

Парадокс Vera Rubin

На GTC 2026 генеральный директор NVIDIA Дженсен Хуанг представил платформу Vera Rubin — семь новых чипов и пять типов стоек, спроектированных как один массивный суперкомпьютер для ИИ. Ключевой показатель: 10-кратное увеличение производительности на ватт по сравнению с предшественником Grace Blackwell, что генерирует в 5 раз больше дохода на гигаватт.

Хуанг также спрогнозировал совокупный объем заказов на Blackwell и Vera Rubin в размере 1 триллиона долларов до 2027 года. И, пожалуй, самым красноречивым признаком того, насколько серьезным стал энергетический кризис, стало объявление NVIDIA о Vera Rubin Space-1 — орбитальных дата-центрах, предназначенных для полного обхода ограничений наземных энергосистем.

Вот в чем заключается парадокс: прирост эффективности Vera Rubin экстраординарен, но они предназначены для ИИ-фабрик гигаваттного масштаба — централизованных объектов, настолько энергоемких, что NVIDIA буквально ищет решения в космосе. В то же время рабочие нагрузки инференса (логического вывода ИИ) не требуют гигаваттных мощностей. Им необходимы тысячи более мелких развертываний, географически распределенных и находящихся ближе к конечным пользователям.

NVIDIA строит самые мощные централизованные машины для инференса, когда-либо задуманные. Сети DePIN строят самые распределенные. Вопрос не в том, какой подход победит, а в том, какие рабочие нагрузки каждый из них обслуживает лучше всего. Обучение фронтирных моделей и массовый пакетный инференс продолжат существовать в централизованных центрах. Инференс в реальном времени, чувствительный к задержкам и географически разнообразный — это то, где децентрализованные сети имеют структурное преимущество.

Специализированный уровень инференса

Следующий этап эволюции уже наступает: специализированные DePIN-сети для инференса, которые выходят за рамки общего совместного использования GPU.

Ritual позиционирует себя как первый ИИ-сопроцессор для блокчейнов — позволяющий смарт-контрактам запрашивать инференс нейронных сетей так же, как они запрашивают ценовые данные у оракулов. Это создает нативный ончейн-слой инференса, где протоколы DeFi могут интегрировать принятие решений ИИ, не полагаясь на доверие к оффчейн-API.

Hyperbolic строит верифицируемую сеть инференса, где каждое вычисление криптографически доказуемо. Для предприятий, которым необходим аудит результатов работы ИИ — финансовые услуги, здравоохранение, юриспруденция — это решает проблему доверия, которая мешала им внедрять децентрализованные вычисления.

Эти специализированные сети представляют собой зрелость DePIN: переход от «дешевых GPU» к инфраструктуре, которая решает проблемы, непосильные для централизованных облаков: верифицируемые вычисления, ончейн-интеграция и географическое распределение с такой детализацией, которую ни одному гиперскейлеру не будет экономически рационально воспроизводить.

Что будет дальше

Эра инференса подтверждает исходный тезис DePIN лучше, чем когда-либо могло обучение. Обучение требует тесной связи; инференс требует широкого распределения. Обучение — это пакетный процесс; инференс непрерывен. Обучение — это центр затрат; инференс — это место, где генерируется доход.

Три события, за которыми стоит следить в ближайшие 12 месяцев:

Гибридное внедрение на предприятиях: Модель Starcluster от Akash — сочетание проприетарного корпоративного оборудования с децентрализованными мощностями — станет шаблоном. Предприятия не перейдут на полную децентрализацию в одночасье, но они будут все чаще использовать сети DePIN для покрытия пиковых нагрузок и развертывания на периферии (edge).
Верифицируемый инференс становится обязательным стандартом: Поскольку ИИ-агенты обрабатывают финансовые транзакции, медицинские решения и юридический анализ, возможность доказать, что инференс был вычислен правильно, перейдет из разряда желаемых функций в разряд регуляторных требований. Проекты вроде Hyperbolic и Ritual строят эту инфраструктуру уже сейчас.
Рынок чипов для инференса объемом 50 миллиардов долларов создает разнообразие оборудования: По мере того как NVIDIA, AMD, Intel и производители специализированных ASIC наводняют рынок оптимизированным для инференса кремнием, сети DePIN будут агрегировать это неоднородное оборудование более эффективно, чем любой отдельный облачный провайдер, предлагая оптимизацию под конкретные задачи, с которой гиперскейлеры не смогут сравниться.

Мировой рынок инфраструктуры ИИ, по прогнозам, достигнет 1,36 триллиона долларов в 2026 году. Большая часть этих расходов смещается с кластеров обучения на инфраструктуру инференса. Децентрализованные сети GPU не захватят весь рынок — но им это и не нужно. Даже однозначный процент рынка инференса представляет собой многомиллиардную возможность для сетей DePIN, которые смогут обеспечить надежность, низкую задержку и выгодную стоимость.

Эра обучения принадлежала централизованным гиперскейлерам. Эра инференса открыта для всех — и архитектура децентрализованных сетей может быть именно тем, чего она требует.

BlockEden.xyz предоставляет высокопроизводительную API-инфраструктуру для ведущих блокчейн-сетей, включая Sui, Aptos и Ethereum — тех самых сетей, на которых строятся протоколы DePIN следующего поколения. Изучите наш маркетплейс API, чтобы создавать продукты на базе инфраструктуры, разработанной для децентрализованного будущего.

Share on Twitter

API Marketplace Featured

Великая инверсия вычислений​

Почему задержка — это новое узкое место​

Тезис о DePIN-инференсе — подтверждено в масштабе​

Экономика: на 45–60 % дешевле, но с оговорками​

Парадокс Vera Rubin​

Специализированный уровень инференса​

Что будет дальше​