Перейти к основному контенту

Переворот в инференсе: почему децентрализованные GPU-сети побеждают в гонке за обслуживание самой быстрорастущей нагрузки ИИ

· 9 мин чтения
Dora Noda
Software Engineer

NVIDIA настолько отчаянно нуждается в энергии, что на GTC 2026 только что анонсировала орбитальные центры обработки данных. Между тем, две трети всех вычислений ИИ в этом году вообще не коснутся кластеров обучения — это будет инференс, не самая эффектная, но критически важная работа по фактическому запуску моделей для реальных пользователей. И децентрализованные сети GPU незаметно становятся наиболее подходящей инфраструктурой для его обеспечения.

Великая инверсия вычислений

На протяжении большей части современной эры ИИ в обсуждениях — и в капитале — доминировало обучение. Создание передовой модели означало блокировку тысяч взаимосвязанных H100 на месяцы и сжигание мегаватт энергии в одном дата-центре. Такая концентрация сделала централизованных гиперскейлеров естественными монополистами.

Но экономика перевернулась. По оценкам Deloitte, в 2025 году на рабочие нагрузки инференса приходилась половина всех вычислений ИИ. К 2026 году эта цифра подскочит до двух третей. Только рынок чипов, оптимизированных для инференса, по прогнозам, в этом году превысит $ 50 миллиардов.

Почему произошел этот сдвиг? Потому что предприятия перестали экспериментировать и начали внедрять. Каждый чат-бот, каждый ИИ-копилот, каждый автономный агент, работающий в продакшене, — это нагрузка инференса, и, в отличие от обучения, инференс не прекращается. Одно развертывание класса GPT-4, обслуживающее миллионы пользователей, генерирует больший совокупный спрос на вычисления, чем многомесячный цикл обучения, в ходе которого была создана модель.

Вот критическое архитектурное различие: обучение требует тысяч GPU, тесно связанных через NVLink на одном объекте. Инференс — нет. Один GPU — или небольшой кластер — может независимо обслуживать запросы к модели. Это делает инференс по своей сути распределяемым, географически гибким и идеально подходящим для децентрализованных сетей.

Почему задержка — это новое узкое место

Переход к инференсу привносит ограничение, ради которого централизованным облакам никогда не приходилось оптимизироваться в эпоху обучения: задержка (latency).

Агентные системы ИИ — автономные инструменты, которые воспринимают информацию, рассуждают и действуют от имени пользователей — требуют времени отклика, измеряемого десятками миллисекунд. Торговый бот, выполняющий арбитраж, ИИ-ассистент, обрабатывающий голосовые команды, протокол DeFi, маршрутизирующий ликвидность в реальном времени — ничто из этого не может допустить задержку более 200 мс при обращении к централизованному дата-центру на другом континенте.

Отраслевые аналитики теперь определяют «краевой инференс» (edge inference) как вычисления, развернутые в пределах 100 миль от крупных мегаполисов. Это проблема географического распределения, а не чистой вычислительной мощности. И это проблема, которую сеть из более чем 50 000 распределенных хостов GPU решает более естественно, чем несколько гигантских объектов в Вирджинии, Орегоне и Ирландии.

Тезис о DePIN-инференсе — подтверждено в масштабе

Децентрализованные сети физической инфраструктуры (DePIN) изначально позиционировались как способ краудсорсинга недоиспользуемого оборудования. Ранняя критика была справедливой: децентрализованные вычисления не могли обеспечить тесную связь, необходимую для обучения передовых моделей. Но инференс полностью меняет расчет.

Цифры говорят сами за себя. CoinGecko сейчас отслеживает почти 250 DePIN-проектов с совокупной рыночной капитализацией более 19миллиардов—этона26519 миллиардов — это на 265 % больше по сравнению с 5,2 миллиарда всего 12 месяцами ранее. DePIN, связанные с ИИ, доминируют, составляя 48 % от общей рыночной капитализации.

Более того, эти сети больше не являются теоретическими. Идет реальный производственный трафик:

  • Akash Network сообщила о росте использования на 428 % в годовом исчислении при загрузке мощностей более 80 %. Сервис AkashML, запущенный в конце 2025 года, предлагает OpenAI-совместимый API, который направляет трафик в ближайший из 80+ глобальных дата-центров, обеспечивая время отклика менее 200 мс. Экономия средств: до 85 % по сравнению с традиционным облаком.

  • Aethir предоставила более 1,4 миллиарда часов вычислений и сообщила о квартальной выручке в размере почти $ 40 миллионов, став одним из первых DePIN-проектов, продемонстрировавших пропускную способность на уровне гиперскейлеров.

  • Nosana преодолела отметку в 50 000 независимых хостов GPU, сосредоточившись именно на рабочих нагрузках инференса, таких как генерация изображений Stable Diffusion и обслуживание LLM в своей сети на базе Solana.

Экономика: на 45–60 % дешевле, но с оговорками

Цены на чистые мощности GPU в сетях DePIN значительно ниже, чем у гиперскейлеров. Hyperbolic предлагает инстансы NVIDIA H100 по цене 1,49/час—посравнениюс1,49/час — по сравнению с 3,90/час у AWS (после снижения цен в 2025 году), 6,98/часуAzureи6,98/час у Azure и 3,00/час у Google Cloud.

Для стартапа, запускающего инференс для чат-бота или сервиса генерации изображений, это означает снижение затрат на инфраструктуру на 45–60 %. В масштабе экономия суммируется: предприятие, тратящее 1миллионвмесяцнавычислениядляинференса,моглобывместоэтогоперенаправить1 миллион в месяц на вычисления для инференса, могло бы вместо этого перенаправить 450 000 – $ 600 000 в год на разработку продукта.

Но чистая цена — это еще не вся картина. Изменчивость надежности в децентрализованных сетях может вынудить к избыточному резервированию — вам может потребоваться зарезервировать на 20–30 % больше мощностей, чтобы гарантировать SLA по доступности, сравнимый с 99,99 % у AWS. Операционная сложность выше. А требования корпоративного комплаенса (SOC 2, HIPAA) остаются барьером для регулируемых отраслей.

Проекты, решающие эти проблемы напрямую, набирают обороты. Предстоящий протокол Proof of Sampling (PoSP) от Hyperbolic, разработанный совместно с исследователями из Калифорнийского университета в Беркли и Колумбийского университета, обеспечит криптографическую проверку правильности вычислений результатов инференса без необходимости доверять поставщику GPU. Инициатива Starcluster от Akash сочетает в себе принадлежащие протоколу дата-центры корпоративного уровня с децентрализованным маркетплейсом, создавая гибридную модель, которая предлагает как экономию средств, так и гарантии надежности.

Парадокс Vera Rubin

На GTC 2026 генеральный директор NVIDIA Дженсен Хуанг представил платформу Vera Rubin — семь новых чипов и пять типов стоек, спроектированных как один массивный суперкомпьютер для ИИ. Ключевой показатель: 10-кратное увеличение производительности на ватт по сравнению с предшественником Grace Blackwell, что генерирует в 5 раз больше дохода на гигаватт.

Хуанг также спрогнозировал совокупный объем заказов на Blackwell и Vera Rubin в размере 1 триллиона долларов до 2027 года. И, пожалуй, самым красноречивым признаком того, насколько серьезным стал энергетический кризис, стало объявление NVIDIA о Vera Rubin Space-1 — орбитальных дата-центрах, предназначенных для полного обхода ограничений наземных энергосистем.

Вот в чем заключается парадокс: прирост эффективности Vera Rubin экстраординарен, но они предназначены для ИИ-фабрик гигаваттного масштаба — централизованных объектов, настолько энергоемких, что NVIDIA буквально ищет решения в космосе. В то же время рабочие нагрузки инференса (логического вывода ИИ) не требуют гигаваттных мощностей. Им необходимы тысячи более мелких развертываний, географически распределенных и находящихся ближе к конечным пользователям.

NVIDIA строит самые мощные централизованные машины для инференса, когда-либо задуманные. Сети DePIN строят самые распределенные. Вопрос не в том, какой подход победит, а в том, какие рабочие нагрузки каждый из них обслуживает лучше всего. Обучение фронтирных моделей и массовый пакетный инференс продолжат существовать в централизованных центрах. Инференс в реальном времени, чувствительный к задержкам и географически разнообразный — это то, где децентрализованные сети имеют структурное преимущество.

Специализированный уровень инференса

Следующий этап эволюции уже наступает: специализированные DePIN-сети для инференса, которые выходят за рамки общего совместного использования GPU.

Ritual позиционирует себя как первый ИИ-сопроцессор для блокчейнов — позволяющий смарт-контрактам запрашивать инференс нейронных сетей так же, как они запрашивают ценовые данные у оракулов. Это создает нативный ончейн-слой инференса, где протоколы DeFi могут интегрировать принятие решений ИИ, не полагаясь на доверие к оффчейн-API.

Hyperbolic строит верифицируемую сеть инференса, где каждое вычисление криптографически доказуемо. Для предприятий, которым необходим аудит результатов работы ИИ — финансовые услуги, здравоохранение, юриспруденция — это решает проблему доверия, которая мешала им внедрять децентрализованные вычисления.

Эти специализированные сети представляют собой зрелость DePIN: переход от «дешевых GPU» к инфраструктуре, которая решает проблемы, непосильные для централизованных облаков: верифицируемые вычисления, ончейн-интеграция и географическое распределение с такой детализацией, которую ни одному гиперскейлеру не будет экономически рационально воспроизводить.

Что будет дальше

Эра инференса подтверждает исходный тезис DePIN лучше, чем когда-либо могло обучение. Обучение требует тесной связи; инференс требует широкого распределения. Обучение — это пакетный процесс; инференс непрерывен. Обучение — это центр затрат; инференс — это место, где генерируется доход.

Три события, за которыми стоит следить в ближайшие 12 месяцев:

  1. Гибридное внедрение на предприятиях: Модель Starcluster от Akash — сочетание проприетарного корпоративного оборудования с децентрализованными мощностями — станет шаблоном. Предприятия не перейдут на полную децентрализацию в одночасье, но они будут все чаще использовать сети DePIN для покрытия пиковых нагрузок и развертывания на периферии (edge).

  2. Верифицируемый инференс становится обязательным стандартом: Поскольку ИИ-агенты обрабатывают финансовые транзакции, медицинские решения и юридический анализ, возможность доказать, что инференс был вычислен правильно, перейдет из разряда желаемых функций в разряд регуляторных требований. Проекты вроде Hyperbolic и Ritual строят эту инфраструктуру уже сейчас.

  3. Рынок чипов для инференса объемом 50 миллиардов долларов создает разнообразие оборудования: По мере того как NVIDIA, AMD, Intel и производители специализированных ASIC наводняют рынок оптимизированным для инференса кремнием, сети DePIN будут агрегировать это неоднородное оборудование более эффективно, чем любой отдельный облачный провайдер, предлагая оптимизацию под конкретные задачи, с которой гиперскейлеры не смогут сравниться.

Мировой рынок инфраструктуры ИИ, по прогнозам, достигнет 1,36 триллиона долларов в 2026 году. Большая часть этих расходов смещается с кластеров обучения на инфраструктуру инференса. Децентрализованные сети GPU не захватят весь рынок — но им это и не нужно. Даже однозначный процент рынка инференса представляет собой многомиллиардную возможность для сетей DePIN, которые смогут обеспечить надежность, низкую задержку и выгодную стоимость.

Эра обучения принадлежала централизованным гиперскейлерам. Эра инференса открыта для всех — и архитектура децентрализованных сетей может быть именно тем, чего она требует.


BlockEden.xyz предоставляет высокопроизводительную API-инфраструктуру для ведущих блокчейн-сетей, включая Sui, Aptos и Ethereum — тех самых сетей, на которых строятся протоколы DePIN следующего поколения. Изучите наш маркетплейс API, чтобы создавать продукты на базе инфраструктуры, разработанной для децентрализованного будущего.