Перейти к основному контенту

Gensyn Judge: Недостающий уровень проверки качества для децентрализованного ИИ

· 13 мин чтения
Dora Noda
Software Engineer

Децентрализованный ИИ потратил пять лет на поиск ответа на неверный вопрос. Весь стек — подсети Bittensor, маркетплейс обучения Gensyn, сеть инференса Ambient, любая система доказательств ZKML — был одержим доказательством того, что вычисление произошло. Майнер выполнил инференс. Узел обучался N часов на нужном наборе данных. GPU выдал заявленные логиты (logits). Все это было криптографически, красиво и дорого верифицировано.

Но ничто из этого не отвечает на вопрос, который на самом деле задает специалист по корпоративным закупкам: хороша ли модель?

Запуск Judge от Gensyn в конце апреля 2026 года — это первая серьезная попытка восполнить этот пробел. Это не очередной механизм консенсуса. Это не очередное «доказательство чего-либо» (proof-of-something). Это верифицируемый уровень оценки, который отделяет факт «обучение состоялось» от факта «обучение прошло корректно» — и это различие может стать важнейшим примитивом, выпущенным DeAI в этом цикле.

В стеке верификации есть брешь

Чтобы понять, почему Judge важен, нужно посмотреть на то, что на самом деле проверяет существующий стек верификации DeAI — и о чем он умалчивает.

Verde от Gensyn (протокол, лежащий в основе Judge) подтверждает, что конкретный шаг обучения на конкретном операторе нейронной сети выдал правильный результат. Несколько не доверяющих друг другу провайдеров выполняют одну и ту же задачу; если результаты расходятся, арбитр находит в вычислительном графе именно тот оператор, на котором возникло несогласие, и перезапускает только эту операцию. Элегантно, дешево и доказуемо правильно — для конкретного шага.

Proof-of-Logits от Ambient, который привлек $7,2 млн от a16z CSX и работает на L1-сети, совместимой с Solana SVM, подтверждает, что инференс был выполнен на согласованной модели. Майнер генерирует текст, верификатор случайным образом выбирает токен, майнер предоставляет соответствующие логиты, а верификатор независимо перезапускает этот единственный шаг инференса. Если хеш совпадает, инференс считается верифицированным с заявленными накладными расходами в 0,1% для модели с более чем 600 млрд параметров.

DeepProve от Lagrange, первая система zkML, доказавшая полный инференс LLM (изначально GPT-2), идет еще дальше: криптографическое подтверждение с нулевым разглашением того, что нужная модель выдала верный результат на конкретный ввод. Но есть известная проблема — генерация доказательства происходит в тысячи раз медленнее, чем сам инференс.

Валидаторы подсетей Bittensor оценивают результаты майнеров на основе механизмов стимулирования, специфичных для конкретной подсети, — однако сами валидаторы имеют финансовую заинтересованность в результатах, которые они оценивают (пропорционально их стейку). Критика апреля 2026 года беспощадна: топ-10 валидаторов по размеру стейка контролируют примерно 65% голосов в основной сети, топ-3 — 38%, а исследователи в подсети 1 задокументировали, как майнеры выдавали кэшированные ответы на известные запросы валидаторов, полностью обходя этап реального инференса и при этом получая вознаграждения.

Заметьте закономерность. Каждая из этих систем проверяет процесс: умножение матриц было верным, инференс действительно был выполнен, модель, подписавшая результат, — это та самая модель, которая была заявлена. Ни одна из них не проверяет, что полученная модель — или полученный результат — хорошо справляется со своей задачей.

Именно в эту нишу входит Judge.

Что на самом деле делает Judge

Judge запускает заранее согласованную детерминированную модель ИИ на реальных входных данных и фиксирует обязательство, которое может быть оспорено публично. Построенный на базе Verde, он наследует арбитражное делегирование: несколько независимых узлов-верификаторов выполняют одну и ту же задачу оценки, а разногласия разрешаются путем перевычисления только того конкретного оператора, на котором результаты разошлись.

Техническим фундаментом является Reproducible Execution Environment (REE) от Gensyn — среда выполнения, гарантирующая побитовую точность воспроизведения на гетерогенных устройствах. Чтобы это работало, Gensyn создала специально оптимизированные ядра CUDA, которые обеспечивают ассоциативность и детерминизм в операциях (таких как редукция чисел с плавающей запятой), которые по умолчанию являются недетерминированными на GPU. Результат: одна и та же модель на одних и тех же входных данных выдает идентичные логиты вплоть до бита, независимо от того, запускаете ли вы ее на H100 в дата-центре Франкфурта или на 4090 в чьем-то подвале.

Это может показаться второстепенной технической деталью, но на самом деле это ключевой примитив. Побитовая воспроизводимость — это то, что позволяет стороннему верификатору оспорить заявление об оценке, перезапустив ее и получив точно такой же ответ. Без этого невозможно понять, является ли расхождение признаком мошенничества или просто шумом вычислений с плавающей запятой.

Этот фреймворк естественным образом масштабируется на любую область, где верифицируемое суждение критически важно, но трудно масштабируемо: бенчмарки для оценки, разрешение рынков предсказаний, лидерборды моделей и даже разрешение споров с помощью ИИ. В каждой из этих ситуаций Judge заменяет подход «поверьте мне, закрытый API сообщил, что модель набрала 87,3%».

«Закрытые API непрозрачны, обновляются незаметно и их невозможно воспроизвести»

Эта фраза из публикации Gensyn о запуске — маркетинговый слоган. Но это также и обвинительный акт против современной индустрии оценки.

Если вы — предприятие, покупающее модель ИИ в 2026 году, ваши варианты оценки ограничены:

  1. Доверять собственным бенчмаркам вендора. OpenAI, Anthropic, Google публикуют данные, полученные на их собственных инструментах оценки. Эти инструменты могут обновляться незаметно. Тестовый набор может попасть в обучающие данные. У вендора есть все стимулы оптимизировать модель под конкретную метрику.

  2. Доверять сторонним бенчмаркам. MMLU, HumanEval, SWE-bench, LMSYS Chatbot Arena. Они пользуются доверием, но это также закрытые API, управляемые небольшими командами, и исторически они уязвимы для загрязнения тестовой выборки. Когда семейство моделей o1 от OpenAI набрало 89% в задачах Codeforces, сразу возник вопрос: какая часть этого результата была заучиванием обучающей выборки, а какая — реальной способностью к обобщению?

  3. Запустить собственную оценку. Дорого, сложно стандартизировать и совершенно невозможно воспроизвести извне, если вы захотите опубликовать или продать результаты.

Judge — это четвертый вариант: публичная детерминированная оценка, которую может оспорить любой желающий, просто перезапустив ее. Закрытый API превращается в публичное обязательство.

Для децентрализованного ИИ это важнее, чем для централизованного, потому что проблема личной заинтересованности эмитента здесь структурно острее. Когда собственные валидаторы подсети Bittensor оценивают собственных майнеров этой же подсети, конфликт интересов заложен в сам протокол. Gensyn Judge устраняет личную заинтересованность эмитента на уровне архитектуры: узлы-верификаторы не являются производителями, и любое суждение может быть оспорено третьей стороной, не имеющей экономического интереса в результате.

Матрица сравнения, которой избегал DeAI

Давайте разберем, что на самом деле доказывает каждый примитив верификации, потому что маркетинг запутывал это в течение двух лет:

  • Verde / Gensyn (обучение): Этот этап обучения вычислил правильный градиент на согласованной модели и данных. Ничего не говорит о том, обобщается ли полученная модель.
  • Proof-of-Logits / Ambient (инференс): Этот вызов инференса выдал заявленные логиты из согласованной модели и промпта. Ничего не говорит о том, является ли ответ модели правильным или полезным.
  • ZKML / Lagrange DeepProve (инференс, нулевое разглашение): Этот конкретный инференс был выполнен правильно на этой конкретной модели, и я могу доказать это, не раскрывая модель или входные данные. Тот же охват, что и у Proof-of-Logits, но с гарантиями конфиденциальности и стоимостью примерно в 1000 раз выше.
  • Скоринг подсетей Bittensor (ранжирование результатов): Среди этих N результатов майнеров валидатор V ранжирует их в таком порядке, взвешенном по стейку V. Субъективно, подвержено манипуляциям и конфликтам интересов.
  • UMA Optimistic Oracle (истинность данных): Утверждение о внешней истине, разрешаемое человеком и считающееся окончательным, если оно не оспорено в течение определенного окна. Создано для финансовых данных, а не для качества вывода ML.
  • Gensyn Judge (оценка): Заранее зафиксированная процедура детерминированной оценки была правильно выполнена на реальных входных данных, и результат побитово воспроизводим любым проверяющим. Единственный пункт в этом списке, который нацелен на качество вывода верифицируемым и нейтральным способом.

Это не просто небольшое различие. Это разница между доказательством того, что подрядчик пришел на работу, и доказательством того, что он действительно построил дом по спецификации.

Почему корпоративные закупки не могут покупать DeAI без этого

Рынок корпоративных закупок ИИ находится на крутом подъеме — Precedence Research прогнозирует, что только ИИ в закупках вырастет с 4,25 млрд долларов в 2026 году до 39,20 млрд долларов к 2035 году при совокупном годовом темпе роста (CAGR) 28%. Исследования предприятий в стиле McKinsey оценивают расходы на один сценарий использования в 1,0–2,6 млн долларов для серьезных инициатив по внедрению ИИ. Ни одна часть этих денег сегодня не идет в DeAI, и причина не в пропускной способности или задержке. Причина в проверяемости качества.

Сотрудник по управлению рисками из списка Fortune 500 подпишет разрешение на вызов централизованного API к GPT-5 или Claude Opus, потому что поставщик берет на себя ответственность и предоставляет аудиторский след. Тот же сотрудник по рискам не может подписать разрешение на маршрутизацию инференса через подсеть Bittensor, майнеры которой могут выдавать кэшированные ответы, или на покупку модели, обученной коллективом Gensyn, чье единственное подтверждение — "шаги градиента были валидными". Нет механизма проверки того, что полученный артефакт пригоден для использования.

Judge меняет этот разговор, предоставляя отделу закупок инструмент, который структурно невозможен в централизованном мире: модель, результаты оценки которой не просто публикуются, но и публично перезапускаемы. Это более сильная гарантия, чем любой аудит SOC 2, потому что она подлежит постоянному опровержению, а не периодическому подтверждению.

Это также тот уровень, который позволяет DeAI конкурировать по критериям закупок, отличным от "мы дешевле". Децентрализованный инференс, который на 30% дешевле, чем AWS Bedrock, не сдвинет корпоративные бюджеты. Децентрализованный инференс, результаты которого сопровождаются криптографическим, побитово воспроизводимым подтверждением качества, которое не может предоставить ни один централизованный провайдер, — вот что сработает.

Проблема воспроизводимости — незаметно самая сложная часть

Легко недооценить, насколько сложна на самом деле побитовая воспроизводимость на GPU. Стандартные редукции с плавающей точкой в CUDA неассоциативны — (a + b) + c и a + (b + c) дают разные результаты из-за промежуточного округления, а порядок суммирования в параллельной редукции зависит от планирования потоков, которое зависит от оборудования, драйвера и среды выполнения. Две H100, запускающие одну и ту же модель на одних и тех же входных данных, регулярно выдают слегка разные логиты.

Большинство систем инференса ML это не волнует, потому что выходные данные все равно выбираются стохастически. Но для верифицируемой оценки этот дрейф фатален. Если верификатор и доказывающий расходятся на 0,0001 в логите, вы не можете определить, сжульничал ли один из них или GPU просто округлил иначе.

REE от Gensyn решает эту проблему путем написания пользовательских ядер CUDA, которые обеспечивают детерминированный порядок редукции, даже ценой некоторой пропускной способности. Это тот вид низкоуровневой инженерии, который не появляется в презентациях, но является реальным конкурентным преимуществом. Ambient решает смежную проблему (проверку того, что инференс произошел на согласованной модели), хешируя состояние логитов в случайно выбранных позициях токенов; Verde и Judge идут дальше и требуют, чтобы все вычисления были воспроизводимы от начала до конца.

Вот почему Judge выходит за рамки ИИ. Все, что требует публичных, воспроизводимых и оспариваемых вычислений — расчет рынка прогнозов на основе исхода спортивного события с использованием детерминированной модели, разрешение страхового случая на основе детерминированной оценки рисков — может использовать тот же примитив. Кейс с бенчмарками для оценки — это только первый шаг.

Вещи, которые Judge не решает (пока)

Честная оценка: Judge не является магической палочкой для верификации. Есть три открытые проблемы, которые он не решает.

Проблема разработки оценки. Judge гарантирует, что оценка выполняется детерминированно и воспроизводимо. Он не гарантирует, что оценка является осмысленной. Если вы зафиксируете бенчмарк, который, как выяснится, утек в обучающие данные, Judge добросовестно воспроизведет бесполезное число. Проблема разработки бенчмарков — именно то, что делает такие оценки, как SWE-bench и ARC-AGI, сложными в первую очередь — находится на один уровень выше Judge и остается нерешенной.

Компромисс между задержкой и стоимостью. Арбитражное делегирование требует, чтобы несколько верификаторов были готовы запустить одну и ту же оценку, при этом механизм споров включается только при расхождении результатов. Экономика того, кто платит за избыточные запуски оценки и как финансируются оспаривания, определит, выйдет ли система за пределы знаковых бенчмарков к аудиту моделей для конкретных клиентов. Токен $AI протокола Gensyn (300 млн токенов продано в ходе декабрьской распродажи 2025 года) предлагается в качестве платежного канала, но экономика реальной оценки еще требует доказательств.

Проблема "что это за модель". Judge проверяет выполнение заранее согласованной модели. Он не решает вопрос о том, как модель пришла в это состояние верифицируемым способом. Сочетание обучения, верифицированного Verde, с оценкой, верифицированной Judge, — это очевидный эндгейм, но интеграция еще не готова к промышленному использованию, а стоимость стека "доказательство обучения + доказательство оценки" значительно выше, чем любого из них в отдельности.

Это реальные ограничения. Но это также ограничения, которые не решает ни один другой примитив верификации DeAI — и в ряде случаев (особенно в разработке оценок) это не столько технические проблемы, сколько социальные и экономические, которые широкая индустрия ИИ также еще не решила.

Что это значит для стека DeAI

Если взглянуть шире, стек верификации впервые начинает напоминать полноценную лестницу:

  1. Аттестация вычислений (TEEs, базовый proof-of-work) — этот код был запущен на этом оборудовании.
  2. Верификация процесса (Verde, Proof-of-Logits, ZKML) — конкретное вычисление дало конкретный результат.
  3. Оценка качества (Judge) — эта модель работает так, как заявлено, в соответствии с согласованным бенчмарком и воспроизводимо.
  4. Подотчетность результатов (все еще отсутствует) — поведение развернутой модели соответствовало условиям SLA по контракту в течение определенного времени.

В течение двух лет сектор DeAI изолированно строил ступени 1 и 2 в надежде, что корпоративный спрос материализуется на основе нарративов о стоимости и децентрализации. Этого не произошло. Judge — это первая серьезная попытка построить ступень 3 — ту самую ступень, которая фактически соответствует тому, как корпоративные покупатели подходят к выбору моделей.

Победит ли на этом уровне именно Gensyn или их подход будет клонирован Bittensor, Ambient и другими в течение двенадцати месяцев — вопрос почти второстепенный. Сама категория — нейтральная, детерминированная, оспариваемая оценка моделей как децентрализованная инфраструктура — теперь определена. Дискуссия о верификации в DeAI сместилась от вопроса «какая система доказательств дешевле» к вопросу «что именно мы доказываем».

Это более здоровая дискуссия, которую централизованный ИИ вообще не может вести. Провайдеры закрытых API не могут предложить оспариваемую оценку, поскольку их модели не являются детерминированными, не воспроизводятся третьими сторонами и не зафиксированы в каком-либо значимом криптографическом смысле. То, что может создать DeAI, но структурно не может AWS Bedrock — это именно то, что только что выпустил Judge.

Следующие двенадцать месяцев покажут, заметит ли это сектор корпоративных закупок.


Строите инфраструктуру DeAI, которой требуются проверяемые механизмы — для RPC блокчейнов, индексации или запросов аттестации моделей? BlockEden.xyz предоставляет инфраструктуру корпоративного уровня для 27+ сетей командам, запускающим серийные Web3 и ИИ-интегрированные приложения. Изучите наш маркетплейс API, чтобы строить на фундаменте, рассчитанном на долгосрочную перспективу.

Источники