Gensyn Judge: Недостающий уровень проверки качества для децентрализованного ИИ
Децентрализованный ИИ потратил пять лет на поиск ответа на неверный вопрос. Весь стек — подсети Bittensor, маркетплейс обучения Gensyn, сеть инференса Ambient, любая система доказательств ZKML — был одержим доказательством того, что вычисление произошло. Майнер выполнил инференс. Узел обучался N часов на нужном наборе данных. GPU выдал заявленные логиты (logits). Все это было криптографически, красиво и дорого верифицировано.
Но ничто из этого не отвечает на вопрос, который на самом деле задает специалист по корпоративным закупкам: хороша ли модель?
Запуск Judge от Gensyn в конце апреля 2026 года — это первая серьезная попытка восполнить этот пробел. Это не очередной механизм консенсуса. Это не очередное «доказательство чего-либо» (proof-of-something). Это верифицируемый уровень оценки, который отделяет факт «обучение состоялось» от факта «обучение прошло корректно» — и это различие может стать важнейшим примитивом, выпущенным DeAI в этом цикле.
В стеке верификации есть брешь
Чтобы понять, почему Judge важен, нужно посмотреть на то, что на самом деле проверяет существующий стек верификации DeAI — и о чем он умалчивает.
Verde от Gensyn (протокол, лежащий в основе Judge) подтверждает, что конкретный шаг обучения на конкретном операторе нейронной сети выдал правильный результат. Несколько не доверяющих друг другу провайдеров выполняют одну и ту же задачу; если результаты расходятся, арбитр находит в вычислительном графе именно тот оператор, на котором возникло несогласие, и перезапускает только эту операцию. Элегантно, дешево и доказуемо правильно — для конкретного шага.
Proof-of-Logits от Ambient, который привлек $7,2 млн от a16z CSX и работает на L1-сети, совместимой с Solana SVM, подтверждает, что инференс был выполнен на согласованной модели. Майнер генерирует текст, верификатор случайным образом выбирает токен, майнер предоставляет соответствующие логиты, а верификатор независимо перезапускает этот единственный шаг инференса. Если хеш совпадает, инференс считается верифицированным с заявленными накладными расходами в 0,1% для модели с более чем 600 млрд параметров.
DeepProve от Lagrange, первая система zkML, доказавшая полный инференс LLM (изначально GPT-2), идет еще дальше: криптографическое подтверждение с нулевым разглашением того, что нужная модель выдала верный результат на конкретный ввод. Но есть известная проблема — генерация доказательства происходит в тысячи раз медленнее, чем сам инференс.
Валидаторы подсетей Bittensor оценивают результаты майнеров на основе механизмов стимулирования, специфичных для конкретной по дсети, — однако сами валидаторы имеют финансовую заинтересованность в результатах, которые они оценивают (пропорционально их стейку). Критика апреля 2026 года беспощадна: топ-10 валидаторов по размеру стейка контролируют примерно 65% голосов в основной сети, топ-3 — 38%, а исследователи в подсети 1 задокументировали, как майнеры выдавали кэшированные ответы на известные запросы валидаторов, полностью обходя этап реального инференса и при этом получая вознаграждения.
Заметьте закономерность. Каждая из этих систем проверяет процесс: умножение матриц было верным, инференс действительно был выполнен, модель, подписавшая результат, — это та самая модель, которая была заявлена. Ни одна из них не проверяет, что полученная модель — или полученный результат — хорошо справляется со своей задачей.
Именно в эту нишу входит Judge.
Что на самом деле делает Judge
Judge запускает заранее согласованную детерминированную модель ИИ на реальных входных данных и фиксирует обязательство, которое может быть оспорено публично. Построенный на базе Verde, он наследует арбитражное делегирование: несколько независимых узлов-верификаторов выполняют одну и ту же задачу оценки, а разногласия разрешаются путем перевычисления только того конкретного оператора, на котором результаты разошлись.
Техническим фундаментом является Reproducible Execution Environment (REE) от Gensyn — среда выполнения, гарантирующая побитовую точность воспроизведения на гетерогенных устройствах. Чтобы это работало, Gensyn создала специально оптимизированные ядра CUDA, которые обеспечивают ассоциативность и детерминизм в операциях (таких как редукция чисел с плавающей запятой), которые по умолчанию являются недетерминированными на GPU. Результат: одна и та же модель на одних и тех же входных данных выдает идентичные логиты вплоть до бита, независимо от того, запускаете ли вы ее на H100 в дата-центре Франкфурта или на 4090 в чьем-то подвале.
Это может показаться второстепенной технической деталью, но на самом деле это ключевой примитив. Побит овая воспроизводимость — это то, что позволяет стороннему верификатору оспорить заявление об оценке, перезапустив ее и получив точно такой же ответ. Без этого невозможно понять, является ли расхождение признаком мошенничества или просто шумом вычислений с плавающей запятой.
Этот фреймворк естественным образом масштабируется на любую область, где верифицируемое суждение критически важно, но трудно масштабируемо: бенчмарки для оценки, разрешение рынков предсказаний, лидерборды моделей и даже разрешение споров с помощью ИИ. В каждой из этих ситуаций Judge заменяет подход «поверьте мне, закрытый API сообщил, что модель набрала 87,3%».