Перейти к основному контенту

Gensyn Judge устраняет самый большой дефицит доверия в области ИИ: кто оценивает оценщиков?

· 10 мин чтения
Dora Noda
Software Engineer

GPT-4 противоречит сам себе в 40% случаев, когда его просят оценить один и тот же ответ дважды. Bard галлюцинировал в 91% своих ссылок в медицинских систематических обзорах. А бенчмарки, призванные держать ИИ в узде? Модели все чаще оптимизируются для того, чтобы манипулировать ими. Весь стек оценки ИИ — инфраструктура, которая говорит нам, является ли модель хорошей, безопасной или правдивой — покоится на основах, которые непрозрачны, невоспроизводимы и незаметно меняются под нашими ногами.

Gensyn, децентрализованный протокол машинного обучения, поддерживаемый инвестициями в размере 50 миллионов долларов от a16z crypto, CoinFund и Protocol Labs, считает, что у него есть структурное решение. Его новая система под названием Judge привносит криптографически верифицируемую оценку ИИ в эксплуатацию — заменяя вызовы API типа «черный ящик» детерминированными, оспариваемыми ончейн-доказательствами качества модели. Если это заработает в масштабе, это может изменить то, как индустрия ИИ устанавливает доверие.

Кризис оценки, о котором никто не говорит

У индустрии ИИ есть грязный секрет: мы на самом деле не знаем, насколько хорошо работают наши модели. По крайней мере, в каком-либо верифицируемом смысле.

Сегодняшний процесс оценки выглядит примерно так: разработчик модели запускает бенчмарки через закрытый API (часто GPT-4 выступает в роли «LLM-as-a-judge»), публикует результат, и рынок принимает его на веру. Проблемы с этим подходом стремительно накапливаются.

Закрытые API незаметно обновляются. OpenAI, Anthropic и Google регулярно модифицируют свои модели под одним и тем же эндпоинтом API. Результат бенчмарка от января может быть невоспроизводим к марту — не потому, что изменилась оцениваемая модель, а потому, что изменился оценщик. Исследования показывают, что суждения LLM «недетерминированы» — просьба к GPT-4 оценить один и тот же ответ несколько раз часто дает разные результаты.

Системные искажения заложены внутри. Исследования документально подтверждают, что LLM-судьи проявляют предвзятость позиции (предпочитая тот ответ, который появляется первым), предвзятость многословия (завышение оценок для длинных ответов примерно на 15%) и предвзятость самосовершенствования (оценка собственных результатов на 5–7% выше). Согласие между LLM-судьями и людьми-экспертами падает на 10–15% в специализированных областях, таких как медицина и право — именно там, где точность важнее всего.

Манипуляция бенчмарками — это гонка вооружений. По мере того как передовые модели группируются на вершине рейтинговых таблиц, соотношение сигнал/шум падает. Модели можно тонко настраивать (fine-tune) для хорошей работы на конкретных бенчмарках без реального улучшения способностей — явление, которое исследователи называют «обучением под тест». Результатом является экосистема оценки, где цифры растут, а доверие падает.

Для индустрии, внедряющей ИИ в здравоохранение, финансы, юридические системы и автономные транспортные средства, это не просто мелкое неудобство. Это экзистенциальная проблема доверия.

Встречайте Judge: детерминированный, оспариваемый, верифицируемый

Judge от Gensyn использует принципиально иной подход. Вместо того чтобы доверять одному оценщику, Judge запускает заранее согласованную детерминированную модель ИИ на реальных входных данных и фиксирует результаты в системе, где любой может оспорить результат.

Архитектура состоит из трех уровней:

Воспроизводимая среда выполнения (Reproducible Runtime)

Judge работает на Reproducible Runtime от Gensyn, которая гарантирует побитовую точность результатов на гетерогенном оборудовании. Это сложнее, чем кажется. Одно и то же вычисление нейронной сети может давать разные результаты с плавающей запятой на NVIDIA A100 по сравнению с AMD MI300X из-за различий в том, как GPU параллелизируют умножение матриц.

Gensyn решила эту проблему с помощью RepOps (Reproducible Operators) — библиотеки, которая обеспечивает фиксированный порядок выполнения операций с плавающей запятой на различном оборудовании. Когда два узла запускают одну и ту же оценку с помощью RepOps, они получают идентичные результаты вплоть до последнего бита. Это устраняет проблему «на моей машине работает», которая преследует распределенные системы ИИ.

Разрешение споров Verde

«Под капотом» Judge работает на базе Verde, протокола верификации Gensyn, опубликованного в виде рецензируемой научной статьи. Verde адаптирует криптографический метод под названием refereed delegation (делегирование с арбитром) для машинного обучения.

Вот как это работает: несколько ненадёжных поставщиков вычислительных мощностей выполняют одну и ту же задачу по оценке. Если они все согласны, результат принимается. Если они не согласны, Verde инициирует бинарный поиск по вычислительному графу, чтобы точно определить оператор, на котором результаты расходятся. Арбитру с умеренными вычислительными мощностями — которым может быть смарт-контракт или легкий клиент — нужно лишь повторно выполнить этот единственный оператор, чтобы определить, какой поставщик был честным.

Эффективность поразительна. Вычислительные затраты арбитра на два порядка меньше, чем запуск полной модели. Спор по поводу оценки модели с миллиардом параметров может быть решен путем пересчета одного умножения матриц.

Ончейн-фиксация (On-Chain Commitment)

Каждый результат оценки фиксируется в блокчейне (Gensyn работает как Ethereum-роллап), создавая неизменяемую запись. Любой может убедиться, что конкретная модель, запущенная на конкретных входных данных, выдала конкретный результат. Никаких скрытых обновлений. Никаких заверений на честном слове. Только математика.

Больше, чем бенчмарки: рынки предсказаний и реальные споры

Judge — это не просто академическое упражнение. Первая демонстрация Gensyn представляет собой рынок предсказаний для ИИ-рассуждений (AI reasoning), где модели обучения с подкреплением делают ставки на логические задачи. Структура выплат вознаграждает ранние правильные ставки больше, чем поздние, что стимулирует быстрое и уверенное рассуждение.

Этот паттерн проектирования естественным образом распространяется на несколько высокоценных приложений:

  • Децентрализованные таблицы лидеров ИИ, где рейтинги моделей криптографически проверяемы, а не заявляются самими разработчиками.
  • Разрешение споров на рынках предсказаний, где решение ИИ-судьи может быть независимо оспорено и проверено.
  • Контроль качества для ИИ-агентов: поскольку автономные системы ИИ управляют финансовыми транзакциями, возможность проверки процесса принятия ими решений становится критически важной.
  • Соблюдение нормативных требований: так как Закон ЕС об ИИ (EU AI Act) и аналогичные структуры требуют документирования и прослеживаемости систем ИИ, проверяемая оценка обеспечивает аудируемый след.

Конкурентная среда: zkML против opML и Verde

Gensyn — не единственный проект, занимающийся проверяемыми вычислениями ИИ. В этой области сформировались три основных подхода:

Zero-Knowledge Machine Learning (zkML) — проекты вроде EZKL, Modulus Labs и Giza преобразуют инференс (вывод) ИИ в схемы с нулевым разглашением. Преимущество заключается в строгих криптографических гарантиях без раскрытия весов модели. Недостатком являются вычислительные накладные расходы: создание ZK-доказательств для крупных моделей остается на порядки дороже, чем сам запуск моделей. Modulus Labs под руководством исследователей из Стэнфорда, опубликовавших работу «The Cost of Intelligence», достигли прогресса в снижении стоимости генерации доказательств, но zkML остается непрактичным для моделей, размер которых превышает несколько сотен миллионов параметров.

Optimistic Machine Learning (opML) — протоколы, такие как Ora, используют оптимистичный подход, аналогичный оптимистичным роллапам (optimistic rollups): предполагается, что вычисления верны, но предоставляется период для оспаривания. Это эффективно, когда большинство вычислений честны, но метод полагается на экономические стимулы (стейкинг и слэшинг), а не на криптографическую определенность.

Refereed Delegation (Verde) — подход Gensyn находится между этими крайностями. Он эффективнее zkML, потому что арбитр выполняет повторные вычисления только при возникновении спора и пересчитывает лишь крошечную часть работы. Он более детерминирован, чем opML, поскольку RepOps гарантирует, что честные провайдеры всегда выдают идентичные результаты, устраняя двусмысленность при разрешении споров.

Ключевым отличием является RepOps. Без побитовой воспроизводимости делегирование с арбитражем не работает — честные узлы, выдающие слегка отличающиеся результаты с плавающей запятой, могут спровоцировать ложные споры. Решив проблему воспроизводимости на уровне оборудования, Gensyn делает делегирование с арбитражем практичным для реальных рабочих нагрузок машинного обучения.

От тестнета к токену: путь Gensyn к промышленной эксплуатации

Публичный тестнет Gensyn был запущен в марте 2025 года без списка ожидания, привнеся постоянную идентичность в децентрализованный ИИ. Сеть отслеживает участие, поддерживает атрибуцию, обрабатывает платежи, координирует выполнение и регистрирует распределенные прогоны обучения.

Токен проекта $AI вышел на рынок через английский аукцион в декабре 2025 года; было предложено 300 миллионов токенов (3% от общего предложения) с ограничением полностью разводненной оценки (FDV) в 1 миллиард долларов. Привлечив 50 миллионов долларов от a16z crypto, CoinFund, Canonical Crypto, Protocol Labs и Eden Block, Gensyn является одним из самых хорошо финансируемых проектов в сфере децентрализованного ИИ.

В настоящее время тестнет поддерживает рабочие нагрузки по пост-тренировке с помощью RL — дообучение методом обучения с подкреплением, которое стало доминирующей парадигмой с тех пор, как модель o1 от OpenAI продемонстрировала мощь масштабирования вычислений во время инференса. Judge расширяет эту инфраструктуру до уровня оценки, замыкая цикл между обучением, инференсом и контролем качества.

Почему проверяемая оценка важна именно сейчас

Несколько сходящихся трендов делают 2026 год переломным моментом для проверяемой оценки ИИ:

Взрывной рост ИИ-агентов. Поскольку более 282 крипто-ИИ проектов развертывают автономных агентов, управляющих реальными деньгами — от стратегий DeFi до межсегментной торговли активами, — стоимость необнаруженных сбоев моделей возрастает от просто неприятных ситуаций до финансовых катастроф. Проверяемая оценка — это не просто приятное дополнение, это критическая инфраструктура управления рисками.

Регуляторное давление. Закон ЕС об ИИ, принятый в 2024 году, повышает требования к документированию и прослеживаемости систем ИИ. Сектор блокчейн-ИИ, который, по прогнозам, вырастет с 680 миллионов долларов в 2025 году до 4,3 миллиарда долларов к 2034 году, все больше формируется под влиянием нормативных требований, требующих аудируемых цепочек оценки.

Премия за доверие. На рынке, перенасыщенном заявлениями об ИИ, проверяемое качество становится конкурентным преимуществом. Проекты, которые могут криптографически доказать производительность своей модели, займут премиальные позиции — особенно на институциональных рынках, где принцип «доверьтесь мне» не является приемлемой стратегией управления рисками.

Децентрализованное обучение в масштабе. По мере роста сетей распределенного обучения — протокол Gensyn уже объединяет вычислительные мощности от персональных ноутбуков до GPU в центрах обработки данных — узкое место проверки смещается с вопроса «можем ли мы обучать?» на «можем ли мы доказать, что обучили правильно?». Judge решает эту задачу напрямую.

Общая картина

Gensyn Judge представляет собой нечто большее, чем просто выпуск новой функции протокола. Это ставка на то, что кризис оценки в ИИ-индустрии станет неприемлемым по мере развертывания моделей в средах с растущими рисками.

Централизованные ИИ-лаборатории — OpenAI, Anthropic, Google — не имеют структурных стимулов делать свои процессы оценки прозрачными. Они контролируют и модели, и бенчмарки, проверяя собственную работу ручками, которые незаметно меняют цвет. Децентрализованная верификация предлагает выход из этого замкнутого круга.

Сможет ли именно Gensyn реализовать эту возможность, зависит от исполнения: сможет ли RepOps поддерживать побитовую воспроизводимость при масштабировании моделей до сотен миллиардов параметров? Справится ли система разрешения споров Verde с требованиями к пропускной способности глобальной сети оценки? Смогут ли экономические стимулы привлечь достаточно честных поставщиков вычислительных мощностей, чтобы сделать систему устойчивой?

Это сложные инженерные задачи. Но альтернатива — продолжать строить экономику на базе ИИ на непроверяемых утверждениях о качестве моделей — с каждым месяцем становится все труднее оправдывать.

У ИИ-индустрии нет проблемы качества моделей. У нее есть проблема доказательства качества моделей. А доказательства — это именно то, для чего создавались блокчейны.


BlockEden.xyz поддерживает инфраструктурный уровень, обеспечивающий работу ИИ- и блокчейн-приложений следующего поколения. По мере перехода проверяемых ИИ-вычислений из стадии исследований в стадию промышленной эксплуатации, надежная инфраструктура нод становится фундаментом для бездоверительных сетей оценки. Изучите наш API-маркетплейс, чтобы строить на инфраструктуре, созданной для децентрализованного будущего.