Gensyn Judge устраняет самый большой дефицит доверия в области ИИ: кто оценивает оценщиков?
GPT-4 противоречит сам себе в 40% случаев, когда его просят оценить один и тот же ответ дважды. Bard галлюцинировал в 91% своих ссылок в медицинских систематических обзорах. А бенчмарки, призванные держать ИИ в узде? Модели все чаще оптимизируются для того, чтобы манипулировать ими. Весь стек оценки ИИ — инфраструктура, которая говорит нам, является ли модель хорошей, безопасной или правдивой — покоится на основах, которые непрозрачны, невоспроизводимы и незаметно меняются под нашими ногами.
Gensyn, децентрализованный протокол машин ного обучения, поддерживаемый инвестициями в размере 50 миллионов долларов от a16z crypto, CoinFund и Protocol Labs, считает, что у него есть структурное решение. Его новая система под названием Judge привносит криптографически верифицируемую оценку ИИ в эксплуатацию — заменяя вызовы API типа «черный ящик» детерминированными, оспариваемыми ончейн-доказательствами качества модели. Если это заработает в масштабе, это может изменить то, как индустрия ИИ устанавливает доверие.
Кризис оценки, о котором никто не говорит
У индустрии ИИ есть грязный секрет: мы на самом деле не знаем, насколько хорошо работают наши модели. По крайней мере, в каком-либо верифицируемом смысле.
Сегодняшний процесс оценки выглядит примерно так: разработчик модели запускает бенчмарки через закрытый API (часто GPT-4 выступает в роли «LLM-as-a-judge»), публикует результат, и рынок принимает его на веру. Проблемы с этим подходом стремительно накапливаются.
Закрытые API незаметно обновляются. OpenAI, Anthropic и Google регулярно модифицируют свои модели под одним и тем же эндпоинтом API. Результат бенчмарка от января может быть невоспроизводим к марту — не потому, что изменилась оцениваемая модель, а потому, что изменился оценщик. Исследования показывают, что суждения LLM «недетерминированы» — просьба к GPT-4 оценить один и тот же ответ несколько раз часто дает разные результаты.
Системные искажения заложены внутри. Исследования документально подтверждают, что LLM-судьи проявляют предвзятость позиции (предпочитая тот ответ, который появляется первым), предвзятость многословия (завышение оценок для длинных ответов примерно на 15%) и предвзятость самосовершенствования (оценка собственных результатов на 5–7% выше). Согласие между LLM-судьями и людьми-экспертами падает на 10–15% в специализированных областях, таких как медицина и право — именно там, где точность важнее всего.
Манипуляция бенчмарками — это гонка вооружений. По мере того как передовые модели группи руются на вершине рейтинговых таблиц, соотношение сигнал/шум падает. Модели можно тонко настраивать (fine-tune) для хорошей работы на конкретных бенчмарках без реального улучшения способностей — явление, которое исследователи называют «обучением под тест». Результатом является экосистема оценки, где цифры растут, а доверие падает.
Для индустрии, внедряющей ИИ в здравоохранение, финансы, юридические системы и автономные транспортные средства, это не просто мелкое неудобство. Это экзистенциальная проблема доверия.
Встречайте Judge: детерминированный, оспариваемый, верифицируемый
Judge от Gensyn использует принципиально иной подход. Вместо того чтобы доверять одному оценщику, Judge запускает заранее согласованную детерминированную модель ИИ на реальных входных данных и фиксирует результаты в системе, где любой может оспорить результат.
Архитектура состоит из трех уровней:
Воспроизводимая среда выполнения (Reproducible Runtime)
Judge работает на Reproducible Runtime от Gensyn, которая гарантирует побитовую точность результатов на гетерогенном оборудовании. Это сложнее, чем кажется. Одно и то же вычисление нейронной сети может давать разные результаты с плавающей запятой на NVIDIA A100 по сравнению с AMD MI300X из-за различий в том, как GPU параллелизируют умножение матриц.
Gensyn решила эту проблему с помощью RepOps (Reproducible Operators) — библиотеки, которая обеспечивает фиксированный порядок выполнения операций с плавающей запятой на различном оборудовании. Когда два узла запускают одну и ту же оценку с помощью RepOps, они получают идентичные результаты вплоть до после днего бита. Это устраняет проблему «на моей машине работает», которая преследует распределенные системы ИИ.
Разрешение споров Verde
«Под капотом» Judge работает на базе Verde, протокола верификации Gensyn, опубликованного в виде рецензируемой научной статьи. Verde адаптирует криптографический метод под названием refereed delegation (делегирование с арбитром) для машинного обучения.
Вот как это работает: несколько ненадёжных поставщиков вычислительных мощностей выполняют одну и ту же задачу по оценке. Если они все согласны, результат принимается. Если они не согласны, Verde инициирует бинарный поиск по вычислительному графу, чтобы точно определить оператор, на котором результаты расходятся. Арбитру с умеренными вычислительными мощностями — которым может быть смарт-контракт или легкий клиент — нужно лишь повторно выполнить этот единственный оператор, ч тобы определить, какой поставщик был честным.
Эффективность поразительна. Вычислительные затраты арбитра на два порядка меньше, чем запуск полной модели. Спор по поводу оценки модели с миллиардом параметров может быть решен путем пересчета одного умножения матриц.
Ончейн-фиксация (On-Chain Commitment)
Каждый результат оценки фиксируется в блокчейне (Gensyn работает как Ethereum-роллап), создавая неизменяемую запись. Любой может убедиться, что конкретная модель, запущенная на конкретных входных данных, выдала конкретный результат. Никаких скрытых обновлений. Никаких заверений на честном слове. Только математика.