Gensyn Judge устраняет самый большой дефицит доверия в области ИИ: кто оценивает оценщиков?
GPT-4 противоречит сам себе в 40% случаев, когда его просят оценить один и тот же ответ дважды. Bard галлюцинировал в 91% своих ссылок в медицинских систематических обзорах. А бенчмарки, призванные держать ИИ в узде? Модели все чаще оптимизируются для того, чтобы манипулировать ими. Весь стек оценки ИИ — инфраструктура, которая говорит нам, является ли модель хорошей, безопасной или правдивой — покоится на основах, которые непрозрачны, невоспроизводимы и незаметно меняются под нашими ногами.
Gensyn, децентрализованный протокол машинного обучения, поддерживаемый инвестициями в размере 50 миллионов долларов от a16z crypto, CoinFund и Protocol Labs, считает, что у него есть структурное решение. Его новая система под названием Judge привноси т криптографически верифицируемую оценку ИИ в эксплуатацию — заменяя вызовы API типа «черный ящик» детерминированными, оспариваемыми ончейн-доказательствами качества модели. Если это заработает в масштабе, это может изменить то, как индустрия ИИ устанавливает доверие.