Covenant-72B: Крупнейшая ИИ-модель в истории криптоиндустрии, обученная совместно

13 марта 2026 г. · 10 мин чтения

Software Engineer

Что если следующая передовая модель ИИ была бы обучена не в дата-центре стоимостью в миллиард долларов, принадлежащем одной корпорации, а десятками анонимных участников, разбросанных по всему миру, координируемых блокчейном и взаимодействующих через обычные интернет-соединения?

Именно это только что произошло. Covenant-72B от Templar, большая языковая модель с 72,7 миллиардами параметров, полностью предварительно обученная на Subnet 3 сети Bittensor, стала самой крупной совместно обученной моделью ИИ в истории криптоиндустрии — и одной из первых, достигших конкурентоспособной производительности по сравнению с централизованными базовыми моделями при полной возможности безразрешительного участия. Никаких белых списков. Никаких корпоративных цензоров. Только GPU, сжатые градиенты и механизм токен-стимулов, который гарантирует честность участников.

Соучредитель Anthropic Джек Кларк отметил это достижение в своем влиятельном информационном бюллетене Import AI, указав, что децентрализованные вычислительные мощности для обучения растут в 20 раз в год — в четыре раза быстрее, чем темпы роста централизованного обучения передовых моделей (в 5 раз в год).

Вот почему это имеет значение далеко за пределами экосистемы Bittensor.

Проблема в 1 миллиард долларов, которую решает Covenant-72B

Обучение передовой LLM в 2026 году — это процесс, требующий колоссальной концентрации капитала. Генеральный директор Anthropic заявил, что стоимость одиночных циклов обучения приближается к 1 миллиарду долларов. OpenAI, Google DeepMind и xAI соревнуются за ограниченные поставки GPU NVIDIA H100 и B200, связывая себя многолетними облачными контрактами на миллиарды долларов. Результат: только пять или шесть организаций на Земле могут позволить себе обучать модели на технологическом фронтире.

Такая концентрация создает реальные риски. Решения по выравниванию (alignment), подбору данных и коммерческие стимулы одной компании формируют системы ИИ, которыми пользуются миллиарды людей. Если обучение передовых моделей останется исключительно централизованным, вопрос «кто решает» в управлении ИИ сведется к узкому кругу залов заседаний.

Covenant-72B не решает эту проблему в одночасье. Но она предоставляет первое надежное доказательство того, что на значимых масштабах существует другой путь.

Внутри Covenant-72B: Техническая архитектура

Спецификации модели

Covenant-72B использует архитектуру в стиле LLaMA с 80 слоями трансформера, шириной модели 8 192, 64 головками внимания для запросов (query attention heads) и 8 головками для ключей-значений (key-value heads) через механизм grouped-query attention. Она использует позиционные эмбеддинги RoPE и токенизатор Gemma 3 SentencePiece со словарем в 262 208 токенов.

Модель была обучена примерно на 1,1 триллиона токенов: 1,09 триллиона из веб-текстов DCLM на основном этапе, плюс 14,2 миллиарда токенов на этапе «отжига» (annealing) на тщательно отобранных высококачественных данных (27 % — инструкции, 20 % — синтетический веб-контент, 15 % — код, 13 % — математика, 25 % — повторение). Этап обучения с учителем (supervised fine-tuning) добавил еще 14,8 миллиарда токенов для создания варианта, способного поддерживать чат.

SparseLoCo: Прорыв в коммуникациях

Ключевой инновацией, сделавшей возможным децентрализованное обучение в таком масштабе, является SparseLoCo — оптимизатор с эффективной передачей данных, который достигает Парето-оптимального компромисса между производительностью модели и потреблением пропускной способности.

Вот проблему, которую он решает: при централизованном обучении GPU в одном дата-центре обмениваются градиентами через высокоскоростные соединения (NVLink, InfiniBand) с пропускной способностью в сотни гигабит в секунду. Распределенное обучение через обычный интернет имеет пропускную способность на несколько порядков ниже. Наивная синхронизация градиентов сделала бы обучение невероятно медленным.

SparseLoCo использует поблочное Top-k разреживание с 2-битным квантованием для сжатия псевдоградиентов более чем в 146 раз. Каждый участник выполняет 30 этапов внутренней оптимизации локально с использованием AdamW, а затем передает только самые значимые обновления градиента в сильно сжатом виде. Результат: каждый раунд обучения требует примерно 20 минут вычислений, но всего 70 секунд связи — достигая 94,5 % использования вычислительных мощностей.

Для сравнения, предыдущая крупнейшая попытка децентрализованного обучения, INTELLECT-1 от Prime Intellect (модель с 10 млрд параметров), требовала 8,3 минуты на накладные расходы связи за раунд. Covenant-72B обучила модель в 7 раз больше с затратами времени на связь в 7 раз меньше.

Gauntlet: Обеспечение честности анонимных участников

Безразрешительное участие создает очевидную проблему: как предотвратить появление «фрилоадеров» или злоумышленников, отправляющих бесполезные градиенты для получения вознаграждений?

Решением стал Gauntlet — совместимый с блокчейном механизм вознаграждения, который проверяет вклад каждого участника с помощью нескольких проверок:

Оценка LossScore: Участники оцениваются по тому, действительно ли их обновления градиента улучшают потери (loss) модели на отложенных пакетах данных.
Проверка активности (Liveness) и синхронизации: Гарантия того, что участники действительно проводят обучение и поддерживают актуальное состояние глобальной модели.
Обнаружение дубликатов: Сравнение улучшения потерь на назначенных и случайных данных для выявления участников, копирующих чужую работу.
Масштабирование на основе норм: Вклады нормализуются относительно медианы, что не позволяет какому-либо одному участнику доминировать в обновлениях.

Это то, что делает Covenant-72B фундаментально отличной от INTELLECT-1 от Prime Intellect или Consilience-40B от Psyche: те проекты требовали наличия участников в белых списках. Covenant-72B была открыта для любого, у кого есть подходящее оборудование.

Цифры: как они сравниваются?

Производительность в бенчмарках

В оценках zero-shot Covenant-72B демонстрирует результаты, сопоставимые с централизованными моделями, обученными в аналогичном масштабе:

Бенчмарк	Covenant-72B	K2 (65B, централизованная)	LLaMA-2-70B (централизованная)
ARC-Challenge	56.8%	53.8%	57.4%
MMLU	67.1%	65.5%	65.6%
HellaSwag	80.6%	82.9%	84.3%
WinoGrande	75.9%	76.4%	80.4%
PIQA	81.6%	82.5%	82.6%

Covenant-72B превосходит оба базовых варианта в MMLU (бенчмарк на общие знания) и ARC-Challenge (научное мышление), при этом незначительно уступая в HellaSwag и WinoGrande. Исследователи связывают эти разрывы скорее с различиями в наборах данных и рецептах обучения, чем с ограничениями инфраструктуры.

Вариант с настройкой для чата (chat-tuned) показывает особую силу в выполнении инструкций (IFEval: 64.7%) и математических рассуждениях (MATH: 26.3%), опережая K2-Chat по обоим показателям.

Масштаб участия

Среднее количество участвующих пиров за раунд: 16.9 (ограничено 20 репликами)
Среднее количество активных пиров на шаге: 24.4
Минимальное количество уникальных участников: 70+ на протяжении всего процесса обучения
Оборудование на одного пира: 8x графических процессоров NVIDIA B200
Общее количество раундов обучения: ~6,190

Почему соучредитель Anthropic обратил на это внимание

Анализ Джека Кларка в Import AI выявил поразительную асимметрию: вычислительные мощности для децентрализованного обучения в настоящее время примерно в 1,000 раз меньше, чем для передового централизованного обучения. Но они растут на 20% в год, в то время как централизованное обучение растет на 5% в год.

Если эти темпы роста сохранятся, разрыв сократится в течение нескольких лет. Кларк отметил, что децентрализованное обучение «технически осуществимо и может способствовать более широкой коллективной разработке более мощных моделей».

Это важно, поскольку бросает вызов неявным предположениям в дискуссиях об управлении ИИ — о том, что обучение передовых моделей всегда будет требовать ресурсов государств или корпораций с триллионными оборотами. Если координируемая блокчейном сеть анонимных владельцев GPU может обучать конкурентоспособные модели 72B уже сегодня, что произойдет, когда тот же подход масштабируется до 200B или 400B параметров?

Экосистема Covenant AI

Успех Templar породил более широкую экосистему под названием Covenant AI, построенную на трех взаимосвязанных платформах:

Templar (Подсеть 3): Децентрализованное предварительное обучение — двигатель Covenant-72B
Basilica: Децентрализованная аренда вычислительных мощностей — делает ресурсы GPU доступными для сети
Grail: Децентрализованное пост-обучение — обучение с подкреплением на основе обратной связи от человека (RLHF) и выравнивание (alignment)

Этот трехслойный стек зеркально отражает полный цикл современной разработки ИИ: от сырого предварительного обучения до тонкой настройки и выравнивания. Если все три уровня смогут работать масштабно без централизованной координации, это станет полноценной альтернативой вертикально интегрированному подходу таких лабораторий, как OpenAI и Anthropic.

Конкурентная среда в децентрализованном обучении ИИ

Covenant-72B не появился в вакууме. Несколько проектов соревнуются за доказательство жизнеспособности децентрализованного обучения:

Проект	Параметры	Токены	Без разрешения (Permissionless)?	Статус
Covenant-72B (Bittensor)	72.7B	1.1T	Да	Завершено
Consilience-40B (Psyche)	40B	—	Нет (белый список)	Завершено
INTELLECT-1 (Prime Intellect)	10B	—	Нет (белый список)	Завершено
INTELLECT-3 (Prime Intellect)	106B MoE	—	Заявлено как децентрализованное	Обучено на централизованном кластере из 512 GPU
Gensyn	Протокольный уровень	—	Н/Д	Собрано $50.6 млн, протокол в разработке

Контраст с Prime Intellect особенно разителен. INTELLECT-3, модель типа Mixture-of-Experts на 106B параметров, набравшая 90.8% на AIME 2024, позиционировалась как проект децентрализованного ИИ, но на самом деле была обучена на централизованном кластере из 512 GPU. Полностью открытый (permissionless), верифицируемый блокчейном подход Covenant-72B представляет собой резкий контраст.

Ограничения и честные вызовы

Covenant-72B — это веха, а не финишная черта. Следует признать несколько ограничений:

Разрыв в масштабах остается большим. При производительности примерно 9 x 10^17 FLOPs/s вычислительная мощность обучения Covenant-72B примерно в 1,000 раз меньше, чем у передовых централизованных запусков. Для соответствия моделям класса GPT-4 требуется существенно сократить этот разрыв.

Участие было ограничено. Лимит в 20 реплик и требование наличия 8x GPU B200 на одного пира ограничивают участие только хорошо обеспеченными участниками. Это не «обучение ИИ на вашем ноутбуке» — это децентрализация среди организаций с серьезным оборудованием.

Перераспределение затрат, а не их снижение. Децентрализованное обучение само по себе не стоит меньше централизованного. Оно меняет финансовую модель — распределяя затраты между многими участниками через токен-стимулы, а не концентрируя их на балансе одной организации.

Разрывы в качестве в некоторых бенчмарках. Модель отстает от централизованных базовых моделей в HellaSwag и WinoGrande, что свидетельствует о том, что курирование данных и оптимизация рецептов обучения остаются областями, где централизованные лаборатории сохраняют преимущество — пока что.

Что это значит для будущего ИИ

Covenant-72B представляет собой фазовый переход в истории децентрализованного ИИ. До этого «децентрализованное обучение ИИ» было либо теоретическим, либо ограничивалось небольшими моделями, либо требовало доверенных участников. Теперь есть опубликованная статья на arXiv, открытые веса моделей на Hugging Face и результаты бенчмарков, демонстрирующие конкурентоспособную производительность — и все это в полностью открытой сети, координируемой блокчейном.

Последствия каскадом распространяются на несколько областей:

Управление ИИ: Если обучение может быть децентрализовано, подход к безопасности ИИ «регулируйте центры обработки данных» становится недостаточным. Политикам потребуются механизмы, учитывающие распределенное обучение.

Open-source ИИ: Веса Covenant-72B находятся в открытом доступе, пополняя экосистему открытого исходного кода моделью класса 72B, которая не финансировалась ни одной корпорацией.

Токеномика: Токен TAO сети Bittensor, который стимулировал весь процесс обучения, демонстрирует конкретный вариант использования криптотокенов помимо спекуляций — финансирование исследований в области ИИ через рыночные механизмы стимулирования.

Динамика конкуренции: Если децентрализованное обучение продолжит масштабироваться на 20% в год, централизованные лаборатории столкнутся с давлением не только друг со стороны друга, но и со стороны открытых, не требующих разрешения сетей, которые невозможно поглотить, регулировать как единое целое или закрыть.

Вопрос больше не в том, работает ли децентрализованное обучение ИИ. Вопрос в том, как быстро оно сможет сократить разрыв с централизованными передовыми лабораториями — и что произойдет со структурой власти в индустрии ИИ, когда это случится.

BlockEden.xyz предоставляет блокчейн-инфраструктуру API корпоративного уровня, обеспечивающую работу децентрализованных сетей, которые делают возможными такие проекты, как Bittensor. Изучите наш маркетплейс API, чтобы создавать решения на инфраструктурном уровне революции децентрализованного ИИ.

Share on Twitter

API Marketplace Featured

Проблема в 1 миллиард долларов, которую решает Covenant-72B​

Внутри Covenant-72B: Техническая архитектура​

Спецификации модели​

SparseLoCo: Прорыв в коммуникациях​

Gauntlet: Обеспечение честности анонимных участников​

Цифры: как они сравниваются?​

Производительность в бенчмарках​

Масштаб участия​

Почему соучредитель Anthropic обратил на это внимание​

Экосистема Covenant AI​

Конкурентная среда в децентрализованном обучении ИИ​

Ограничения и честные вызовы​

Что это значит для будущего ИИ​