Covenant-72B: Крупнейшая ИИ-модель в истории криптоиндустрии, обученная совместно
Что если следующая передовая модель ИИ была бы обучена не в дата-центре стоимостью в миллиард долларов, принадлежащем одной корпорации, а десятками анонимных участников, разбросанных по всему миру, координируемых блокчейном и взаимодействующих через обычные интернет-соединения?
Именно это только что произошло. Covenant-72B от Templar, большая языковая модель с 72,7 миллиардами параметров, полностью предварительно обученная на Subnet 3 сети Bittensor, стала самой крупной совместно обученной моделью ИИ в истории криптоиндустрии — и одной из первых, достигших конкуренто способной производительности по сравнению с централизованными базовыми моделями при полной возможности безразрешительного участия. Никаких белых списков. Никаких корпоративных цензоров. Только GPU, сжатые градиенты и механизм токен-стимулов, который гарантирует честность участников.
Соучредитель Anthropic Джек Кларк отметил это достижение в своем влиятельном информационном бюллетене Import AI, указав, что децентрализованные вычислительные мощности для обучения растут в 20 раз в год — в четыре раза быстрее, чем темпы роста централизованного обучения передовых моделей (в 5 раз в год).
Вот почему это имеет значение далеко за пределами экосистемы Bittensor.
Проблема в 1 миллиард долларов, которую решает Covenant-72B
Обучение передовой LLM в 2026 году — это процесс, требующий колоссальной концентраци и капитала. Генеральный директор Anthropic заявил, что стоимость одиночных циклов обучения приближается к 1 миллиарду долларов. OpenAI, Google DeepMind и xAI соревнуются за ограниченные поставки GPU NVIDIA H100 и B200, связывая себя многолетними облачными контрактами на миллиарды долларов. Результат: только пять или шесть организаций на Земле могут позволить себе обучать модели на технологическом фронтире.
Такая концентрация создает реальные риски. Решения по выравниванию (alignment), подбору данных и коммерческие стимулы одной компании формируют системы ИИ, которыми пользуются миллиарды людей. Если обучение передовых моделей останется исключительно централизованным, вопрос «кто решает» в управлении ИИ сведется к узкому кругу залов заседаний.
Covenant-72B не решает эту проблему в одночасье. Но она предоставляет первое надежное доказательство того, что на значимых масштабах существует другой путь.
Внутри Covenant-72B: Техническая архитектура
Спецификации модели
Covenant-72B использует архитектуру в стиле LLaMA с 80 слоями трансформера, шириной модели 8 192, 64 головками внимания для запросов (query attention heads) и 8 головками для ключей-значений (key-value heads) через механизм grouped-query attention. Она использует позиционные эмбеддинги RoPE и токенизатор Gemma 3 SentencePiece со словарем в 262 208 токенов.
Модель была обучена примерно на 1,1 триллиона токенов: 1,09 триллиона из веб-текстов DCLM на основном этапе, плюс 14,2 миллиарда токенов на этапе «отжига» (annealing) на тщательно отобранных высококачественных данных (27 % — инструкции, 20 % — синтетический веб-контент, 15 % — код, 13 % — математика, 25 % — повторение). Этап обучения с учителем (supervised fine-tuning) добавил еще 14,8 миллиарда токенов для создания варианта, способного поддерживать чат.
SparseLoCo: Прорыв в коммуникациях
Ключевой инновацией, сделавшей возможным децентрализованное обучение в таком масштабе, является SparseLoCo — оптимизатор с эффективной передачей данных, который достигает Парето-оптимального компромисса между производительностью модели и потреблением пропускной способности.
Вот проблему, которую он решает: при централизованном обучении GPU в одном дата-центре обмениваются градиентами через высокоскоростные соединения (NVLink, InfiniBand) с пропускной способностью в сотни гигабит в секунду. Распределенное обучение через обычный интернет имеет пропускную способность на несколько порядков ниже. Наивная синхронизация градиентов сделала бы обучение невероятно медленным.
SparseLoCo использует поблочное Top-k разреживание с 2-битным квантованием для сжатия псевдоградиентов более чем в 146 раз. Каждый участник выполняет 30 этапов внутренней оптимизации локально с использованием AdamW, а затем передает только самые значимые обновления градиента в сильно сжатом виде. Результат: каждый раунд обучения требует примерно 20 минут вычислений, но всего 70 секунд связи — достигая 94,5 % использования вычислительных мощностей.
Для сравнения, предыдущая крупнейшая попытка децентрализованного обучения, INTELLECT-1 от Prime Intellect (модель с 10 млрд параметров), требовала 8,3 минуты на накладные расходы связи за раунд. Covenant-72B обучила модель в 7 раз больше с затратами времени на связь в 7 раз меньше.
Gauntlet: Обеспечение честности анонимных участников
Безразрешительное участие создает очевидную проблему: как предотвратить появление «фрилоадеров» или злоумышленников, отправляющих бесполезные градиенты для получения вознаграждений?
Решением стал Gauntlet — совместимый с блокчейном механизм вознаграждения, который проверяет вклад каждого участника с помощью нескольких проверок:
- Оценка LossScore: Участники оцениваются по тому, действительно ли их обновления градиента улучшают потери (loss) модели на отложенных пакетах данных.
- Проверка активности (Liveness) и синхронизации: Гарантия того, что участники действительно проводят обучение и поддерживают актуальное состояние глобальной модели.
- Обнаружение дубликатов: Сравнение улучшения потерь на назначенных и случайных данных для выявления участников, копирующих чужую работу.
- Масштабирование на основе норм: Вклады нормализуются относительно медианы, что не позволяет какому-либо одному участнику доминировать в обновлениях.
Это то, что делает Covenant-72B фундаментально отличной от INTELLECT-1 от Prime Intellect или Consilience-40B от Psyche: те проекты требовали наличия участников в белых списках. Covenant-72B была открыта для любого, у кого есть подходящее оборудование.
Цифры: как они сравниваются?
Производительность в бенчмарках
В оценках zero-shot Covenant-72B демонстрирует результаты, сопоставимые с централизованными моделями, обученными в аналогичном масштабе:
| Бенчмарк | Covenant-72B | K2 (65B, централизованная) | LLaMA-2-70B (централизованная) |
|---|---|---|---|
| ARC-Challenge | 56.8% | 53.8% | 57.4% |
| MMLU | 67.1% | 65.5% | 65.6% |
| HellaSwag | 80.6% | 82.9% | 84.3% |
| WinoGrande | 75.9% | 76.4% | 80.4% |
| PIQA | 81.6% | 82.5% | 82.6% |
Covenant-72B превосходит оба базовых варианта в MMLU (бенчмарк на общие знания) и ARC-Challenge (научное мышление), при этом незначительно уступая в HellaSwag и WinoGrande. Исследователи связывают эти разрывы скорее с различиями в наборах данных и рецептах обучения, чем с ограничениями инфраструктуры.
Вариант с настройкой для чата (chat-tuned) показывает особую силу в выполнении инструкций (IFEval: 64.7%) и математических рассуждениях (MATH: 26.3%), опережая K2-Chat по обоим показателям.
Масштаб участия
- Среднее количество участвующих пиров за раунд: 16.9 (ограничено 20 репликами)
- Среднее количество активных пиров на шаге: 24.4
- Минимальное количество уникальных участников: 70+ на протяжении всего процесса обучения
- Оборудование на одного пира: 8x графических процессоров NVIDIA B200
- Общее количество раундов обучения: ~6,190
Почему соучредитель Anthropic обратил на это внимание
Анализ Джека Кларка в Import AI выявил поразительную асимметрию: вычислитель ные мощности для децентрализованного обучения в настоящее время примерно в 1,000 раз меньше, чем для передового централизованного обучения. Но они растут на 20% в год, в то время как централизованное обучение растет на 5% в год.
Если эти темпы роста сохранятся, разрыв сократится в течение нескольких лет. Кларк отметил, что децентрализованное обучение «технически осуществимо и может способствовать более широкой коллективной разработке более мощных моделей».
Это важно, поскольку бросает вызов неявным предположениям в дискуссиях об управлении ИИ — о том, что обучение передовых моделей всегда будет требовать ресурсов государств или корпораций с триллионными оборотами. Если координируемая блокчейном сеть анонимных владельцев GPU может обучать конкурентоспособные модели 72B уже сегодня, что произойдет, когда тот же подход масштабируется до 200B или 400B параметров?
Экосистема Covenant AI
Успех Templar породил более широкую экосистему под названием Covenant AI, построенную на трех взаимосвязанных платформах:
- Templar (Подсеть 3): Децентрализованное предварительное обучение — двигатель Covenant-72B
- Basilica: Децентрализованная аренда вычислительных мощностей — делает ресурсы GPU доступными для сети
- Grail: Децентрализованное пост-обучение — обучение с подкреплением на основе обратной связи от человека (RLHF) и выравнивание (alignment)
Этот трехслойный стек зеркально отражает полный цикл современной разработки ИИ: от сырого предварительного обучения до тонкой настройки и выравнивания. Если все три уровня смогут работать масштабно без централизованной координации, это станет полноценной альтернативой вертикально интегрированному подходу таких лабораторий, как OpenAI и Anthropic.