Covenant-72B: Das größte gemeinschaftlich trainierte KI-Modell in der Geschichte der Kryptowährungen
Was wäre, wenn das nächste bahnbrechende KI-Modell nicht in einem Milliarden Dollar teuren Rechenzentrum eines einzelnen Konzerns trainiert würde – sondern von Dutzenden anonymen Mitwirkenden auf der ganzen Welt, koordiniert durch eine Blockchain und über gewöhnliche Internetverbindungen kommunizierend?
Genau das ist gerade passiert. Templars Covenant-72B, ein Large Language Model mit 72,7 Milliarden Parametern, das vollständig auf dem Subnet 3 von Bittensor vortrainiert wurde, ist zum größten kollaborativ trainierten KI-Modell in der Geschichte der Kryptowelt geworden – und eines der ersten, das eine wettbewerbsfähige Leistung gegenüber zentralisierten Baselines erreicht und gleichzeitig eine völlig erlaubnisfreie (permissionless) Teilnahme ermöglicht. Keine Whitelists. Keine korporativen Gatekeeper. Nur GPUs, komprimierte Gradienten und ein Token-Incentive-Mechanismus, der alle ehrlich hielt.
Anthropic-Mitbegründer Jack Clark hob diesen Erfolg in seinem einflussreichen Import AI-Newsletter hervor und merkte an, dass dezentrale Trainingskapazitäten jährlich um das 20-Fache wachsen – viermal schneller als die jährliche Wachstumsrate von 5-Fach bei zentralisiertem Frontier-Training.
Hier ist der Grund, warum dies weit über das Bittensor-Ökosystem hinaus von Bedeutung ist.
Das 1-Milliarde-Dollar-Problem, das Covenant-72B adressiert
Das Training eines Frontier-LLMs im Jahr 2026 ist eine Übung in konzentriertem Kapital. Der CEO von Anthropic hat erklärt, dass einzelne Trainingsläufe Kosten von fast 1 Milliarde Dollar erreichen. OpenAI, Google DeepMind und xAI konkurrieren um begrenzte Vorräte an NVIDIA H100- und B200-GPUs und binden sich in mehrjährigen Cloud-Verträgen im Wert von Milliarden. Das Ergebnis: Nur fünf oder sechs Organisationen auf der Erde können es sich leisten, Modelle an der technologischen Grenze (Frontier) zu trainieren.
Diese Konzentration schafft echte Risiken. Die Alignment-Entscheidungen, die Kuratierung der Daten und die kommerziellen Anreize eines einzelnen Unternehmens prägen die KI-Systeme, die Milliarden von Menschen nutzen. Wenn das Training von Frontier-Modellen ausschließlich zentralisiert bleibt, verengt sich die Frage „Wer entscheidet“ in der KI-Governance auf eine Handvoll Sitzungssäle.
Covenant-72B löst dies nicht über Nacht. Aber es liefert den ersten glaubwürdigen Beweis dafür, dass in einem signifikanten Maßstab ein anderer Weg existiert.
Ein Blick ins Innere von Covenant-72B: Die technische Architektur
Modellspezifikationen
Covenant-72B verwendet eine LLaMA-ähnliche Architektur mit 80 Transformer-Layers, 8.192 Modellbreite, 64 Query Attention Heads und 8 Key-Value Heads via Grouped-Query Attention. Es verwendet RoPE-Positions-Embeddings und den Gemma 3 SentencePiece-Tokenizer mit einem Vokabular von 262.208 Token.
Das Modell wurde auf etwa 1,1 Billionen Token trainiert – 1,09 Billionen aus DCLM-Webtexten während der Hauptphase, plus 14,2 Milliarden Token während einer Annealing-Phase auf kuratierten, hochwertigen Daten (27 % Anweisungen, 20 % synthetisches Web, 15 % Code, 13 % Mathematik, 25 % Replay). Eine Supervised Fine-Tuning-Phase fügte weitere 14,8 Milliarden Token hinzu, um eine chatfähige Variante zu erstellen.
SparseLoCo: Der Durchbruch in der Kommunikation
Die Kerninnovation, die dezentrales Training in diesem Maßstab ermöglicht, ist SparseLoCo, ein kommunikationseffizienter Optimizer, der einen Pareto-optimalen Kompromiss zwischen Modellleistung und Bandbreitenverbrauch erreicht.
Hier ist das Problem, das er löst: Beim zentralisierten Training tauschen GPUs im selben Rechenzentrum Gradienten über Hochgeschwindigkeits-Interconnects (NVLink, InfiniBand) mit Hunderten von Gigabit pro Sekunde Bandbreite aus. Verteiltes Training über herkömmliches Internet verfügt über um Größenordnungen weniger Bandbreite. Eine naive Synchronisierung von Gradienten würde das Training unmöglich langsam machen.
SparseLoCo nutzt Chunk-weise Top-k-Sparsifizierung mit 2-Bit-Quantisierung, um Pseudo-Gradienten um mehr als das 146-Fache zu komprimieren. Jeder Peer führt lokal 30 innere Optimierungsschritte mit AdamW aus und kommuniziert dann nur die signifikantesten Gradienten-Updates in stark komprimierter Form. Das Ergebnis: Jede Trainingsrunde erfordert etwa 20 Minuten Rechenzeit, aber nur 70 Sekunden Kommunikation – wodurch eine Compute-Auslastung von 94,5 % erreicht wird.
Zum Vergleich: Der bisher größte dezentrale Trainingsversuch, INTELLECT-1 von Prime Intellect (ein Modell mit 10 Milliarden Parametern), erforderte 8,3 Minuten Kommunikations-Overhead pro Runde. Covenant-72B trainierte ein Modell, das 7-mal größer ist, mit 7-mal weniger Kommunikationszeit.
Gauntlet: Anonyme Teilnehmer ehrlich halten
Die erlaubnisfreie Teilnahme schafft ein offensichtliches Problem: Wie verhindert man, dass Trittbrettfahrer oder böswillige Akteure minderwertige Gradienten einreichen und Belohnungen kassieren?
Gauntlet ist die Antwort – ein Blockchain-kompatibler Belohnungsmechanismus, der den Beitrag jedes Peers durch mehrere Prüfungen validiert:
- LossScore-Evaluierung: Peers werden danach bewertet, ob ihre Gradienten-Updates den Modell-Loss auf zurückgehaltenen Daten-Batches tatsächlich verbessern.
- Liveness- und Synchronisationsprüfungen: Sicherstellen, dass die Peers tatsächlich trainieren und auf dem aktuellen Stand des globalen Modellstatus bleiben.
- Duplikaterkennung: Vergleich der Loss-Verbesserung bei zugewiesenen gegenüber zufälligen Daten, um Peers zu entlarven, die die Arbeit anderer kopieren.
- Normbasierte Skalierung: Beiträge werden relativ zum Median normalisiert, um zu verhindern, dass ein einzelner Peer die Updates dominiert.
Das ist es, was Covenant-72B grundlegend von INTELLECT-1 von Prime Intellect oder Consilience-40B von Psyche unterscheidet: Diese Projekte erforderten Whitelist-Teilnehmer. Covenant-72B stand jedem mit der entsprechenden Hardware offen.
Die Zahlen: Wie schneidet es im Vergleich ab?
Benchmark-Leistung
In Zero-Shot-Evaluierungen schneidet Covenant-72B wettbewerbsfähig gegenüber zentralisierten Modellen ab, die in ähnlichem Umfang trainiert wurden:
| Benchmark | Covenant-72B | K2 (65B, zentralisiert) | LLaMA-2-70B (zentralisiert) |
|---|---|---|---|
| ARC-Challenge | 56,8 % | 53,8 % | 57,4 % |
| MMLU | 67,1 % | 65,5 % | 65,6 % |
| HellaSwag | 80,6 % | 82,9 % | 84,3 % |
| WinoGrande | 75,9 % | 76,4 % | 80,4 % |
| PIQA | 81,6 % | 82,5 % | 82,6 % |
Covenant-72B übertrifft beide Baselines beim MMLU (dem Benchmark für breites Wissen) und der ARC-Challenge (wissenschaftliches Schlussfolgern), während es bei HellaSwag und WinoGrande leicht dahinter zurückbleibt. Die Forscher führen diese Lücken eher auf Unterschiede in der Datenmischung und den Trainingsrezepten als auf Infrastrukturbeschränkungen zurück.
Die für den Chat optimierte Variante zeigt besondere Stärke beim Befolgen von Anweisungen (IFEval: 64,7 %) und beim mathematischen Schlussfolgern (MATH: 26,3 %) und übertrifft K2-Chat in beiden Metriken.
Umfang der Beteiligung
- Durchschnittlich beitragende Peers pro Runde: 16,9 (begrenzt auf 20 Replikate)
- Durchschnittlich aktive Peers pro Schritt: 24,4
- Mindestanzahl an eindeutigen Teilnehmern: 70 + während des gesamten Trainingslaufs
- Hardware pro Peer: 8 x NVIDIA B200-GPUs
- Gesamtzahl der Trainingsrunden: ~ 6.190
Warum der Mitbegründer von Anthropic aufmerksam wird
Jack Clarks Analyse in Import AI hob eine auffällige Asymmetrie hervor: Die dezentrale Trainingsrechenleistung ist derzeit etwa 1.000 x kleiner als das zentralisierte Frontier-Training. Aber sie wächst um 20 x pro Jahr, während das zentralisierte Training um 5 x pro Jahr wächst.
Wenn diese Wachstumsraten anhalten, schließt sich die Lücke innerhalb weniger Jahre. Clark merkte an, dass dezentrales Training „technisch machbar ist und eine breitere kollektive Entwicklung leistungsfähigerer Modelle unterstützen könnte“.
Dies ist von Bedeutung, da es die implizite Annahme in Diskussionen über die KI-Governance infrage stellt – dass das Training von Frontier-Modellen immer die Ressourcen von Nationalstaaten oder Billionen-Dollar-Unternehmen erfordern wird. Wenn ein Blockchain-koordiniertes Netzwerk anonymer GPU-Besitzer heute wettbewerbsfähige 72B-Modelle trainieren kann, was passiert dann, wenn derselbe Ansatz auf 200B oder 400B Parameter skaliert wird?
Das Covenant AI-Ökosystem
Der Erfolg von Templar hat ein breiteres Ökosystem namens Covenant AI hervorgebracht, das auf drei miteinander verbundenen Plattformen aufbaut:
- Templar (Subnetz 3): Dezentrales Pre-Training – der Motor hinter Covenant-72B
- Basilica: Dezentrale Vermietung von Rechenleistung – macht GPU-Ressourcen für das Netzwerk zugänglich
- Grail: Dezentrales Post-Training – Reinforcement Learning from Human Feedback (RLHF) und Alignment
Dieser Drei-Schichten-Stack spiegelt die gesamte Pipeline der modernen KI-Entwicklung wider, vom rohen Pre-Training über die Feinabstimmung bis hin zum Alignment. Wenn alle drei Schichten in großem Maßstab ohne zentralisierte Koordination operieren können, würde dies eine vollständige Alternative zum vertikal integrierten Ansatz von Laboren wie OpenAI und Anthropic darstellen.
Die Wettbewerbslandschaft im dezentralen KI-Training
Covenant-72B entstand nicht in einem Vakuum. Mehrere Projekte konkurrieren darum, die Durchführbarkeit von dezentralem Training zu beweisen:
| Projekt | Parameter | Token | Permissionless? | Status |
|---|---|---|---|---|
| Covenant-72B (Bittensor) | 72,7 B | 1,1 T | Ja | Abgeschlossen |
| Consilience-40B (Psyche) | 40 B | — | Nein (Whitelisted) | Abgeschlossen |
| INTELLECT-1 (Prime Intellect) | 10 B | — | Nein (Whitelisted) | Abgeschlossen |
| INTELLECT-3 (Prime Intellect) | 106 B MoE | — | Behauptet dezentral | Auf zentralem 512-GPU-Cluster trainiert |
| Gensyn | Protokoll-Ebene | — | N/A | 50,6 Mio. $ gesammelt, Protokoll in Entwicklung |
Der Kontrast zu Prime Intellect ist besonders auffällig. INTELLECT-3, ein 106B Mixture-of-Experts-Modell, das 90,8 % bei AIME 2024 erreichte, wurde als dezentrales KI-Projekt vermarktet – wurde aber tatsächlich auf einem zentralisierten 512-GPU-Cluster trainiert. Der vollständig erlaubnisfreie (permissionless), Blockchain-verifizierte Ansatz von Covenant-72B steht dazu in scharfem Kontrast.
Einschränkungen und ehrliche Herausforderungen
Covenant-72B ist ein Meilenstein, kein Zielstrich. Einige Einschränkungen verdienen Anerkennung:
Die Skalierungslücke bleibt groß. Mit etwa 9 x 10^17 FLOPs / s ist die Trainingsrechenleistung von Covenant-72B etwa 1.000 x kleiner als bei zentralisierten Frontier-Läufen. Um mit Modellen der GPT-4-Klasse gleichzuziehen, muss diese Lücke erheblich geschlossen werden.
Die Teilnahme war begrenzt. Die Obergrenze von 20 Replikaten und die Anforderung von 8 x B200-GPUs pro Peer beschränkt die Teilnahme auf gut ausgestattete Mitwirkende. Dies ist kein „KI-Training auf dem Laptop“ – es ist dezentralisiert unter Einheiten mit ernsthafter Hardware.
Kostenumverteilung, nicht Kostenreduzierung. Dezentrales Training ist nicht von Natur aus kostengünstiger als zentralisiertes Training. Es ändert das Finanzierungsmodell – die Kosten werden über Token-Anreize auf viele Teilnehmer verteilt, anstatt sie in der Bilanz einer einzelnen Organisation zu konzentrieren.
Qualitätslücken in einigen Benchmarks. Das Modell liegt bei HellaSwag und WinoGrande hinter zentralisierten Baselines zurück, was darauf hindeutet, dass Datenkuratierung und die Optimierung von Trainingsrezepten Bereiche bleiben, in denen zentralisierte Labore einen Vorsprung haben – vorerst.
Was das für die Zukunft der KI bedeutet
Covenant-72B stellt einen Phasenübergang in der Erzählung über dezentrale KI dar. Zuvor war „dezentrales KI-Training“ entweder theoretisch, auf kleine Modelle beschränkt oder erforderte vertrauenswürdige Teilnehmer. Jetzt gibt es ein veröffentlichtes arXiv-Paper, offene Modellgewichte auf Hugging Face und Benchmark-Ergebnisse, die eine wettbewerbsfähige Leistung zeigen – alles aus einem vollständig erlaubnisfreien Netzwerk, das durch eine Blockchain koordiniert wird.
Die Auswirkungen ziehen sich durch mehrere Bereiche:
KI-Governance: Wenn das Training dezentralisiert werden kann, reicht der Ansatz „Regulierung der Rechenzentren“ für die KI-Sicherheit nicht mehr aus. Politische Entscheidungsträger werden Rahmenbedingungen benötigen, die verteiltes Training berücksichtigen.
Open-Source-KI: Die Gewichte von Covenant-72B sind öffentlich zugänglich und fügen dem Open-Source-Ökosystem ein Modell der 72B-Klasse hinzu, das nicht von einem einzelnen Unternehmen finanziert wurde.
Token-Ökonomie: Der TAO-Token von Bittensor, der den gesamten Trainingslauf incentiviert hat, demonstriert einen konkreten Anwendungsfall für Krypto-Token jenseits von Spekulation – die Finanzierung von KI-Forschung durch marktgetriebene Anreizmechanismen.
Wettbewerbsdynamik: Wenn das dezentrale Training weiterhin mit 20 x / Jahr skaliert, geraten zentralisierte Labore nicht nur unter Druck durch die Konkurrenz, sondern auch durch offene, erlaubnisfreie Netzwerke, die nicht übernommen, als einzelne Einheit reguliert oder abgeschaltet werden können.
Die Frage ist nicht mehr, ob dezentrales KI-Training funktioniert. Es geht darum, wie schnell es die Lücke zu zentralisierten Frontier-Labs schließen kann – und was mit der Machtstruktur der KI-Industrie passiert, wenn dies gelingt.
BlockEden.xyz bietet eine Enterprise-Grade Blockchain-API-Infrastruktur, die dezentrale Netzwerke antreibt und Projekte wie Bittensor erst möglich macht. Entdecken Sie unseren API-Marktplatz, um auf der Infrastrukturschicht der dezentralen KI-Revolution aufzubauen.