Direkt zum Hauptinhalt

Bittensors SN3 setzt das Netzwerk auf einen Trainingslauf mit einer Billion Parametern

· 12 Min. Lesezeit
Dora Noda
Software Engineer

Im März 2026 trainierten ein paar Dutzend anonyme Miner über private Internetverbindungen ein Sprachmodell mit 72 Milliarden Parametern, das in puncto Leistungsfähigkeit fast an Metas Llama 2 70B heranreichte. Sechs Wochen später warf das Team, das diese Bemühungen leitete, das Handtuch, stieß TAO im Wert von 10 Millionen $ ab und bezeichnete die Dezentralisierung von Bittensor als „Theater“. Nun will die verbliebene Community es noch einmal wissen – im vierzehnfachen Maßstab, in etwa vier Wochen, wobei die gesamte These der dezentralen KI vom Ergebnis abhängt.

Dies ist die Geschichte, wie Bittensors Subnet 3 – nach dem Ausstieg von Covenant AI kürzlich in Teutonic umbenannt – sich selbst von einem Trainingslauf mit 1 Billion Parametern überzeugte, der zeitlich genau in das Zeitfenster der SEC-Prüfung für den TAO ETF von Grayscale fällt. Es ist eine Wette darauf, dass die Incentive-Ebene des Protokolls wichtiger ist als die Menschen, die es entwickelt haben, und dass dasselbe Netzwerk, das eine Governance-Krise überlebt hat, den „DeepSeek-Moment“ für dezentrale KI liefern kann, bevor die Regulierungsbehörden entscheiden, ob sie die Wall Street einsteigen lassen.

Wie ein 72B-Modell zum Maßstab für erlaubnisfreie KI wurde

Die Geschichte beginnt am 10. März 2026, als Subnet 3 – das damals unter dem Namen Templar firmierte – Covenant-72B ankündigte, ein Modell mit 72 Milliarden Parametern, das auf etwa 1,1 Billionen Token von mehr als 70 unabhängigen Minern trainiert wurde, die sich über das öffentliche Internet koordinierten. Es war mit großem Abstand der größte dezentrale LLM-Pre-Training-Lauf, der jemals abgeschlossen wurde.

Der entscheidende Benchmark: ein MMLU-Score von 67,1, womit Covenant-72B in der gleichen Liga spielt wie Metas Llama 2 70B – ein Modell, das von einem der bestfinanzierten KI-Labore des Planeten entwickelt wurde. NVIDIA-CEO Jensen Huang verglich das Projekt öffentlich mit einem „modernen folding@home für KI“. Der Subnet-Token von Templar schoss in die Höhe und erreichte in der Spitze eine Marktbewertung von über 1,5 Milliarden $.

Der technische Durchbruch war nicht die Modellarchitektur. Es war die Koordinationsschicht. Zwei Komponenten leisteten die Hauptarbeit:

  • SparseLoCo, ein kommunikationseffizienter Trainingsalgorithmus, der die Bandbreitenanforderungen zwischen den Knoten durch Sparsification, 2-Bit-Quantisierung und Error Feedback um das 146-fache reduzierte. Ohne ihn wäre ein Trainingslauf dieser Größenordnung über privates Internet physisch unmöglich – allein der Gradientenabgleich würde die Verbindung jedes Miners auslasten.
  • Gauntlet, Bittensors Blockchain-validiertes Anreizsystem, das den Beitrag jedes Miners über Loss-Evaluierung und OpenSkill-Rankings bewertet, TAO an die qualitativ hochwertigen Knoten auszahlt und den Rest kürzt (Slashing).

Zusammen ergaben sie etwas völlig Neues: ein erlaubnisfreies Netzwerk aus anonymen Mitwirkenden, die sich ausschließlich über kryptografische Anreize koordinieren und ein Modell trainieren, das mit den Ergebnissen von Milliarden-Dollar-Laboren konkurrenzfähig ist.

Dann brach es zusammen.

Der Covenant-Abgang: 900 Millionen $ in zwölf Stunden vernichtet

Am 10. April 2026 gab Sam Dare – Gründer von Covenant AI, dem Team hinter drei der wertvollsten Subnets von Bittensor (SN3 Templar, SN39 Basilica und SN81 Grail) – seinen Rücktritt bekannt. Innerhalb weniger Stunden liquidierte er etwa 37.000 TAO, rund 10,2 Millionen $, und veröffentlichte eine Abschiedsanklage: Mitbegründer Jacob Steeves („Const“) übe eine zentralisierte Kontrolle über das Protokoll aus, und die Dezentralisierung von Bittensor sei Performance, keine Architektur.

Die Marktreaktion erfolgte prompt. TAO stürzte je nach Messzeitraum um 20–28 % ab, wodurch innerhalb von 12 Stunden rund 650–900 Millionen anMarktkapitalisierungvernichtetwurden.DieAlphaTokenderSubnetstrafesnochha¨rterGrail(SN81)lagamTiefpunkt67an Marktkapitalisierung vernichtet wurden. Die Alpha-Token der Subnets traf es noch härter – Grail (SN81) lag am Tiefpunkt **67 %** im Minus. Long-Positionen im Wert von etwa 10 Millionen wurden liquidiert.

Zwei Fakten dämpften die Panik:

  1. Die Subnets starben nicht. Community-Miner starteten SN3, SN39 und SN81 basierend auf Open-Source-Code ohne zentralen Betreiber neu. Die von Covenant errichtete Infrastruktur war tatsächlich aus den öffentlichen Artefakten wiederherstellbar – was wohl die Dezentralisierungsthese beweist, die Dare bestritten hatte.
  2. 70 % des TAO-Bestands blieben während der Turbulenzen gestakt. Langfristige Inhaber folgten Dare nicht zum Ausgang.

Aber das Netzwerk hatte ein Glaubwürdigkeitsproblem. Wenn Covenant – das Team, das den wichtigsten technischen Erfolg von Bittensor geliefert hat – auf dem Höhepunkt aussteigen und den Token zum Absturz bringen konnte, was hindert den nächsten Subnet-Betreiber daran, dasselbe zu tun?

Der Conviction-Mechanismus: Bindung derer, die gehen können

Die Antwort von Const erfolgte am 20. April 2026, zehn Tage nach Dares Abgang. BIT-0011, bezeichnet als Conviction-Mechanismus, schlägt ein Locked-Stake-Regime vor, das Subnet-Eigentümer dazu zwingt, TAO für Monate oder Jahre festzuschreiben, im Austausch für einen „Conviction Score“, der mit Stimmrechten und Subnet-Eigentum verknüpft ist.

Die Mechanik:

  • Der Conviction Score beginnt bei 100 % und nimmt in 30-Tage-Intervallen ab, wenn die Token nicht wieder in den Lock-up eingezahlt werden.
  • Stimmkraft und Eigentumsrechte sinken im Gleichschritt mit dem Verfall, was eine plötzliche Kapitalflucht wirtschaftlich kostspielig macht, statt nur peinlich zu sein.
  • Das System zielt zuerst auf die gereiften Subnets ab – SN3, SN39 und SN81 – genau die drei, die Covenant betrieb.

Der bittere Scherz: BIT-0011 wurde Berichten zufolge von Sam Dare selbst vor seinem Abgang entworfen. Der scheidende Gründer schrieb die Regeln, die verhindern sollen, dass Gründer gehen.

Der Vorschlag adressiert eine reale strukturelle Schwäche – Subnet-Betreiber konnten zuvor Positionen ohne Governance-Strafe abstoßen –, konzentriert aber auch die Macht in den Händen der langfristigen Anleger, was eine eigene Form der Zentralisierung darstellt. Ob dies der richtige Kompromiss ist, hängt davon ab, was man für das Hauptrisiko von Bittensor hält: das Abwandern von Gründern oder eine oligarchische Übernahme.

Teutonic und der Billionen-Parameter-Moonshot

Vor diesem Hintergrund hat sich das umbenannte Teutonic-Subnetz (SN3, ehemals Templar) öffentlich zu einem dezentralen Trainingslauf mit 1 Billion Parametern für Mitte bis Ende Mai 2026 verpflichtet. Das entspricht etwa dem 14-fachen Umfang von Covenant-72B auf derselben grundlegenden Architektur, jedoch mit einem von der Community wiederhergestellten Team anstelle der ursprünglichen Covenant-Ingenieure.

Das strategische Timing ist unübersehbar. Grayscale reichte am 2. April 2026 bei der NYSE Arca den S-1-Änderungsantrag für den Spot-Bittensor Trust ETF (vorgeschlagenes Tickersymbol GTAO) ein. Das Entscheidungsfenster der SEC wird derzeit für August 2026 erwartet. Ein erfolgreicher Trainingslauf mit 1 Billion Parametern im Mai würde genau auf den Höhepunkt der Beratungen der Aufsichtsbehörden fallen — exakt zu dem Zeitpunkt, an dem die Frage „Handelt es sich um eine echte Technologie oder ein Meme?“ zur entscheidenden Belastungsprobe wird. Grayscale hat die Gewichtung von TAO innerhalb seines breiteren KI-Fonds bereits am 7. April auf 43,06 % erhöht, was die größte Umschichtung in einen einzelnen Vermögenswert darstellt, die dieser Fonds jemals vorgenommen hat.

Das Bull-Case-Szenario schreibt sich von selbst: Veröffentliche ein glaubwürdiges dezentrales Modell mit 1 Billion Parametern, werde zum „DeepSeek-Moment“, den die ETF-Zulassung benötigt, um institutionelle Zuflüsse zu rechtfertigen, und bewerte die gesamte Kategorie der dezentralen KI innerhalb eines Quartals neu.

Der Bear-Case liegt im Engineering, nicht im Marketing.

Warum die Skalierung von dezentralem Training schwierig ist (auf eine Weise, mit der Frontier-Labs nicht konfrontiert sind)

Zentralisierte 1T+ Modelle — GPT-5, Claude 4.7 Opus, Gemini 2.5 Ultra — werden in Einrichtungen trainiert, in denen jede GPU mit jeder anderen GPU über speziell entwickelte Fabrics wie NVLink und InfiniBand verbunden ist, mit Latenzen im Sub-Mikrosekundenbereich und Bandbreiten im Terabit-pro-Sekunde-Bereich. Selbst unter diesen Bedingungen ist die Gradientensynchronisation der Engpass. Veröffentlichte Forschungsergebnisse zeigen konsistent, dass über 90 % der LLM-Trainingszeit für die Kommunikation anstatt für die Berechnung aufgewendet werden können, wenn die Skalierung naiv erfolgt.

Die Miner von Teutonic koordinieren sich über WAN-Latenzen von ~ 100 ms über herkömmliche Internetanschlüsse. Der einzige Grund, warum Covenant-72B überhaupt möglich war, ist die 146-fache Kompression des Kommunikationsvolumens durch SparseLoCo. Der Vorstoß auf 1 Billion Parameter verändert die Kalkulation auf drei unangenehme Arten:

  1. Die Gradientengröße skaliert annähernd linear mit der Anzahl der Parameter. Ein 14-mal größeres Modell bedeutet 14-mal so viele Daten, die pro Schritt synchronisiert werden müssen, noch bevor der Optimizer-Status berücksichtigt wird.
  2. Der Koordinationsaufwand zwischen den Knoten skaliert historisch gesehen superlinear zur Anzahl der Worker. Wenn Teutonic seinen Node-Pool von ~ 70 auf ~ 256 verdoppelt, verdoppeln sich die All-Reduce-Kommunikationskosten nicht nur — sie können je nach Topologie um das 4- bis 10-fache ansteigen.
  3. Ausfallmodi potenzieren sich. Wenn ein Knoten mitten im Schritt in einem Netzwerk mit 70 Knoten ausfällt, ist dies ein kleines Slashing-Ereignis. In einem Netzwerk mit 256 Knoten, das 14-mal größere Gradienten verarbeitet, kann derselbe Ausfall die gesamte Trainingsrunde zum Stillstand bringen.

Nichts davon ist unlösbar. Es gibt eine Reihe von Forschungsarbeiten zum dezentralen Training — heterogenes Pre-Training mit geringer Bandbreite, FusionLLM, Überlappung von Kommunikation und Berechnung, verzögerte Gradientenkompensation —, die genau auf dieses Szenario abzielen. Aber fast alle davon wurden bisher nur im Bereich von 7B bis 70B Parametern validiert. Ein Trainingslauf mit 1 Billion Parametern auf geografisch verteilter Standardhardware wäre an sich schon ein Forschungsbeitrag und nicht nur ein Produktlaunch.

Die ehrliche Einschätzung: Teutonic nimmt eine technische Herausforderung auf Forschungsniveau mit einer Deadline auf Marketingniveau an. Entweder es funktioniert und wird zum Glaubwürdigkeitsereignis, das das gesamte dTAO-Ökosystem benötigt, oder es scheitert öffentlich während des aufmerksamsten Prüfungsfensters der SEC.

Die Landschaft des dezentralen KI-Trainings, in der Teutonic bestehen muss

Teutonic ist nicht das einzige Projekt, das versucht, den Meilenstein der „glaubwürdigen dezentralen 1 Billion Parameter“ im Jahr 2026 zu erreichen. Die Wettbewerbslandschaft füllt sich schnell:

  • Gensyn startete sein Mainnet am 22. April 2026 — am selben Tag, an dem dieser Artikel erscheint — und kombinierte den Start mit Delphi Markets, einer KI-gesteuerten Matching-Ebene für Rechenaufträge. Bis zum Ende des Tages meldete Gensyn eine Hashrate, die mehr als 5.000 NVIDIA H100s entspricht. Während Bittensor auf erlaubnisfreie Koordination plus ein Token-Incentive-Schwungrad setzt, positioniert sich Gensyn als verifizierbarer KI-Rechenmarktplatz mit kryptografischen Nachweisen für die korrekte Ausführung.
  • Ritual ist den umgekehrten Weg gegangen und konzentriert sich eher auf Inferenz statt auf Training. Die Infernet-Technologie ermöglicht es jedem Smart Contract, eine KI-Ausgabe anzufordern und einen kryptografischen Nachweis zu erhalten, dass das spezifizierte Modell unverändert verwendet wurde. Das ist die These der „verifizierbaren KI in DeFi“ und nicht die der „Frontier-Modelle von Grund auf trainieren“.
  • Ambient und Origins Network setzen auf angrenzende Bereiche — unterschiedliche Incentive-Designs, unterschiedliche Verifizierungsstrategien, aber das gleiche langfristige Ziel, das Monopol der zentralisierten Labs auf das Training von Frontier-Modellen zu brechen.

Diese Projekte konkurrieren nicht direkt um denselben Meilenstein, aber sie alle konkurrieren um denselben begrenzten Pool an Aufmerksamkeit und Kapital. Wenn das Mainnet von Gensyn durch kommerzielle Workloads das Narrativ „dezentrale KI ist hier“ besetzt, wird der Trainingslauf von Teutonic im Mai zu einem Referendum darüber, ob der spezifische Ansatz von Bittensor — Subnetz-Wettbewerb plus Token-gewichtete Anreize — die richtige Architektur ist oder die erste Iteration, die überholt wird.

Warum dies über TAO hinaus wichtig ist

Drei Dinge werden in den nächsten vier bis sechs Wochen gleichzeitig getestet:

Ob dezentrales Training skaliert. Wenn Teutonic erfolgreich ist, bleibt die These vom „Bitcoin des dezentralen KI-Computings“ bestehen. Sollte es scheitern, wird der Ausstieg von Covenant als der Moment gedeutet, in dem das Subnetz-basierte Training seinen Höhepunkt erreichte – eine 72B-Obergrenze anstelle eines 72B-Fundaments.

Ob der Conviction-Mechanismus die richtige Governance-Lösung ist. Das Binden von Subnetz-Betreibern verhindert einen weiteren Dump im Stil von Covenant, schafft jedoch einen neuen Fehlermodus, in dem sich langfristig Sperrende festsetzen können. Das Modell der verteilten Maintainer von Bitcoin Core, die kontinuierliche zentralisierte Kernentwicklung von Solana Labs und die Konzentration von Mysten Labs bei Sui sind drei verschiedene Antworten auf dieselbe Frage – ob Protokollkomplexität einen starken zentralen Maintainer erfordert, dem die Community vertrauen muss. Bittensor führt nun seine eigene Version dieses Experiments in Echtzeit durch.

Ob das ETF-Fenster dezentrale KI dazu zwingt, nach dem Zeitplan von TradFi zu liefern. Das Entscheidungsfenster der SEC im August ist eine harte Deadline für ein Narrativ, das eher ein „DeepSeek-Moment“ als ein „interessantes Forschungsprojekt“ sein möchte. Dies ist entweder eine gesunde Triebfeder oder ein Rezept für überhöhte Versprechungen – je nachdem, was geliefert wird.

Für Entwickler, die das Geschehen von der Infrastrukturseite aus beobachten, ist das zugrunde liegende Signal einfacher: KI-Agenten und dezentrale Trainingsnetzwerke stehen kurz davor, eine neue Stufe der On-Chain-Abfragelast zu erzeugen – Modellregister-Abfragen, Attestierungsnachweise, Gradient-Checkpoint-Hashes, Subnetz-Leistungsdaten –, die nicht nahtlos in das auf menschliche Nutzer ausgerichtete dApp-Muster passen, für das die bestehende RPC-Infrastruktur entwickelt wurde.

BlockEden.xyz bietet RPC- und Indexierungs-Infrastruktur auf Enterprise-Niveau für über 27 Chains für Teams, die den AI-meets-Crypto-Stack aufbauen. Entdecken Sie unseren API-Marktplatz, um auf Infrastrukturen zu entwickeln, die sowohl für menschlichen als auch für maschinellen Datenverkehr ausgelegt sind.

Quellen