Grass Protocol: Wie 8,5 Millionen Nodes die 50-Milliarden-Dollar-Datenkrise der KI lösen

13. Mai 2026 · 10 Min. Lesezeit

Software Engineer

Künstliche Intelligenz hat ein schmutziges Geheimnis: Sie frisst das Internet schneller, als das Internet wachsen kann. Forscher von Epoch AI warnen mit 80-prozentiger Gewissheit, dass hochwertige, von Menschen generierte Trainingsdaten bis 2026–2028 erschöpft sein werden. Gleichzeitig blockieren mehr als 35 % der weltweit führenden 1.000 Websites aktiv den Web-Scraper von OpenAI, und 25 % der hochwertigen Datenquellen wurden aus den wichtigsten Trainingsdatensätzen, die Frontier-Modelle antreiben, herausgehalten. Die größten KI-Unternehmen der Welt – die zusammen Hunderte von Milliarden für Rechenleistung ausgeben – beeilen sich, Inhalte von Verlagen, Nachrichtenorganisationen und sozialen Plattformen zu Preisen zu lizenzieren, die noch vor fünf Jahren absurd erschienen wären.

Grass Protocol setzt darauf, eine bessere Antwort gefunden zu haben. Aufgebaut auf Solana als souveräner Data Rollup, hat Grass ein globales Netzwerk von 8,5 Millionen monatlich aktiven Nodes zusammengestellt, die öffentliche Web-Daten im Petabyte-Maßstab harvesten und in verifizierte, strukturierte KI-Trainingsdatensätze umwandeln. Das Netzwerk hat bereits 12,8 Millionen Dollar Quartalsumsatz von KI-Unternehmen erzielt, die für echte Daten zahlen – keine synthetischen Substitute – und wurde von Investoren wie Polychain Capital, Tribe Capital und Hack VC mit rund einer Milliarde Dollar bewertet.

Die Krise, über die KI-Unternehmen öffentlich nicht sprechen

Um zu verstehen, warum Grass wichtig ist, muss man zunächst die Schwere des Datenproblems begreifen.

Als OpenAI GPT-4 trainierte, Anthropic Claude und Google Gemini, haben sie gemeinsam den Großteil der öffentlich verfügbaren, hochwertigen Texte verarbeitet, die das Internet je produziert hat. Das Web regeneriert sich nicht schnell genug, um die nächste Generation von Modellen mit derselben Qualitätsschwelle zu versorgen. Die Forschung von Epoch AI legt nahe, dass bei aktuellem Verbrauchstempo der nützliche Anteil des Internettexts – derjenige, der die Modellfähigkeiten tatsächlich verbessert – innerhalb dieses Jahrzehnts praktisch erschöpft sein wird.

Die großen KI-Labore reagieren auf drei Weisen, jede mit gravierenden Nachteilen.

Der erste Ansatz ist Lizenzierung. News Corp unterzeichnete einen Fünfjahresvertrag mit OpenAI im Wert von mehr als 250 Millionen Dollar. Reddit soll angeblich 203 Millionen Dollar pro Jahr für den API-Zugang von großen KI-Laboren erhalten. Obwohl diese Deals den Zugang zu qualitativ hochwertigen Inhalten sicherstellen, sind sie enorm teuer und konzentrieren die Datenzulieferkette der KI in den Händen einer Handvoll großer Medien- und Plattformgatekeeper.

Der zweite Ansatz ist synthetische Daten – das Erzeugen von Trainingsbeispielen mithilfe von KI-Modellen selbst. Das Problem ist in der akademischen Literatur gut dokumentiert: Das Training aufeinanderfolgender Generationen von Modellen mit KI-generierten Inhalten verursacht „Modellkollaps", eine Degradationsspirale, bei der die Ausgaben zunehmend generischer, halluzinierter und losgelöst von der Realität werden. Man kann kein echtes Weltwissen bootstrappen, indem man Modelle mit ihren eigenen Spiegelbildern füttert.

Der dritte Ansatz – der von Grass erschlossen wird – ist dezentrales Web-Scraping im Maßstab von Residential-IPs. Und er löst ein spezifisches technisches Problem, das zentralisierte Scraper nicht lösen können.

Warum Residential-IPs alles verändern

Wenn große KI-Labore versuchen, das Web zu scrapen, werden ihre Rechenzentren blockiert. Websites erkennen Rechenzentrum-IP-Bereiche und reagieren mit CAPTCHAs, Bot-Herausforderungen oder vollständiger Ablehnung. Mehr als ein Drittel der wichtigsten Websites zielt nun gezielt auf bekannte KI-Scraper-Adressen ab und blockiert diese. Die Daten, die durchkommen, sind zunehmend unvollständig, verzerrt in Richtung Websites, die sich nicht um Blockierungen kümmern, und es fehlen die dynamischen, personalisierten Inhalte, die moderne Web-Daten wertvoll machen.

Grass' Nodes laufen als leichtgewichtige Browser-Erweiterungen auf den Geräten echter Nutzer mit echten Residential-IP-Adressen. Aus der Perspektive einer Website sieht Grass-Traffic nicht zu unterscheiden von einem normalen Nutzer beim Surfen aus. Das bedeutet, Grass kann Teile des Webs erreichen, die Rechenzentrum-Scraper nicht können – nicht weil es Sicherheitsmaßnahmen umgeht, sondern weil es echte dezentrale menschliche Browser-Aktivität repräsentiert.

Das Ergebnis ist ein grundlegend anderer Datensatz. Grass-Nodes verarbeiten gemeinsam täglich rund 1 Petabyte Web-Daten aus 190 Ländern und erreichen Inhalte in lokalen Sprachen, regionalen Domains und hinter geografischen Beschränkungen, die eine zentralisierte US-amerikanische Scraping-Operation niemals sehen würde. Für KI-Unternehmen, die mehrsprachige Modelle trainieren oder Produkte für globale Märkte entwickeln, ist diese geografische Vielfalt kein nettes Extra – sie ist eine fähigkeitsbedingte Voraussetzung.

Wie das Netzwerk tatsächlich funktioniert

Ein Grass-Node-Betreiber installiert die Erweiterung und teilt ungenutzte Bandbreite. Die Infrastruktur von Wynd Labs leitet Scraping-Aufgaben durch diese Nodes und sammelt rohe Web-Inhalte. Hier wird die Web3-Architektur technisch bedeutsam: Anstatt einem zentralen Server zu vertrauen, zu berichten, was gesammelt und seine Genauigkeit zu überprüfen, verwendet Grass Zero-Knowledge-Beweise, um kryptografisch zu attestieren, was jeder Node gescrapt hat, wann und woher.

Diese Provenienzschicht verwandelt rohe gescrapte Daten in etwas, dem KI-Unternehmen tatsächlich vertrauen können. Jeder Datensatz, der über den Grass-Marktplatz verkauft wird, trägt einen On-Chain-Nachweis seiner Herkunft – eine Fähigkeit, die kommerziell bedeutsam wird, wenn sich die KI-Regulierung weltweit verschärft. Der europäische KI-Act, in der Entwicklung befindliche US-KI-Gesetzgebung und aufkommende Urheberrechtsrahmen schaffen alle Haftungsdruck rund um die Beschaffung von Trainingsdaten. Nachweisbare, prüfbare Datenprovenienz verlagert sich schnell von einem netten Feature zu einer rechtlichen Anforderung.

Das Sion-Upgrade vom Februar 2025 erweiterte Grass' Fähigkeiten von Text auf vollständig multimodale Daten. Das Update führte Verarbeitungs-Pipelines für Bilder und 4K-Video ein, erhöhte den Datendurchsatz um das 10-fache und trieb die tägliche Sammlung kurzzeitig auf ein Allzeithoch von 1.700 TB, bevor sie sich bei rund 1.000 TB pro Tag stabilisierte. Für KI-Unternehmen, die Bildverarbeitungsmodelle, Video-Verständnissysteme oder multimodale Assistenten entwickeln, positioniert das Grass als seltene Quelle realer, geografisch diverser visueller Trainingsdaten.

Das Geschäftsmodell: Echter Umsatz von echten Kunden

Eines der glaubwürdigsten Signale für Grass' Product-Market-Fit ist sein Umsatzverlauf. In einem DePIN-Sektor, in dem die meisten Projekte allein von Token-Emissionen und spekulativer Bewertung leben, meldete Grass für Q4 2025 einen Umsatz von rund 12,8 Millionen Dollar, wobei Oktober und November allein mehr als 10 Millionen Dollar generierten. KI-Unternehmen zahlen echtes Geld für diese Daten.

Der GRASS-Token steht im Zentrum des wirtschaftlichen Designs des Netzwerks. Node-Betreiber verdienen GRASS für ihre Datenbeiträge. KI-Unternehmen zahlen in GRASS (oder Äquivalent), um Datensatz-Zugang zu erwerben. Token-Governance ermöglicht es der Community, die Netzwerkentwicklungsprioritäten zu steuern. Mit einem festen Angebot von 1 Milliarde Token und derzeit 240 Millionen im Umlauf schaffen die Tokenomics eine direkte Verbindung zwischen dem Wachstum der Datennachfrage und dem Netzwerkwert – ein seltener Fall von Token-Nützlichkeit, der sauber auf die tatsächliche Produktnutzung abgebildet ist.

Hack VC, das die Serie-A anführte, die Grass mit rund einer Milliarde Dollar bewertete, veröffentlichte eine detaillierte Investitionsthese, in der argumentiert wird, dass Grass Infrastruktur aufbaut, die analog zu dem ist, was Bloomberg für Finanzdaten aufgebaut hat – nur dezentralisiert, erlaubnisfrei und im Besitz der Teilnehmer, die den Wert generieren. Der Vergleich ist provokativ, aber nicht unvernünftig: Bloombergs Terminal generiert mehr als 6 Milliarden Dollar Jahresumsatz, indem es Finanzdaten zugänglich und zuverlässig macht. KI-Trainingsdaten könnten einen Markt ähnlicher oder noch größerer Dimension darstellen.

Wettbewerbsposition im dezentralen Daten-Stack

Grass konkurriert in einem breiteren Ökosystem dezentraler KI-Infrastrukturprojekte, besetzt aber eine eigenständige Nische.

Ocean Protocol, der etablierteste dezentrale Datenmarktplatz, konzentriert sich darauf, Datenbesitzern zu ermöglichen, bereits vorhandene Datensätze zu monetarisieren – Unternehmensdaten, Forschungsrepositorien, private Sensornetzwerke – über seine „Compute-to-Data"-Architektur. Ocean ist Teil des ASI-Ökosystems neben Fetch.ai und SingularityNET und betont datenschutzwahrende Berechnung statt frischer Web-Datensammlung.

Render Network adressiert einen ganz anderen Engpass: GPU-Rechenleistung für Rendering und KI-Inferenz, nicht Datenakquise. Mit 38 Millionen Dollar Umsatz allein im Januar 2026 demonstriert Render eine enorme Nachfrage nach dezentraler Rechenleistung, löst aber das Verarbeitungsproblem stromabwärts von dem Punkt, an dem Grass tätig ist.

Was Grass einzigartig bietet, sind frische, kontinuierliche, reale Web-Daten in einem Maßstab und einer geografischen Breite, die kein zentralisierter Mitbewerber ohne massive IP-Infrastrukturinvestitionen erreichen kann. Die Kombination aus Residential-IP-Zugang, ZK-verifizierter Provenienz, multimodaler Fähigkeit nach Sion und Solana-nativem Settlement schafft einen Stack, der schwer von Grund auf zu replizieren wäre.

Risiken, die es zu verstehen gilt

Grass ist nicht ohne echte Risiken. Das rechtliche Umfeld rund um groß angelegtes Web-Scraping bleibt umstritten. Mehrere große Verlage haben rechtliche Schritte gegen KI-Unternehmen eingeleitet, die ihre Inhalte ohne Genehmigung gescrapt haben. Grass' Position – dass es KI-Laboren hilft, effizienter auf öffentliche Web-Inhalte zuzugreifen – sieht sich denselben rechtlichen Fragen ausgesetzt wie zentralisierte Scraper, und die verteilte Residential-IP-Architektur löst die Urheberrechtsfragen bezüglich der zugrunde liegenden Inhalte nicht automatisch.

Der Wettbewerbsgraben ist real, aber nicht unüberwindbar. Ein ausreichend kapitalisierter Mitbewerber könnte ein ähnliches Residential-Netzwerk aufbauen, indem er Nutzer durch einen konkurrierenden Token incentiviert. Grass hat mit 8,5 Millionen Nodes einen Vorsprung, aber Netzwerkeffekte in Bandbreiten-Sharing-Netzwerken sind schwächer als in sozialen Plattformen oder Finanzmärkten – Nutzer können problemlos mehrere Bandbreiten-Sharing-Tools gleichzeitig betreiben.

Token-Preisvolatilität schafft auch ein Risiko für die Bindung von Node-Betreibern. Wenn der GRASS-Token-Wert erheblich sinkt, schwächt sich der wirtschaftliche Anreiz zum Betreiben eines Nodes ab, was das Netzwerk potenziell genau dann schrumpfen lässt, wenn es Skalierung benötigt, um Unternehmens-Datenverträge zu erfüllen. Die Bridge-Runde über 10 Millionen Dollar und Einnahmen von KI-Unternehmenskunden liefern echten Cashflow, um Netzwerkbelohnungen über reine Token-Emissionen hinaus aufrechtzuerhalten, was dieses Risiko im Vergleich zu den meisten DePIN-Projekten erheblich reduziert.

Wie Erfolg aussieht

Die 2026er Roadmap für Grass umfasst mobile Expansion (Android- und iOS-Apps, um ungenutzte mobile Bandbreite zu nutzen), Live-Kontext-Retrieval für KI-Echtzeit-Inferenz statt nur Trainingsdaten sowie semantische multimodale Suche über die gesammelten 4K-Video-, Audio- und Textinhalte des Netzwerks.

Wenn Grass die Roadmap erreicht, wandelt es sich von einem Datensammlungsnetzwerk in eine Echtzeit-Informationsschicht – der Unterschied zwischen einer Bibliothek mit Trainingsmaterialien und einem Live-Feed, den KI-Systeme kontinuierlich abfragen können. Dieses Produkt ist deutlich verteidigbarer und wertvoller als der Verkauf von Batch-Datensätzen.

Die tiefere These hinter Grass ist, dass die Datenzulieferkette der KI aus Zufall zentralisiert wurde, nicht aus Notwendigkeit. Große KI-Labore haben ihre Trainingsinfrastruktur genauso aufgebaut, wie Cloud-Unternehmen ihre Recheninfrastruktur aufgebaut haben – im massiven Maßstab, in eigenen Einrichtungen, unter eigener Kontrolle. Aber Daten werden, anders als Rechenleistung, überall und von jedem generiert. Ein dezentrales Netzwerk, das diese Generierung in eine gemeinsame, verifizierbare, vergütete Pipeline umleitet, ist möglicherweise einfach die natürlichere wirtschaftliche Struktur für dieses Problem.

Mit 8,5 Millionen Teilnehmern bereits im Netzwerk, 12,8 Millionen Dollar Quartalsumsatz von echten KI-Kunden und einer Milliarden-Dollar-Bewertung, die von institutionellen Investoren unterstützt wird, die den Markt verstehen, hat Grass die Phase des „interessanten Experiments" längst hinter sich gelassen. Ob es zum Bloomberg der KI-Trainingsdaten wird, hängt von der regulatorischen Toleranz, den Wettbewerbsdynamiken und davon ab, ob die Datenknappenheit so schnell eskaliert, wie Forscher vorhersagen.

Die kluge Wette ist, dass es so kommt.

BlockEden.xyz bietet enterprise-taugliche Solana-RPC- und API-Infrastruktur für Entwickler, die auf den am schnellsten wachsenden Anwendungen des Netzwerks aufbauen. Wer KI-nahe Web3-Produkte entwickelt oder zuverlässigen Zugang zur Datenschicht von Solana benötigt, findet hier die passende Lösung: API-Marktplatz erkunden.

Share on Twitter

API Marketplace Featured

Die Krise, über die KI-Unternehmen öffentlich nicht sprechen​

Warum Residential-IPs alles verändern​

Wie das Netzwerk tatsächlich funktioniert​

Das Geschäftsmodell: Echter Umsatz von echten Kunden​

Wettbewerbsposition im dezentralen Daten-Stack​

Risiken, die es zu verstehen gilt​

Wie Erfolg aussieht​