Nvidias Blackwell-Architektur: Die Neudefinition von KI-Beschleunigung

Von DerSchneider

Die Ankündigung der Blackwell-B200-GPU im März 2024 markierte einen Wendepunkt in der Geschichte der KI-Beschleuniger. Doch was steckt wirklich hinter diesem Chip, der als „weltweit leistungsstärkster Chip für KI“ gefeiert wird? Dieser Artikel beleuchtet die technischen Innovationen, ihre praktische Bedeutung und die strategischen Implikationen für die Zukunft der Künstlichen Intelligenz – auch für Leser ohne tiefgehende technische Vorbildung.

Einleitung: Mehr als nur ein schnellerer Chip

Als Nvidia im März 2024 die Blackwell-Architektur vorstellte, war die Aufregung in der Fachwelt groß. Der Vorgänger H100 hatte das Unternehmen zu einem der wertvollsten der Welt gemacht und war zur begehrten Währung im KI-Boom geworden. Blackwell versprach nicht weniger als einen Technologiesprung, der die Grenzen des Möglichen neu definieren sollte .

Doch die B200 ist weit mehr als ein einfacher Nachfolger. Sie repräsentiert einen grundlegenden Wandel in der Architekturphilosophie: Während frühere Generationen von Tesla bis Hopper darauf ausgerichtet waren, möglichst viele Rechenoperationen pro Sekunde (FLOPS) für das Training großer Modelle zu liefern, legt Blackwell den Schwerpunkt auf die Effizienz bei der Anwendung von KI-Modellen – dem sogenannten Inferencing . Dieser Paradigmenwechsel ist entscheidend, denn während das Training eines Modells einmalig geschieht, wird dessen Anwendung millionenfach wiederholt – und verbraucht damit den Löwenanteil der Rechenressourcen.

Technische Innovationen: Was macht Blackwell so besonders?

Die Dual-Chip-Architektur

Der offensichtlichste Unterschied zu früheren Generationen ist die Bauweise: Blackwell bricht mit Nvidias traditionellem Single-Chip-Design und setzt erstmals auf eine Dual-Die-Konfiguration . Zwei Silizium-Chips werden entlang einer Kante durch eine 10 TB/s schnelle Verbindung zusammengefügt und agieren in der Software als ein einziger, zusammenhängender GPU. Diese Konstruktion ermöglicht die beeindruckende Zahl von 208 Milliarden Transistoren – mehr als doppelt so viele wie beim Vorgänger H100 (80 Milliarden) .

Die beiden Dies eines B200 beherbergen insgesamt 148 Streaming-Multiprozessoren (SMs), verteilt auf acht GPCs, und bieten 192 GB HBM3e-Speicher mit einer Bandbreite von 8 TB/s .

Die fünfte Generation der Tensor Cores

Das Herzstück von Blackwell bilden die Tensor Cores der fünften Generation – spezialisierte Recheneinheiten für Matrixmultiplikationen, das Kernproblem von KI-Algorithmen. Die entscheidende Neuerung: Sie brechen mit dem bisherigen „Warp-synchronen“ Paradigma.

Frühere Architekturen (Volta, Ampere, Hopper) verlangten, dass alle 32 Threads eines Warps synchron arbeiten mussten, bevor eine Matrixoperation ausgeführt werden konnte – ein Modell, das Flexibilität einschränkte und Leerlaufzeiten erzeugte . Blackwell führt mit tcgen05.mma eine Single-Thread-Instruktion ein: Jeder Thread kann nun unabhängig Matrixoperationen auslösen. Dies ermöglicht eine feinere Auslastung der Recheneinheiten und gibt Compilern mehr Freiheit zur Optimierung .

Ebenfalls neu ist die Einführung von Tensor Memory (TMEM) , einem dedizierten On-Chip-Speicher speziell für Tensor-Operationen. Bisher mussten Matrixoperationen über Shared Memory, Register oder andere Wege mit Daten versorgt werden. TMEM schafft einen eigenen, optimierten Pfad . Die akademische Forschung zeigt, dass diese Neuerungen die gemischte Präzisionsleistung um das 1,56-Fache gegenüber der H200 steigern und die Energieeffizienz um 42 Prozent verbessern .

Neue Präzisionsformate: FP4 und FP6

Ein weiterer Schlüssel zur Effizienzsteigerung liegt in der Unterstützung neuer, niederpräziser Zahlenformate: FP4 und FP6 . Ein Neuron in einem KI-Modell wird durch eine Zahl repräsentiert. Je weniger Bits diese Zahl benötigt, desto weniger Speicher wird verbraucht und desto schneller können Berechnungen ausgeführt werden. Der H100 nutzte FP8 (8 Bit); Blackwell halbiert dies auf 4 Bit.

Dies ermöglicht massive Beschleunigungen beim Inferencing, bei dem Geschwindigkeit und Energieverbrauch entscheidend sind – und das, so Nvidia, ohne signifikanten Genauigkeitsverlust . So kann die B200 bis zu 20 PetaFLOPS an FP4-Rechenleistung bieten . In der Praxis bedeutet dies: Bei einem Llama 3.3 70B Modell erreicht die B200 eine etwa vierfache Token-Leistung pro GPU im Vergleich zur H200 .

Hardware-Decompression-Engine

Moderne KI-Modelle werden immer größer – mitunter Billionen von Parametern. Dies erfordert enorme Speicherkapazitäten. Blackwell adressiert dieses Problem mit einer hardwarebasierten Dekomprimierungseinheit . Modelle können nun komprimiert im Speicher abgelegt werden; die Hardware übernimmt das Entpacken in Echtzeit, während die Daten abgerufen werden. Dies schont den knappen Speicher und die Energie der allgemeinen Rechenkerne.

Leistungsversprechen im Realitätscheck

Die von Nvidia kommunizierten Zahlen sind atemberaubend: 30-fache Leistungssteigerung beim Inferencing von Billionen-Parameter-Modellen gegenüber der H100, 25-fache Reduktion von Kosten und Energieverbrauch, oder eine Reduktion des Strombedarfs für das Training eines 1,8-Billionen-Parameter-Modells von 15 MW auf 4 MW bei einem Viertel der GPUs .

Doch diese Zahlen sind mit Vorsicht zu genießen – sie beschreiben spezifische Best-Case-Szenarien. Eine unabhängige Analyse von EETimes zeigt, dass bei einem direkten Vergleich der FP16-Leistung (ohne die neuen Präzisionsformate) der Leistungssprung zwischen B100 und H100 bei etwa 77 Prozent liegt, was aufgrund der verdoppelten Chipfläche nicht übermäßig beeindruckend erscheint . Das 30-Fache resultiert aus einer Kombination aus neuer Präzision (FP4), besserer Architektur und massiver Parallelisierung.

Trotzdem sind die realen Fortschritte enorm. Der unabhängige InferenceMAX v1-Benchmark von SemiAnalysis, der Kosten pro Token, Energieeffizienz und Latenz in realistischen Szenarien bewertet, bescheinigt Blackwell klare Vorteile:

Die Kosten pro Million Tokens konnten im Vergleich zu Hopper um das 15-Fache gesenkt werden .
Die Energieeffizienz pro Megawatt stieg um das 10-Fache .
Nvidia demonstrierte ein Szenario, in dem eine Investition von 5 Millionen Dollar in ein GB200 NVL72-System eine Token-Einnahme von 75 Millionen Dollar – also das 15-Fache – erzielen könnte .

Die Ökonomie der KI: Kosten pro Token als neue Währung

Der entscheidende strategische Wandel, den Blackwell markiert, ist die Verschiebung des Fokus von reiner Rechenleistung (FLOPS) zur Wirtschaftlichkeit pro Token . In der Praxis heißt das: Es geht nicht mehr nur darum, das schnellste Modell zu trainieren, sondern darum, KI-Anwendungen für Millionen von Nutzern so kostengünstig wie möglich zu betreiben.

Die B200 kann dies durch ihre Architektur erreichen. Der Einsatz von FP4 und die hohe Speicherbandbreite senken die Kosten pro Ausgabe. Nvidia selbst beziffert die Kosten für eine Million Tokens auf dem B200 mit etwa 0,02 US-Dollar – ein Wert, der KI-gestützte Anwendungen für eine breite Masse von Unternehmen wirtschaftlich macht .

Dennoch bleibt der Preis eine Hürde: Einzelne B200-GPUs werden auf etwa 30.000 bis 40.000 US-Dollar geschätzt . Ein vollständiges GB200 NVL72-System ist ein Investment in Millionenhöhe. Dies schafft einen Markt, der nur für die finanzstärksten Unternehmen und Forschungseinrichtungen zugänglich ist.

Die Gegenbewegung: Der Aufstieg der Custom Silicon

Die hohen Kosten und die Abhängigkeit von Nvidia haben bei den großen Cloud-Anbietern (Hyperscalern) eine Gegenreaktion ausgelöst. Amazon, Google und Microsoft entwickeln zunehmend eigene KI-Chips – sogenannte ASICs (Application-Specific Integrated Circuits) – um die „Nvidia Tax“ zu umgehen .

Diese Bewegung hat an Fahrt aufgenommen:

Google hat mit dem TPU v7 („Ironwood“) einen Chip vorgestellt, der in 3 nm gefertigt wird und für das Inferencing eine 40-60% niedrigere Gesamtbetriebskosten (TCO) als Blackwell bieten soll .
Amazon setzt auf Trainium2 und Trainium3 für das Training seiner eigenen Modelle. Anthropic’s Claude 4 wurde bereits auf Trainium trainiert, was beweist, dass auch Spitzenmodelle ohne Nvidia-Hardware entstehen können .
Microsoft entwickelt den Maia 200 („Braga“) für seine Copilot- und ChatGPT-Workloads .

Dies führt zu einer „Great Decoupling“ – einer Zweiteilung des Marktes: Nvidia bleibt der Goldstandard für das Training der komplexesten „Frontier-Modelle“. Im Bereich des massenhaften Inferencings hingegen, wo es auf Kosten pro Token ankommt, gewinnen die spezialisierten, energieeffizienteren Chips der Hyperscaler an Boden .

Die CUDA-Software von Nvidia, seit einem Jahrzehnt der Hauptgrund für die Bindung an die Plattform, verliert langsam ihren monopolartigen Charakter. Open-Source-Compiler wie OpenAI’s Triton und das OpenXLA-Ökosystem ermöglichen es, Code einfacher auf verschiedenen Hardwareplattformen auszuführen, was die Abhängigkeit von Nvidia weiter verringert .

Ausblick: Die Ära der spezialisierten Beschleuniger

Nvidia steht nicht still. Die nächste Generation „Rubin“ ist bereits für 2026 angekündigt. Sie soll auf ein 3 nm-Verfahren und HBM4-Speicher setzen, was einen weiteren massiven Sprung in der Leistung und Effizienz verspricht .

Der Markt für KI-Beschleuniger wird zunehmend fragmentiert. Die Frage ist nicht mehr, ob Nvidia der schnellste ist, sondern ob der Geschwindigkeitsvorsprung den Preisaufschlag rechtfertigt. Die kommenden Jahre werden zeigen, ob die Branche zu einer „multipolaren“ Welt der Spezialchips übergeht oder ob Nvidia seinen Vorsprung durch kontinuierliche Innovation halten kann.

Blackwell ist der Beweis, dass Nvidia die Zeichen der Zeit erkannt hat: Die Zukunft der KI liegt nicht nur in der rohen Rechengewalt, sondern in der effizienten, kostengünstigen und skalierbaren Anwendung von KI-Modellen. Es ist das Ende der Ära des universellen GPUs und der Beginn einer neuen Ära der spezialisierten Beschleuniger.

Quellen

Jarmusch, A., & Chandrasekaran, S. (2025). Microbenchmarking NVIDIA’s Blackwell Architecture: An in-depth Architectural Analysis. arXiv.

SemiAnalysis. (2025). InferenceMAX v1 Benchmark. In: Economic Daily News , udn科技玩家 .

Wedbush Securities. (2025). The Blackwell Moat: How NVIDIA’s AI Hegemony Holds Firm Against the Rise of Hyperscaler Silicon.

Wedbush Securities. (2026). NVIDIA Blackwell vs. The Rise of Custom Silicon: The Battle for AI Dominance in 2026.

Cornell Virtual Workshop. (2025). Horizon GPUs: Blackwell B200.

IT-TIMES. (2026). High-End-Chips Alternativen 2026: Nvidia Blackwell, AMD MI300X oder Intel Gaudi 3.

EETimes China. (2025). Blackwell GPU性能/TCO深度分析.

neustes