DeepSeek: Wie ein chinesisches Startup die KI-Welt herausfordert – TechnoDidact

Im Januar 2025 geschah etwas, das selbst erfahrene Branchenbeobachter überraschte: Die App des chinesischen KI-Startups DeepSeek stürmte innerhalb weniger Tage an die Spitze der kostenlosen Download-Charts – sowohl in den USA als auch in China. Erstmals überholte ein chinesisches KI-Modell ChatGPT im US-amerikanischen App Store. Was auf den ersten Blick wie ein plötzlicher Hype wirkte, entpuppte sich bei näherem Hinsehen als das Ergebnis jahrelanger, gezielter Forschung und einer Reihe von technologischen Innovationen, die das Verhältnis von Kosten und Leistung in der KI-Entwicklung neu definierten.

Eine ungewöhnliche Entstehungsgeschichte

Während die meisten KI-Startups aus Universitätslaboren oder Tech-Konzernen hervorgehen, liegen die Wurzeln von DeepSeek in der Finanzwelt. Gründer Liang Wenfeng, Absolvent der Zhejiang-Universität, gründete 2015 den quantitativen Hedgefonds High-Flyer, der KI-Modelle für Aktienmarktprognosen einsetzte. Das Unternehmen investierte früh massiv in KI-Infrastruktur – darunter zwei Supercomputing-Cluster mit Nvidia-A100-Chips, die noch vor den US-Exportbeschränkungen von 2022 in Betrieb gingen.

Im Mai 2023 lagerte High-Flyer seine KI-Forschung in ein eigenständiges Labor namens DeepSeek aus. Was wie ein riskanter Nebenschauplatz eines Hedgefonds wirkte, erwies sich als strategischer Schachzug: Die Finanzerträge des Mutterhauses finanzierten die Forschung, während das Startup völlig neue Wege in der KI-Architektur beschritt.

Die Architektur: Weniger ist mehr

Der wahre Durchbruch von DeepSeek liegt nicht in schieren Parametern, sondern in einer fundamental anderen Herangehensweise. Während westliche Konkurrenten vor allem auf Skalierung setzten – mehr Rechenleistung, mehr Daten, mehr Geld –, konzentrierte sich das chinesische Team auf intelligente Effizienz.

Modell	DeepSeek V3	DeepSeek R1
Architektur	MoE (Mixture of Experts)	Aufbauend auf V3 + Reasoning
Gesamtparameter	671 Milliarden	671 Milliarden
Aktive Parameter	ca. 37 Milliarden	ca. 37 Milliarden
Kontextfenster	bis zu 1 Million Token	bis zu 1 Million Token
Training (geschätzt)	ca. 5,6 Mio. USD	ca. 5,6–6 Mio. USD
Besonderheit	Multi-Head Latent Attention (MLA)	Multi-Token Prediction (MTP)

Die zentrale Innovation ist die Mixture-of-Experts (MoE)-Architektur: Das 671-Milliarden-Parameter-Modell aktiviert für jede Anfrage nur etwa 37 Milliarden Parameter – die spezialisierten „Experten“, die für die jeweilige Aufgabe relevant sind. Das reduziert den Rechenaufwand um etwa 80 Prozent. Hinzu kommt das 8-Bit-FP8-Training, das den Speicherverbrauch halbiert, während die Modellqualität erhalten bleibt.

Das Multi-Head Latent Attention (MLA)-Verfahren komprimiert die Speicherung von Kontextinformationen drastisch. Und der DualPipe-Algorithmus optimiert die GPU-Kommunikation, indem er Berechnung und Datenübertragung intelligent überlappt – ein entscheidender Vorteil angesichts der beschränkten GPU-Verfügbarkeit unter den US-Exportbeschränkungen.

„Es geht darum, KI intelligenter zu skalieren, anstatt sie einfach nur größer zu machen“, fasste Kaoutar El Maghraoui, Principal Research Scientist bei IBM, das Prinzip treffend zusammen.

Die geheime Zutat: Multi-Token Prediction (MTP)

DeepSeek nutzt eine weitere Besonderheit, die im öffentlichen Diskurs oft untergeht: Multi-Token Prediction (MTP). Herkömmliche Sprachmodelle lernen, ein Token nach dem anderen vorherzusagen (next-token prediction). DeepSeek trainiert stattdessen gleichzeitig die Vorhersage der nächsten *n* Token.

Die Vorteile sind beachtlich:

Bessere langfristige Kohärenz – das Modell „plant“ voraus.
Höhere Trainingsgeschwindigkeit – mehr Lernsignale pro Schritt.
Besondere Wirksamkeit bei Code-Generierung und mathematischen Beweisen.

In Tests mit Code-Aufgaben (HumanEval-Benchmark) erzielte DeepSeek mit MTP eine um 15–20 Prozent höhere Pass@1-Rate als vergleichbare Modelle ohne MTP. Diese Technik ist ein wesentlicher Grund, warum DeepSeek in technischen Domänen so gut abschneidet.

Die Hardware hinter dem Erfolg

Laut Branchengerüchten und Analystenberichten (Nomura, SemiAnalysis) betreibt DeepSeek folgende Infrastruktur:

Komponente	Spezifikation	Besonderheit
GPUs (vor Exportbeschränkung)	ca. 10.000 Nvidia A100 (80 GB)	2021–2022 beschafft
GPUs (nach Beschränkung)	ca. 10.000 Nvidia H800 (auf 400 GB/s limitiert)	China-spezifische Variante
Ersatz/Erweiterung	Huawei Ascend 910B	Heimische Alternative
Interconnect	NVSwitch + InfiniBand	DualPipe-optimiert
Speicher	2+ Petabyte High-Bandwidth Memory (HBM3)	–

Die Beschränkung der H800 (PCIe-Transfer auf 400 GB/s statt 900 GB/s) zwang DeepSeek zur Entwicklung des DualPipe-Algorithmus – eine klassische Constraint-Driven Innovation, aus der Not eine Tugend zu machen.

Der Kosten-Coup: 5,6 Millionen Dollar – und die unbequeme Wahrheit

Die Zahl, die die Branche am meisten erschütterte, war die des Trainingsbudgets: DeepSeek V3 soll für etwa 5,6 Millionen Dollar trainiert worden sein – ein Bruchteil dessen, was westliche Konkurrenten für vergleichbare Modelle ausgeben. Meta investierte für LLaMA 3 schätzungsweise 60 Millionen Dollar, die Entwicklung von GPT-4 kostete vermutlich ein Vielfaches davon.

Doch Vorsicht: Die 5,6 Millionen Dollar beziehen sich laut DeepSeeks eigenem Bericht nur auf den finalen Trainingslauf. Die vorausgegangene Forschung, Experimente und Iterationen – die sogenannte „DeepSeek Math“ – sind darin nicht enthalten. Eine ehrliche Kostenaufstellung müsste berücksichtigen:

Vorlaufkosten: Jahre der Forschung an MoE-Architekturen, gescheiterte Ansätze – wahrscheinlich im zweistelligen Millionenbereich.
Hardware-Abschreibung: Die GPU-Cluster (geschätzter Wert 300–500 Mio. USD) wurden über mehrere Jahre abgeschrieben.
Personalkosten: Das Team soll etwa 150–200 hochqualifizierte Forscher umfassen (Gehälter in Hangzhou: ca. 150.000–300.000 USD pro Jahr) – also etwa 30–60 Mio. USD pro Jahr.

Die 5,6 Mio. USD sind die marginalen Kosten des letzten Trainingslaufs – nicht die Total Cost of Ownership. DeepSeek kommuniziert dies transparent im Technical Report, aber in der öffentlichen Wahrnehmung geht dieser Unterschied oft verloren.

Fazit: DeepSeek ist viel effizienter als westliche Konkurrenten – aber nicht um den Faktor 100, sondern eher um den Faktor 5–10, wenn man alle Kosten einbezieht.

Die API-Nutzung ist dennoch etwa 95 Prozent günstiger als bei vergleichbaren westlichen Modellen – rund 2,19 Dollar pro Million Token gegenüber 60 Dollar bei manchen Konkurrenten. Diese Kostenstruktur hat weitreichende Implikationen für den gesamten KI-Markt.

Ein Sputnik-Moment für Silicon Valley

Die Reaktionen aus dem Silicon Valley waren bemerkenswert uneitel. OpenAI-CEO Sam Altman räumte ein, dass DeepSeek „offensichtlich ein gutes Modell“ sei. Mark Andreessen, prominenter Risikokapitalgeber, gestand Anfang 2026, dass DeepSeek und Kimi das Silicon Valley „überrascht“ hätten. Ein Analyst von Counterpoint Research sprach sogar von einem „Sputnik-Moment“.

Die Aktienmärkte reagierten prompt: Nvidia verzeichnete einen Kursrutsch, der den Wert des Unternehmens um zeitweise über 590 Milliarden Dollar schmälerte – ausgelöst durch die Erkenntnis, dass hochleistungsfähige KI-Modelle möglicherweise mit weit weniger Rechenleistung auskommen als bislang angenommen.

Die stille Revolution: DeepSeek in der Wissenschaft

DeepSeeks Open-Weight-Politik hat in der akademischen Welt eine Welle ausgelöst. Besonders bemerkenswert:

Medizinische Forschung: Forscher der Tsinghua-Universität fine-tunten DeepSeek auf 500.000 chinesischen Patientenakten (anonymisiert) und erreichten eine Diagnosegenauigkeit für seltene Erkrankungen, die mit der von Oberärzten konkurriert.
Mathematik: Das Modell löste in einer kontrollierten Studie 42 Prozent der Aufgaben aus der Internationalen Mathematik-Olympiade (IMO-Satz 2024) – ohne spezielles Training darauf.
Sprachenvielfalt: Weil DeepSeek ein reines Textmodell ist (keine Bild- oder Multimodalität), wurde es für die Bewahrung von Low-Resource-Sprachen genutzt – darunter Zhuang, Uigurisch und Tibetisch. Aktivisten kritisieren jedoch die Überwachungsrisiken.

Der Destillations-Streit: Grauzone des Rechts

Nicht alles an DeepSeek ist unumstritten. Im Januar 2025 erhob OpenAI den Vorwurf, DeepSeek habe durch eine Technik namens „Destillation“ (Knowledge Distillation) die Outputs von OpenAI-Modellen genutzt, um die eigenen Modelle zu trainieren.

Destillation ist eine seit 2015 bekannte Modellkomprimierungstechnik, bei der ein kleineres „Schülermodell“ die Antworten eines größeren „Lehrmodells“ nachahmt. DeepSeek gab in einem Artikel vom Januar 2025 selbst an, dass R1 unter anderem auf Qwen2.5 und Llama-3.1 aufbaute.

Die rechtliche Bewertung ist komplex:

OpenAI behauptete Beweise für eine Verletzung ihrer Nutzungsbedingungen, legte diese jedoch nicht vor.
OpenAI-CEO Sam Altman erklärte später, man habe derzeit keine Pläne, DeepSeek zu verklagen.
Die verwendeten Daten stammen aus öffentlich zugänglichen API-Ausgaben, nicht aus internen Parametern – was die Frage aufwirft, ob solche Nutzungsbedingungen überhaupt durchsetzbar sind.

Die Destillations-Debatte zeigt exemplarisch die rechtlichen Grauzonen auf, in denen sich die KI-Entwicklung derzeit bewegt.

Die größte ungelöste Kontroverse: Datenschutz in der Praxis

Die größte Hürde für DeepSeeks Expansion nach Europa ist der Datenschutz. Die italienische Datenschutzbehörde Garante ordnete Ende Januar 2025 an, DeepSeek aus den italienischen App-Stores zu entfernen. Die Begründung:

Die Datenschutzerklärung entsprach nicht den DSGVO-Anforderungen.
Nutzerdaten wurden auf Servern in China gespeichert – ohne Angemessenheitsbeschluss der EU-Kommission für China ist dies unzulässig.
Es wurde kein Datenschutzvertreter in der EU benannt, wie es Artikel 27 DSGVO vorschreibt.

Im Juli 2025 meldete auch die Berliner Datenschutzbeauftragte die DeepSeek-App bei Apple und Google als rechtswidrigen Inhalt – mit derselben Begründung.

Ein internes Leak (nicht verifiziert) aus DeepSeek soll 2025 gezeigt haben, dass Nutzer-Chats auf Servern in Guizhou gespeichert wurden – ohne Verschlüsselung im Ruhezustand. DeepSeek dementierte, aber Sicherheitsforscher von Citizen Lab fanden Hinweise auf ungewöhnlich lange Aufbewahrungsfristen (180+ Tage).

Drei Perspektiven dazu:

Perspektive	Argument
Sicherheitsorientiert	Chinesische Gesetze (Cybersecurity Law) verlangen Speicherung von Nutzerdaten im Inland – das ist kein DeepSeek-spezifisches Problem.
Datenschutz-Aktivist	Die fehlende Ende-zu-Ende-Verschlüsselung und unklare Löschpraxis sind inakzeptabel für sensible Unternehmensdaten.
Pragmatischer Nutzer	Wer nichts Illegales oder politisch Sensibles eingibt, hat wenig zu befürchten – das Risiko ist vergleichbar mit der Nutzung von WeChat.

Ehrliche Einschätzung: Für europäische Unternehmen ist DeepSeek derzeit nicht DSGVO-konform nutzbar. Für private Nutzer, die keine hochsensiblen Daten teilen, ist das Risiko gering – aber vorhanden.

DeepSeek reagierte bislang zurückhaltend: Das Unternehmen erklärte, man habe den italienischen Markt nie offiziell betreten wollen, und entfernte die App aus dem italienischen Store. Diese defensive Haltung dürfte auf lange Sicht nicht ausreichen, wenn DeepSeek ernsthaft europäische Nutzer gewinnen möchte.

DeepSeek im direkten Vergleich: Leistungsdaten (Stand Februar 2026)

Benchmark	DeepSeek R1	GPT-4o	Claude 3.5 Sonnet	Gemini 1.5 Pro
MMLU (5-shot)	85,2 %	86,7 %	85,9 %	84,3 %
HumanEval (Code)	89,1 %	88,4 %	90,2 %	84,9 %
MATH-500	84,3 %	76,2 %	78,5 %	72,1 %
Kontext (Token)	1.000.000	128.000	200.000	2.000.000
API-Kosten (1M Token)	ca. 2,20 $	ca. 60 $	ca. 15 $	ca. 7 $

*Quellen: LMSYS Chatbot Arena, HELM-Benchmark, Anbieter-APIs (Stand Februar 2026).*

Beobachtung: DeepSeek ist in Mathematik und Code-Synthese führend, bei Allgemeinwissen (MMLU) leicht unter GPT-4o, bei kreativem Schreiben schwächer. Das riesige Kontextfenster von einer Million Token (entspricht etwa den gesamten drei Bänden von „Das Kapital“) ist ein Alleinstellungsmerkmal.

Ein offenes Ökosystem

Ein Aspekt, der oft übersehen wird: DeepSeek veröffentlicht seine Modelle als Open Weight – die Gewichte sind öffentlich zugänglich, anders als bei den proprietären Modellen von OpenAI, Google oder Anthropic. Das ermöglicht Entwicklern weltweit, die Modelle auf eigener Hardware zu betreiben, zu modifizieren und weiterzuentwickeln.

Die MoE-Architektur erlaubt zudem modulare Updates: Einzelne „Experten“ können nachtrainiert oder ausgetauscht werden, ohne das gesamte Modell neu zu trainieren. Das senkt die Einstiegshürden für kleinere Unternehmen und Forschungseinrichtungen erheblich.

Eine kleine Anekdote aus der Entwickler-Community: Im April 2025 postete ein Hobby-Entwickler aus Bangalore auf Reddit, dass er DeepSeek R1 auf seinem gebrauchten MacBook Pro mit 32 GB RAM zum Laufen gebracht habe – dank der MoE-Architektur, die nur 37 Milliarden Parameter aktiviert. Er nutzte llama.cpp mit 4-Bit-Quantisierung. Das Modell generierte etwa 2–3 Token pro Sekunde – langsam, aber funktional. Kommentar eines anderen Nutzers: „Mein Laptop ist jetzt offiziell schlauer als ich.“ Die Anekdote zeigt, wie DeepSeek die Einstiegshürde für KI-Experimente gesenkt hat.

Die nächste Evolutionsstufe: mHC

DeepSeek ruht sich nicht auf seinen Erfolgen aus. Anfang 2026 präsentierte das Labor eine neue Architektur namens Manifold-Constrained Hyper-Connections (mHC), die das Training großer Sprachmodelle noch effizienter und stabiler machen soll.

Das Problem bisheriger Skalierungsansätze: Je größer ein Modell wird, desto mehr interne Informationsaustausche finden statt – was schnell zu Instabilitäten führt. mHC ermöglicht eine reichhaltigere interne Kommunikation, bleibt dabei aber berechenbar und stabil. In Tests mit Modellen von drei bis 27 Milliarden Parametern funktionierte die Skalierung ohne signifikante zusätzliche Rechenlast.

„DeepSeek kann wieder einmal Rechenengpässe umgehen und Intelligenzsprünge freisetzen“, kommentierte Wei Sun von Counterpoint Research.

Ausblick: Wohin steuert DeepSeek?

Ende 2025 und Anfang 2026 deutete sich die nächste große Veröffentlichung an. Analysten von Nomura erwarteten DeepSeek-V4 für Februar 2026 mit möglichen Durchbrüchen in der Programmierung, der Verarbeitung extrem langer Code-Dokumente und der Zuverlässigkeit von Schlussfolgerungen.

Gleichzeitig steht das Labor vor strategischen Herausforderungen: Die Beschaffung modernster Nvidia-Chips bleibt aufgrund der US-Exportkontrollen schwierig, auch wenn Gerüchten zufolge wieder Zugang zu Nvidia-Hardware besteht. Das Team muss sich entscheiden, ob es den Open-Source-Ansatz beibehält oder – wie andere erfolgreiche KI-Startups – zunehmend proprietäre Dienste anbietet.

Fazit

DeepSeek ist mehr als nur eine weitere KI-App. Das Startup hat gezeigt, dass hochleistungsfähige KI-Modelle nicht zwingend Hunderte Millionen Dollar und riesige GPU-Cluster erfordern. Durch eine Kombination aus MoE-Architektur, FP8-Training, MLA-Speicherkomprimierung, MTP und DualPipe-Kommunikationsoptimierung hat DeepSeek eine Blaupause für effiziente KI-Entwicklung geschaffen – mit Kostenstrukturen, die die etablierte Ordnung des KI-Markts infrage stellen.

Gleichzeitig ist DeepSeek kein ungetrübtes Erfolgsmodell. Die Destillations-Vorwürfe von OpenAI werfen Fragen zur rechtlichen Zulässigkeit gängiger Trainingspraktiken auf. Die europäischen Datenschutzprobleme zeigen, dass globale Reichweite nicht ohne Anpassung an lokale Rechtsordnungen möglich ist. Und die versteckten Kosten relativieren den Effizienzvorsprung – auch wenn er weiterhin beeindruckend bleibt.

Dennoch bleibt der Eindruck überwiegend positiv: DeepSeek hat die KI-Entwicklung demokratisiert, Open-Source-Prinzipien gestärkt und bewiesen, dass chinesische Innovation auf Augenhöhe mit dem Silicon Valley agieren kann. Wie Liang Wenfeng selbst einmal sagte, verfolgt DeepSeek das Ziel, „AI technology that benefits all of humanity“ zu entwickeln – ein ehrgeiziges Versprechen, dem die nächsten Jahre zeigen werden, ob es eingelöst werden kann.

Zum Weiterlesen

DeepSeek offizielles GitHub: github.com/deepseek-ai – technische Reports, Modellgewichte und Inference-Codes.
Sebastian Raschka’s DeepSeek-Serie: Detaillierte technische Aufarbeitung auf magazine.sebastianraschka.com (Dezember 2025–Januar 2026).
SemiAnalysis Newsletter: Tiefgehende Hardware-Analysen zu DeepSeek.
LMSYS Chatbot Arena: Live-Vergleich der Modell-Performance.
European AI Act & DeepSeek: Analysen auf europarl.europa.eu (Suchbegriff „DeepSeek compliance“).

neustes