{"id":3250,"date":"2026-04-08T17:26:27","date_gmt":"2026-04-08T15:26:27","guid":{"rendered":"https:\/\/g7itchme.wordpress.com\/?p=3250"},"modified":"2026-04-08T17:26:27","modified_gmt":"2026-04-08T15:26:27","slug":"deepseek-wie-ein-chinesisches-startup-die-ki-welt-herausfordert","status":"publish","type":"post","link":"https:\/\/technodidact.de\/en\/deepseek-wie-ein-chinesisches-startup-die-ki-welt-herausfordert\/","title":{"rendered":"DeepSeek: Wie ein chinesisches Startup die KI-Welt herausfordert"},"content":{"rendered":"<p class=\"wp-block-paragraph\">Im Januar 2025 geschah etwas, das selbst erfahrene Branchenbeobachter \u00fcberraschte: Die App des chinesischen KI-Startups DeepSeek st\u00fcrmte innerhalb weniger Tage an die Spitze der kostenlosen Download-Charts \u2013 sowohl in den USA als auch in China. Erstmals \u00fcberholte ein chinesisches KI-Modell ChatGPT im US-amerikanischen App Store. Was auf den ersten Blick wie ein pl\u00f6tzlicher Hype wirkte, entpuppte sich bei n\u00e4herem Hinsehen als das Ergebnis jahrelanger, gezielter Forschung und einer Reihe von technologischen Innovationen, die das Verh\u00e4ltnis von Kosten und Leistung in der KI-Entwicklung neu definierten.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h3 class=\"wp-block-heading\">Eine ungew\u00f6hnliche Entstehungsgeschichte<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">W\u00e4hrend die meisten KI-Startups aus Universit\u00e4tslaboren oder Tech-Konzernen hervorgehen, liegen die Wurzeln von DeepSeek in der Finanzwelt. Gr\u00fcnder Liang Wenfeng, Absolvent der Zhejiang-Universit\u00e4t, gr\u00fcndete 2015 den quantitativen Hedgefonds High-Flyer, der KI-Modelle f\u00fcr Aktienmarktprognosen einsetzte. Das Unternehmen investierte fr\u00fch massiv in KI-Infrastruktur \u2013 darunter zwei Supercomputing-Cluster mit Nvidia-A100-Chips, die noch vor den US-Exportbeschr\u00e4nkungen von 2022 in Betrieb gingen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Im Mai 2023 lagerte High-Flyer seine KI-Forschung in ein eigenst\u00e4ndiges Labor namens DeepSeek aus. Was wie ein riskanter Nebenschauplatz eines Hedgefonds wirkte, erwies sich als strategischer Schachzug: Die Finanzertr\u00e4ge des Mutterhauses finanzierten die Forschung, w\u00e4hrend das Startup v\u00f6llig neue Wege in der KI-Architektur beschritt.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h3 class=\"wp-block-heading\">Die Architektur: Weniger ist mehr<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Der wahre Durchbruch von DeepSeek liegt nicht in schieren Parametern, sondern in einer fundamental anderen Herangehensweise. W\u00e4hrend westliche Konkurrenten vor allem auf Skalierung setzten \u2013 mehr Rechenleistung, mehr Daten, mehr Geld \u2013, konzentrierte sich das chinesische Team auf intelligente Effizienz.<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th class=\"has-text-align-left\" data-align=\"left\"><strong>Modell<\/strong><\/th><th class=\"has-text-align-left\" data-align=\"left\"><strong>DeepSeek V3<\/strong><\/th><th class=\"has-text-align-left\" data-align=\"left\"><strong>DeepSeek R1<\/strong><\/th><\/tr><\/thead><tbody><tr><td><strong>Architektur<\/strong><\/td><td>MoE (Mixture of Experts)<\/td><td>Aufbauend auf V3 + Reasoning<\/td><\/tr><tr><td><strong>Gesamtparameter<\/strong><\/td><td>671 Milliarden<\/td><td>671 Milliarden<\/td><\/tr><tr><td><strong>Aktive Parameter<\/strong><\/td><td>ca. 37 Milliarden<\/td><td>ca. 37 Milliarden<\/td><\/tr><tr><td><strong>Kontextfenster<\/strong><\/td><td>bis zu 1 Million Token<\/td><td>bis zu 1 Million Token<\/td><\/tr><tr><td><strong>Training (gesch\u00e4tzt)<\/strong><\/td><td>ca. 5,6 Mio. USD<\/td><td>ca. 5,6\u20136 Mio. USD<\/td><\/tr><tr><td><strong>Besonderheit<\/strong><\/td><td>Multi-Head Latent Attention (MLA)<\/td><td>Multi-Token Prediction (MTP)<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Die zentrale Innovation ist die&nbsp;<strong>Mixture-of-Experts (MoE)-Architektur<\/strong>: Das 671-Milliarden-Parameter-Modell aktiviert f\u00fcr jede Anfrage nur etwa 37 Milliarden Parameter \u2013 die spezialisierten \u201eExperten\u201c, die f\u00fcr die jeweilige Aufgabe relevant sind. Das reduziert den Rechenaufwand um etwa 80 Prozent. Hinzu kommt das&nbsp;<strong>8-Bit-FP8-Training<\/strong>, das den Speicherverbrauch halbiert, w\u00e4hrend die Modellqualit\u00e4t erhalten bleibt.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Das&nbsp;<strong>Multi-Head Latent Attention (MLA)-Verfahren<\/strong>&nbsp;komprimiert die Speicherung von Kontextinformationen drastisch. Und der&nbsp;<strong>DualPipe-Algorithmus<\/strong>&nbsp;optimiert die GPU-Kommunikation, indem er Berechnung und Daten\u00fcbertragung intelligent \u00fcberlappt \u2013 ein entscheidender Vorteil angesichts der beschr\u00e4nkten GPU-Verf\u00fcgbarkeit unter den US-Exportbeschr\u00e4nkungen.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p class=\"wp-block-paragraph\">\u201eEs geht darum, KI intelligenter zu skalieren, anstatt sie einfach nur gr\u00f6\u00dfer zu machen\u201c, fasste Kaoutar El Maghraoui, Principal Research Scientist bei IBM, das Prinzip treffend zusammen.<\/p>\n<\/blockquote>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h3 class=\"wp-block-heading\">Die geheime Zutat: Multi-Token Prediction (MTP)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">DeepSeek nutzt eine weitere Besonderheit, die im \u00f6ffentlichen Diskurs oft untergeht:&nbsp;<strong>Multi-Token Prediction (MTP)<\/strong>. Herk\u00f6mmliche Sprachmodelle lernen, ein Token nach dem anderen vorherzusagen (next-token prediction). DeepSeek trainiert stattdessen gleichzeitig die Vorhersage der n\u00e4chsten&nbsp;*n*&nbsp;Token.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Die Vorteile sind beachtlich:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Bessere langfristige Koh\u00e4renz<\/strong>\u00a0\u2013 das Modell \u201eplant\u201c voraus.<\/li>\n\n\n\n<li><strong>H\u00f6here Trainingsgeschwindigkeit<\/strong>\u00a0\u2013 mehr Lernsignale pro Schritt.<\/li>\n\n\n\n<li><strong>Besondere Wirksamkeit<\/strong>\u00a0bei Code-Generierung und mathematischen Beweisen.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">In Tests mit Code-Aufgaben (HumanEval-Benchmark) erzielte DeepSeek mit MTP eine um 15\u201320 Prozent h\u00f6here Pass@1-Rate als vergleichbare Modelle ohne MTP. Diese Technik ist ein wesentlicher Grund, warum DeepSeek in technischen Dom\u00e4nen so gut abschneidet.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h3 class=\"wp-block-heading\">Die Hardware hinter dem Erfolg<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Laut Branchenger\u00fcchten und Analystenberichten (Nomura, SemiAnalysis) betreibt DeepSeek folgende Infrastruktur:<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th class=\"has-text-align-left\" data-align=\"left\"><strong>Komponente<\/strong><\/th><th class=\"has-text-align-left\" data-align=\"left\"><strong>Spezifikation<\/strong><\/th><th class=\"has-text-align-left\" data-align=\"left\"><strong>Besonderheit<\/strong><\/th><\/tr><\/thead><tbody><tr><td><strong>GPUs (vor Exportbeschr\u00e4nkung)<\/strong><\/td><td>ca. 10.000 Nvidia A100 (80 GB)<\/td><td>2021\u20132022 beschafft<\/td><\/tr><tr><td><strong>GPUs (nach Beschr\u00e4nkung)<\/strong><\/td><td>ca. 10.000 Nvidia H800 (auf 400 GB\/s limitiert)<\/td><td>China-spezifische Variante<\/td><\/tr><tr><td><strong>Ersatz\/Erweiterung<\/strong><\/td><td>Huawei Ascend 910B<\/td><td>Heimische Alternative<\/td><\/tr><tr><td><strong>Interconnect<\/strong><\/td><td>NVSwitch + InfiniBand<\/td><td>DualPipe-optimiert<\/td><\/tr><tr><td><strong>Speicher<\/strong><\/td><td>2+ Petabyte High-Bandwidth Memory (HBM3)<\/td><td>\u2013<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Die&nbsp;<strong>Beschr\u00e4nkung der H800<\/strong>&nbsp;(PCIe-Transfer auf 400 GB\/s statt 900 GB\/s) zwang DeepSeek zur Entwicklung des DualPipe-Algorithmus \u2013 eine klassische&nbsp;<em>Constraint-Driven Innovation<\/em>, aus der Not eine Tugend zu machen.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h3 class=\"wp-block-heading\">Der Kosten-Coup: 5,6 Millionen Dollar \u2013 und die unbequeme Wahrheit<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Die Zahl, die die Branche am meisten ersch\u00fctterte, war die des Trainingsbudgets: DeepSeek V3 soll f\u00fcr etwa&nbsp;<strong>5,6 Millionen Dollar<\/strong>&nbsp;trainiert worden sein \u2013 ein Bruchteil dessen, was westliche Konkurrenten f\u00fcr vergleichbare Modelle ausgeben. Meta investierte f\u00fcr LLaMA 3 sch\u00e4tzungsweise 60 Millionen Dollar, die Entwicklung von GPT-4 kostete vermutlich ein Vielfaches davon.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Doch Vorsicht: Die 5,6 Millionen Dollar beziehen sich laut DeepSeeks eigenem Bericht nur auf den&nbsp;<strong>finalen Trainingslauf<\/strong>. Die vorausgegangene Forschung, Experimente und Iterationen \u2013 die sogenannte \u201eDeepSeek Math\u201c \u2013 sind darin nicht enthalten. Eine ehrliche Kostenaufstellung m\u00fcsste ber\u00fccksichtigen:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Vorlaufkosten:<\/strong>\u00a0Jahre der Forschung an MoE-Architekturen, gescheiterte Ans\u00e4tze \u2013 wahrscheinlich im zweistelligen Millionenbereich.<\/li>\n\n\n\n<li><strong>Hardware-Abschreibung:<\/strong>\u00a0Die GPU-Cluster (gesch\u00e4tzter Wert 300\u2013500 Mio. USD) wurden \u00fcber mehrere Jahre abgeschrieben.<\/li>\n\n\n\n<li><strong>Personalkosten:<\/strong>\u00a0Das Team soll etwa 150\u2013200 hochqualifizierte Forscher umfassen (Geh\u00e4lter in Hangzhou: ca. 150.000\u2013300.000 USD pro Jahr) \u2013 also etwa 30\u201360 Mio. USD pro Jahr.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Die 5,6 Mio. USD sind die&nbsp;<strong>marginalen Kosten des letzten Trainingslaufs<\/strong>&nbsp;\u2013 nicht die Total Cost of Ownership. DeepSeek kommuniziert dies transparent im Technical Report, aber in der \u00f6ffentlichen Wahrnehmung geht dieser Unterschied oft verloren.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p class=\"wp-block-paragraph\"><strong>Fazit:<\/strong>&nbsp;DeepSeek ist&nbsp;<em>viel<\/em>&nbsp;effizienter als westliche Konkurrenten \u2013 aber nicht um den Faktor 100, sondern eher um den Faktor 5\u201310, wenn man alle Kosten einbezieht.<\/p>\n<\/blockquote>\n\n\n\n<p class=\"wp-block-paragraph\">Die API-Nutzung ist dennoch etwa 95 Prozent g\u00fcnstiger als bei vergleichbaren westlichen Modellen \u2013 rund 2,19 Dollar pro Million Token gegen\u00fcber 60 Dollar bei manchen Konkurrenten. Diese Kostenstruktur hat weitreichende Implikationen f\u00fcr den gesamten KI-Markt.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h3 class=\"wp-block-heading\">Ein Sputnik-Moment f\u00fcr Silicon Valley<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Die Reaktionen aus dem Silicon Valley waren bemerkenswert uneitel. OpenAI-CEO Sam Altman r\u00e4umte ein, dass DeepSeek \u201eoffensichtlich ein gutes Modell\u201c sei. Mark Andreessen, prominenter Risikokapitalgeber, gestand Anfang 2026, dass DeepSeek und Kimi das Silicon Valley \u201e\u00fcberrascht\u201c h\u00e4tten. Ein Analyst von Counterpoint Research sprach sogar von einem \u201eSputnik-Moment\u201c.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Die Aktienm\u00e4rkte reagierten prompt: Nvidia verzeichnete einen Kursrutsch, der den Wert des Unternehmens um zeitweise \u00fcber 590 Milliarden Dollar schm\u00e4lerte \u2013 ausgel\u00f6st durch die Erkenntnis, dass hochleistungsf\u00e4hige KI-Modelle m\u00f6glicherweise mit weit weniger Rechenleistung auskommen als bislang angenommen.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h3 class=\"wp-block-heading\">Die stille Revolution: DeepSeek in der Wissenschaft<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">DeepSeeks Open-Weight-Politik hat in der akademischen Welt eine Welle ausgel\u00f6st. Besonders bemerkenswert:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Medizinische Forschung:<\/strong>\u00a0Forscher der Tsinghua-Universit\u00e4t fine-tunten DeepSeek auf 500.000 chinesischen Patientenakten (anonymisiert) und erreichten eine Diagnosegenauigkeit f\u00fcr seltene Erkrankungen, die mit der von Ober\u00e4rzten konkurriert.<\/li>\n\n\n\n<li><strong>Mathematik:<\/strong>\u00a0Das Modell l\u00f6ste in einer kontrollierten Studie 42 Prozent der Aufgaben aus der Internationalen Mathematik-Olympiade (IMO-Satz 2024) \u2013 ohne spezielles Training darauf.<\/li>\n\n\n\n<li><strong>Sprachenvielfalt:<\/strong>\u00a0Weil DeepSeek ein reines Textmodell ist (keine Bild- oder Multimodalit\u00e4t), wurde es f\u00fcr die Bewahrung von\u00a0<strong>Low-Resource-Sprachen<\/strong>\u00a0genutzt \u2013 darunter Zhuang, Uigurisch und Tibetisch. Aktivisten kritisieren jedoch die \u00dcberwachungsrisiken.<\/li>\n<\/ul>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h3 class=\"wp-block-heading\">Der Destillations-Streit: Grauzone des Rechts<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Nicht alles an DeepSeek ist unumstritten. Im Januar 2025 erhob OpenAI den Vorwurf, DeepSeek habe durch eine Technik namens&nbsp;<strong>\u201eDestillation\u201c<\/strong>&nbsp;(Knowledge Distillation) die Outputs von OpenAI-Modellen genutzt, um die eigenen Modelle zu trainieren.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Destillation ist eine seit 2015 bekannte Modellkomprimierungstechnik, bei der ein kleineres \u201eSch\u00fclermodell\u201c die Antworten eines gr\u00f6\u00dferen \u201eLehrmodells\u201c nachahmt. DeepSeek gab in einem Artikel vom Januar 2025 selbst an, dass R1 unter anderem auf Qwen2.5 und Llama-3.1 aufbaute.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Die rechtliche Bewertung ist komplex:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>OpenAI behauptete Beweise f\u00fcr eine Verletzung ihrer Nutzungsbedingungen, legte diese jedoch nicht vor.<\/li>\n\n\n\n<li>OpenAI-CEO Sam Altman erkl\u00e4rte sp\u00e4ter, man habe derzeit keine Pl\u00e4ne, DeepSeek zu verklagen.<\/li>\n\n\n\n<li>Die verwendeten Daten stammen aus \u00f6ffentlich zug\u00e4nglichen API-Ausgaben, nicht aus internen Parametern \u2013 was die Frage aufwirft, ob solche Nutzungsbedingungen \u00fcberhaupt durchsetzbar sind.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Die Destillations-Debatte zeigt exemplarisch die rechtlichen Grauzonen auf, in denen sich die KI-Entwicklung derzeit bewegt.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h3 class=\"wp-block-heading\">Die gr\u00f6\u00dfte ungel\u00f6ste Kontroverse: Datenschutz in der Praxis<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Die gr\u00f6\u00dfte H\u00fcrde f\u00fcr DeepSeeks Expansion nach Europa ist der Datenschutz. Die italienische Datenschutzbeh\u00f6rde Garante ordnete Ende Januar 2025 an, DeepSeek aus den italienischen App-Stores zu entfernen. Die Begr\u00fcndung:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Die Datenschutzerkl\u00e4rung entsprach nicht den DSGVO-Anforderungen.<\/li>\n\n\n\n<li>Nutzerdaten wurden auf Servern in China gespeichert \u2013 ohne Angemessenheitsbeschluss der EU-Kommission f\u00fcr China ist dies unzul\u00e4ssig.<\/li>\n\n\n\n<li>Es wurde kein Datenschutzvertreter in der EU benannt, wie es Artikel 27 DSGVO vorschreibt.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Im Juli 2025 meldete auch die Berliner Datenschutzbeauftragte die DeepSeek-App bei Apple und Google als rechtswidrigen Inhalt \u2013 mit derselben Begr\u00fcndung.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ein internes Leak (nicht verifiziert) aus DeepSeek soll 2025 gezeigt haben, dass&nbsp;<strong>Nutzer-Chats auf Servern in Guizhou<\/strong>&nbsp;gespeichert wurden \u2013 ohne Verschl\u00fcsselung im Ruhezustand. DeepSeek dementierte, aber Sicherheitsforscher von Citizen Lab fanden Hinweise auf&nbsp;<strong>ungew\u00f6hnlich lange Aufbewahrungsfristen<\/strong>&nbsp;(180+ Tage).<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Drei Perspektiven dazu:<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th class=\"has-text-align-left\" data-align=\"left\"><strong>Perspektive<\/strong><\/th><th class=\"has-text-align-left\" data-align=\"left\"><strong>Argument<\/strong><\/th><\/tr><\/thead><tbody><tr><td><strong>Sicherheitsorientiert<\/strong><\/td><td>Chinesische Gesetze (Cybersecurity Law) verlangen Speicherung von Nutzerdaten im Inland \u2013 das ist kein DeepSeek-spezifisches Problem.<\/td><\/tr><tr><td><strong>Datenschutz-Aktivist<\/strong><\/td><td>Die fehlende Ende-zu-Ende-Verschl\u00fcsselung und unklare L\u00f6schpraxis sind inakzeptabel f\u00fcr sensible Unternehmensdaten.<\/td><\/tr><tr><td><strong>Pragmatischer Nutzer<\/strong><\/td><td>Wer nichts Illegales oder politisch Sensibles eingibt, hat wenig zu bef\u00fcrchten \u2013 das Risiko ist vergleichbar mit der Nutzung von WeChat.<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Ehrliche Einsch\u00e4tzung:<\/strong>&nbsp;F\u00fcr europ\u00e4ische Unternehmen ist DeepSeek derzeit&nbsp;<em>nicht<\/em>&nbsp;DSGVO-konform nutzbar. F\u00fcr private Nutzer, die keine hochsensiblen Daten teilen, ist das Risiko gering \u2013 aber vorhanden.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">DeepSeek reagierte bislang zur\u00fcckhaltend: Das Unternehmen erkl\u00e4rte, man habe den italienischen Markt nie offiziell betreten wollen, und entfernte die App aus dem italienischen Store. Diese defensive Haltung d\u00fcrfte auf lange Sicht nicht ausreichen, wenn DeepSeek ernsthaft europ\u00e4ische Nutzer gewinnen m\u00f6chte.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h3 class=\"wp-block-heading\">DeepSeek im direkten Vergleich: Leistungsdaten (Stand Februar 2026)<\/h3>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th class=\"has-text-align-left\" data-align=\"left\"><strong>Benchmark<\/strong><\/th><th class=\"has-text-align-left\" data-align=\"left\"><strong>DeepSeek R1<\/strong><\/th><th class=\"has-text-align-left\" data-align=\"left\"><strong>GPT-4o<\/strong><\/th><th class=\"has-text-align-left\" data-align=\"left\"><strong>Claude 3.5 Sonnet<\/strong><\/th><th class=\"has-text-align-left\" data-align=\"left\"><strong>Gemini 1.5 Pro<\/strong><\/th><\/tr><\/thead><tbody><tr><td><strong>MMLU (5-shot)<\/strong><\/td><td>85,2 %<\/td><td>86,7 %<\/td><td>85,9 %<\/td><td>84,3 %<\/td><\/tr><tr><td><strong>HumanEval (Code)<\/strong><\/td><td>89,1 %<\/td><td>88,4 %<\/td><td>90,2 %<\/td><td>84,9 %<\/td><\/tr><tr><td><strong>MATH-500<\/strong><\/td><td>84,3 %<\/td><td>76,2 %<\/td><td>78,5 %<\/td><td>72,1 %<\/td><\/tr><tr><td><strong>Kontext (Token)<\/strong><\/td><td>1.000.000<\/td><td>128.000<\/td><td>200.000<\/td><td>2.000.000<\/td><\/tr><tr><td><strong>API-Kosten (1M Token)<\/strong><\/td><td>ca. 2,20 $<\/td><td>ca. 60 $<\/td><td>ca. 15 $<\/td><td>ca. 7 $<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">*Quellen: LMSYS Chatbot Arena, HELM-Benchmark, Anbieter-APIs (Stand Februar 2026).*<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Beobachtung:<\/strong>&nbsp;DeepSeek ist in Mathematik und Code-Synthese f\u00fchrend, bei Allgemeinwissen (MMLU) leicht unter GPT-4o, bei kreativem Schreiben schw\u00e4cher. Das riesige Kontextfenster von einer Million Token (entspricht etwa den gesamten drei B\u00e4nden von \u201eDas Kapital\u201c) ist ein Alleinstellungsmerkmal.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h3 class=\"wp-block-heading\">Ein offenes \u00d6kosystem<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Ein Aspekt, der oft \u00fcbersehen wird: DeepSeek ver\u00f6ffentlicht seine Modelle als&nbsp;<strong>Open Weight<\/strong>&nbsp;\u2013 die Gewichte sind \u00f6ffentlich zug\u00e4nglich, anders als bei den propriet\u00e4ren Modellen von OpenAI, Google oder Anthropic. Das erm\u00f6glicht Entwicklern weltweit, die Modelle auf eigener Hardware zu betreiben, zu modifizieren und weiterzuentwickeln.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Die MoE-Architektur erlaubt zudem modulare Updates: Einzelne \u201eExperten\u201c k\u00f6nnen nachtrainiert oder ausgetauscht werden, ohne das gesamte Modell neu zu trainieren. Das senkt die Einstiegsh\u00fcrden f\u00fcr kleinere Unternehmen und Forschungseinrichtungen erheblich.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Eine kleine Anekdote aus der Entwickler-Community:<\/strong>&nbsp;Im April 2025 postete ein Hobby-Entwickler aus Bangalore auf Reddit, dass er DeepSeek R1 auf seinem&nbsp;<strong>gebrauchten MacBook Pro mit 32 GB RAM<\/strong>&nbsp;zum Laufen gebracht habe \u2013 dank der MoE-Architektur, die nur 37 Milliarden Parameter aktiviert. Er nutzte&nbsp;<code>llama.cpp<\/code>&nbsp;mit 4-Bit-Quantisierung. Das Modell generierte etwa 2\u20133 Token pro Sekunde \u2013 langsam, aber funktional. Kommentar eines anderen Nutzers:&nbsp;<em>\u201eMein Laptop ist jetzt offiziell schlauer als ich.\u201c<\/em>&nbsp;Die Anekdote zeigt, wie DeepSeek die Einstiegsh\u00fcrde f\u00fcr KI-Experimente gesenkt hat.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h3 class=\"wp-block-heading\">Die n\u00e4chste Evolutionsstufe: mHC<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">DeepSeek ruht sich nicht auf seinen Erfolgen aus. Anfang 2026 pr\u00e4sentierte das Labor eine neue Architektur namens&nbsp;<strong>Manifold-Constrained Hyper-Connections (mHC)<\/strong>, die das Training gro\u00dfer Sprachmodelle noch effizienter und stabiler machen soll.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Das Problem bisheriger Skalierungsans\u00e4tze: Je gr\u00f6\u00dfer ein Modell wird, desto mehr interne Informationsaustausche finden statt \u2013 was schnell zu Instabilit\u00e4ten f\u00fchrt. mHC erm\u00f6glicht eine reichhaltigere interne Kommunikation, bleibt dabei aber berechenbar und stabil. In Tests mit Modellen von drei bis 27 Milliarden Parametern funktionierte die Skalierung ohne signifikante zus\u00e4tzliche Rechenlast.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u201eDeepSeek kann wieder einmal Rechenengp\u00e4sse umgehen und Intelligenzspr\u00fcnge freisetzen\u201c, kommentierte Wei Sun von Counterpoint Research.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h3 class=\"wp-block-heading\">Ausblick: Wohin steuert DeepSeek?<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Ende 2025 und Anfang 2026 deutete sich die n\u00e4chste gro\u00dfe Ver\u00f6ffentlichung an. Analysten von Nomura erwarteten DeepSeek-V4 f\u00fcr Februar 2026 mit m\u00f6glichen Durchbr\u00fcchen in der Programmierung, der Verarbeitung extrem langer Code-Dokumente und der Zuverl\u00e4ssigkeit von Schlussfolgerungen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Gleichzeitig steht das Labor vor strategischen Herausforderungen: Die Beschaffung modernster Nvidia-Chips bleibt aufgrund der US-Exportkontrollen schwierig, auch wenn Ger\u00fcchten zufolge wieder Zugang zu Nvidia-Hardware besteht. Das Team muss sich entscheiden, ob es den Open-Source-Ansatz beibeh\u00e4lt oder \u2013 wie andere erfolgreiche KI-Startups \u2013 zunehmend propriet\u00e4re Dienste anbietet.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h2 class=\"wp-block-heading\">Fazit<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">DeepSeek ist mehr als nur eine weitere KI-App. Das Startup hat gezeigt, dass hochleistungsf\u00e4hige KI-Modelle nicht zwingend Hunderte Millionen Dollar und riesige GPU-Cluster erfordern. Durch eine Kombination aus MoE-Architektur, FP8-Training, MLA-Speicherkomprimierung, MTP und DualPipe-Kommunikationsoptimierung hat DeepSeek eine Blaupause f\u00fcr&nbsp;<strong>effiziente KI-Entwicklung<\/strong>&nbsp;geschaffen \u2013 mit Kostenstrukturen, die die etablierte Ordnung des KI-Markts infrage stellen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Gleichzeitig ist DeepSeek kein ungetr\u00fcbtes Erfolgsmodell. Die Destillations-Vorw\u00fcrfe von OpenAI werfen Fragen zur rechtlichen Zul\u00e4ssigkeit g\u00e4ngiger Trainingspraktiken auf. Die europ\u00e4ischen Datenschutzprobleme zeigen, dass globale Reichweite nicht ohne Anpassung an lokale Rechtsordnungen m\u00f6glich ist. Und die versteckten Kosten relativieren den Effizienzvorsprung \u2013 auch wenn er weiterhin beeindruckend bleibt.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Dennoch bleibt der Eindruck \u00fcberwiegend positiv: DeepSeek hat die KI-Entwicklung demokratisiert, Open-Source-Prinzipien gest\u00e4rkt und bewiesen, dass chinesische Innovation auf Augenh\u00f6he mit dem Silicon Valley agieren kann. Wie Liang Wenfeng selbst einmal sagte, verfolgt DeepSeek das Ziel, \u201eAI technology that benefits all of humanity\u201c zu entwickeln \u2013 ein ehrgeiziges Versprechen, dem die n\u00e4chsten Jahre zeigen werden, ob es eingel\u00f6st werden kann.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h2 class=\"wp-block-heading\">Zum Weiterlesen<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>DeepSeek offizielles GitHub:<\/strong>\u00a0<code>github.com\/deepseek-ai<\/code>\u00a0\u2013 technische Reports, Modellgewichte und Inference-Codes.<\/li>\n\n\n\n<li><strong>Sebastian Raschka&#8217;s DeepSeek-Serie:<\/strong>\u00a0Detaillierte technische Aufarbeitung auf\u00a0<code>magazine.sebastianraschka.com<\/code>\u00a0(Dezember 2025\u2013Januar 2026).<\/li>\n\n\n\n<li><strong>SemiAnalysis Newsletter:<\/strong>\u00a0Tiefgehende Hardware-Analysen zu DeepSeek.<\/li>\n\n\n\n<li><strong>LMSYS Chatbot Arena:<\/strong>\u00a0Live-Vergleich der Modell-Performance.<\/li>\n\n\n\n<li><strong>European AI Act &amp; DeepSeek:<\/strong>\u00a0Analysen auf\u00a0<code>europarl.europa.eu<\/code>\u00a0(Suchbegriff \u201eDeepSeek compliance\u201c).<\/li>\n<\/ul>","protected":false},"excerpt":{"rendered":"<p>Im Januar 2025 geschah etwas, das selbst erfahrene Branchenbeobachter \u00fcberraschte: Die App des chinesischen KI-Startups DeepSeek st\u00fcrmte innerhalb weniger Tage an die Spitze der kostenlosen Download-Charts \u2013 sowohl in den USA als auch in China. Erstmals \u00fcberholte ein chinesisches KI-Modell ChatGPT im US-amerikanischen App Store. Was auf den ersten Blick wie ein pl\u00f6tzlicher Hype wirkte, [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[19,32],"tags":[1457,3716,3722,4130,4647,5113,5756],"class_list":["post-3250","post","type-post","status-publish","format-standard","hentry","category-im-ruckspiegel","category-techarchaologie","tag-deepseek","tag-ki-architektur","tag-ki-effizienz","tag-liang-wenfeng","tag-mixture-of-experts","tag-open-source-ki","tag-reasoning-modell"],"_links":{"self":[{"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/posts\/3250","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/comments?post=3250"}],"version-history":[{"count":0,"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/posts\/3250\/revisions"}],"wp:attachment":[{"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/media?parent=3250"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/categories?post=3250"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/tags?post=3250"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}