KI verstehen: Ein praktischer Grundlagenkurs – Ausführliche Ausgabe

Autor: DerSchneider


Einleitung: Warum dieser Kurs anders ist

Du hörst überall von Künstlicher Intelligenz. Dein E-Mail-Programm schlägt Antworten vor, dein Smartphone erkennt dein Gesicht, und dein Chef möchte, dass du „irgendwas mit KI“ machst. Aber wenn du ehrlich bist: Weißt du wirklich, was da hinter steckt? Die meisten Einführungskurse springen direkt zu Anwendungen, ohne die grundlegenden Prinzipien zu erklären. Das ist so, als würde man jemandem beibringen, ein Auto zu fahren, ohne zu erklären, was ein Verbrennungsmotor ist – es geht eine Weile gut, bis etwas schiefgeht.

Dieser Kurs ist anders. Wir beginnen nicht mit den Tools, sondern mit der Frage: Was ist KI überhaupt nicht? Erst dann tauchen wir in die faszinierende Welt der mehrdimensionalen Worträume, der Tokenisierung und der Schwarmintelligenz ein. Du wirst verstehen, warum eine KI halluziniert (oder eben nicht), warum deine Daten bei chinesischen oder amerikanischen Servern landen können, und wie du mit einem einfachen Laptop ein Sprachmodell betreiben kannst, das mit ChatGPT mithalten kann.

Die Reihenfolge der Themen folgt keiner typischen Kurslogik, sondern einem didaktischen Pfad, der vom Abstrakten zum Konkreten führt. Wir bewegen uns von der Theorie über die Praxis bis hin zur ethischen Einordnung. Am Ende wirst du nicht nur Werkzeuge bedienen können, sondern das System dahinter verstehen – und das ist der entscheidende Vorteil in einer Zeit, in der sich die Technologie schneller ändert, als man Tutorials schreiben kann.


Modul 1: Abschied vom Mythos – Was KI nicht ist

Der Begriff „Künstliche Intelligenz“ ist irreführend

Beginnen wir mit einer grundlegenden Erkenntnis, die viele überrascht: Es gibt keine Intelligenz in dem, was wir heute KI nennen. Der Begriff wurde in den 1950er Jahren von Forschern wie John McCarthy geprägt, die davon träumten, Maschinen zu bauen, die wie Menschen denken können. Dieses Ziel ist bis heute nicht erreicht worden – und viele Experten bezweifeln, dass es überhaupt sinnvoll ist.

Was wir heute als KI bezeichnen, ist im Kern ein hochentwickeltes Statistikwerkzeug. Es erkennt Muster in riesigen Datenmengen und verwendet diese Muster, um Wahrscheinlichkeiten für die nächste Antwort zu berechnen. Mehr nicht. Es gibt kein Bewusstsein, kein Verständnis, keine Intention. Wenn eine KI dir sagt „Ich fühle mich heute nicht gut“, dann ist das keine Lüge und keine Wahrheit – es ist einfach die statistisch wahrscheinlichste Abfolge von Wörtern, die auf deine Frage „Wie geht es dir?“ folgt.

Ein einfaches Beispiel aus dem Alltag: Du schreibst auf deinem Smartphone eine Nachricht: „Alles Gute zum …“. Bevor du den nächsten Buchstaben tippen kannst, schlägt das Gerät „Geburtstag“ vor. Warum? Weil in Milliarden von geschriebenen Sätzen nach „Alles Gute zum“ mit überwältigender Wahrscheinlichkeit „Geburtstag“ kommt. Es könnte auch „Zur Geburt“ oder „50. Geburtstag“ heißen, aber die Statistik sagt: „Geburtstag“ ist der Spitzenreiter. Dein Handy hat kein Verständnis von Geburtstagen, es hat nur gelernt, dass diese Buchstaben oft auf diese Buchstaben folgen.

Die „Halluzination“ ist kein Zauber, sondern ein Trainingsfehler

In der KI-Literatur liest man oft, dass Modelle „halluzinieren“ – also erfundene Fakten als Wahrheit ausgeben. Das klingt mysteriös, fast schon gruselig. In Wahrheit ist es ganz einfach: Die KI gibt das aus, was statistisch am nächsten liegt. Wenn das Training fehlerhaft war – weil zum Beispiel Diskussionsforen mit falschen Informationen („Die Erde ist flach“) mitgelesen wurden – dann wird die KI diese falschen Informationen als wahrscheinlichste Antwort ausgeben.

Merke: Eine KI halluziniert nicht. Sie berechnet nur Wahrscheinlichkeiten. Wenn die Wahrscheinlichkeit für eine falsche Aussage höher ist als für die richtige, ist das ein Problem des Trainings – nicht ein mysteriöses Phänomen.

Lernen wie ein Kind – aber ohne Verstand

Um zu verstehen, wie KI tatsächlich „lernt“, machen wir ein Gedankenexperiment. Stell dir vor, du bist vier Jahre alt. Du hörst zum ersten Mal die Wörter „Arzt“, „Medizin“ und „Apotheke“. Du weißt noch nicht, dass sie zusammenhängen. Für dich sind das zunächst drei völlig unverbundene Laute.

Dann hörst du Sätze wie:

  • „Die Mama holt die Medizin in der Apotheke.“
  • „Der Arzt verschreibt mir Medizin.“
  • „In der Apotheke gibt es Medizin.“
  • „Ich gehe mit meiner Mutter zum Arzt, und der Arzt verschreibt Medizin – die hole ich dann in der Apotheke.“

Nachdem du diese Sätze hundert- oder tausendmal gehört hast, beginnst du, Muster zu erkennen: „Arzt“ und „Medizin“ tauchen oft im selben Satz auf. „Apotheke“ und „Medizin“ ebenfalls. Dein Gehirn beginnt, diese Begriffe in einem mentalen Raum anzuordnen – nicht bewusst, sondern durch reine Assoziation. Am Ende liegen die drei Wörter in deinem Kopf nah beieinander, obwohl du nie gelernt hast, was ein Arzt wirklich ist.

Genau das machen KI-Modelle. Sie werden mit Unmengen von Texten gefüttert – Büchern, Webseiten, Foren, wissenschaftlichen Arbeiten. Sie zählen, welche Wörter wie oft zusammen vorkommen. Und sie berechnen daraus einen mehrdimensionalen Raum, in dem ähnliche Wörter nahe beieinander liegen. Der entscheidende Unterschied zum menschlichen Lernen: Die KI hat kein Verständnis, keine Emotionen, keine Erfahrungen. Sie hat nur eine riesige Tabelle mit Zahlen.


Modul 2: Der verborgene Raum – Embeddings und wie Wörter zu Punkten werden

Mehrdimensionalität für Anfänger

Die Idee, Wörter als Punkte in einem Raum darzustellen, ist genial einfach und gleichzeitig schwer vorstellbar. Wir Menschen können uns problemlos zwei- oder dreidimensionale Räume vorstellen. Aber moderne KI-Modelle arbeiten mit Hunderten oder sogar Tausenden von Dimensionen. Das klingt abstrakt, lässt sich aber mit einem einfachen Trick veranschaulichen.

Stell dir vor, du hast nur zwei Dimensionen – eine flache Ebene. Du könntest Wörter wie „Apfel“, „Birne“ und „Auto“ in dieser Ebene anordnen. „Apfel“ und „Birne“ wären nah beieinander (beides Früchte), während „Auto“ weit weg wäre. In drei Dimensionen kannst du noch mehr Beziehungen abbilden – zum Beispiel die Dimension „Obst vs. Gemüse“, die Dimension „grün vs. rot“, die Dimension „süß vs. sauer“. Mit jeder zusätzlichen Dimension wird das Bild präziser.

Ein KI-Modell mit 768 Dimensionen (wie das berühmte BERT-Modell) kann feinste semantische Unterschiede erfassen. Es „weiß“ zum Beispiel, dass „König“ und „Königin“ in der Dimension „Geschlecht“ weit auseinanderliegen, aber in allen anderen Dimensionen nahe beieinander. Das erlaubt verblüffende Rechenoperationen:

König – Mann + Frau ≈ Königin

Das ist keine Magie, sondern einfache Vektorarithmetik im mehrdimensionalen Raum. Jedes Wort ist ein Vektor (eine Liste von Zahlen). Der Vektor für „König“ minus der Vektor für „Mann“ plus der Vektor für „Frau“ ergibt einen Vektor, der dem von „Königin“ sehr ähnlich ist. Die KI hat nie gelernt, was ein König ist – sie hat nur gelernt, wie sich diese Vektoren zueinander verhalten.

Praktische Visualisierung – Ein Blick in den Raum

In dem zugrundeliegenden Kurs-Transkript wird ein Viewer erwähnt, mit dem man sich solche Embedding-Räume anschauen kann. Wenn du zum Beispiel das Wort „Bundestag“ suchst, findest du in seiner Nähe „CSU“, „SPD“, „Bundesrat“ – alle Begriffe, die mit deutscher Politik zu tun haben. Suchst du „Säure“, findest du „Fermentation“ und „Katalysator“ – Begriffe aus der Chemie.

Diese Visualisierung macht deutlich, was KI eigentlich tut: Sie sortiert das Wissen der Welt nach statistischen Ähnlichkeiten, nicht nach logischen Kategorien. Das ist gleichzeitig die Stärke (sie erkennt feine Muster) und die Schwäche (sie versteht keine Ursachen).

Kulturelle Prägung – Die KI ist ein Kind ihrer Daten

Ein entscheidender Punkt, der in Diskussionen oft übersehen wird: Ein KI-Modell ist kein neutraler Beobachter. Es ist das Produkt der Daten, mit denen es trainiert wurde. Ein Modell, das überwiegend mit westlichen, englischsprachigen Texten trainiert wurde, wird andere Zusammenhänge sehen als eines, das auf chinesischen WeChat-Verläufen oder afrikanischen WhatsApp-Gruppen basiert.

Das hat konkrete Auswirkungen:

  • Ein US-amerikanisches Modell hält die Demokratie für die einzig wahre Staatsform.
  • Ein chinesisches Modell bewertet soziale Stabilität höher als individuelle Freiheit.
  • Ein Modell, das mit Reddit-Foren trainiert wurde, könnte Ironie erkennen – aber auch Verschwörungstheorien reproduzieren.

Konsequenz für dich: Wenn du KI für geschäftliche Entscheidungen nutzt, solltest du wissen, in welchem kulturellen Kontext das Modell trainiert wurde. Ein Modell aus Frankreich (Mistral) wird anders antworten als eines aus China (DeepSeek) – selbst bei identischer Frage.


Modul 3: Tokens – Die unsichtbaren Bausteine der Sprache

Warum Ihr Computer nicht Buchstabe für Buchstabe denkt

Wenn du einen Satz in ein KI-Modell eingibst, passiert etwas Interessantes: Der Satz wird nicht Buchstabe für Buchstabe verarbeitet, auch nicht Wort für Wort, sondern in Tokens zerlegt. Ein Token kann sein:

  • Ein ganzes Wort (z. B. „Hund“)
  • Ein Wortteil (z. B. „Hun“ + „d“ – ja, das kommt vor!)
  • Ein einzelnes Zeichen (z. B. „!“ oder „?“)
  • Ein Leerzeichen (ja, wirklich)

Die Kunst der Tokenisierung besteht darin, eine Sprache in möglichst wenige, aber aussagekräftige Brocken zu zerlegen. Englisch ist dabei relativ einfach: Das Wort „playing“ wird zu „play“ + „ing“. Deutsch ist schwieriger, weil wir lange Komposita haben: „Donaudampfschifffahrtsgesellschaftskapitän“ – das wird ein Tokenizer in viele kleine Teile zerhacken.

Ein anschauliches Beispiel aus dem Kurs-Transkript: Der OpenAI-Tokenizer (den du selbst ausprobieren kannst) zerlegt den deutschen Satz „Die Entlassungsurkunde wurde unterzeichnet“ anders als einen englischen Satz. Während englische Wörter sauber getrennt werden, zerfallen deutsche Wörter oft in sinnlose Bruchstücke – weil der Tokenizer ursprünglich für Englisch optimiert wurde.

Warum Tokenisierung wichtig ist

Die Art der Tokenisierung beeinflusst direkt die Qualität der KI-Antworten. Wenn dein deutscher Satz in seltsame Brocken zerlegt wird, kann das Modell keine sinnvollen Zusammenhänge herstellen. Das ist wie bei einem Legobausatz, bei dem die Steine falsch geschnitten sind – du kannst nichts Vernünftiges bauen.

Praxistipp: Verwende für deutsche Texte entweder ein Modell, das explizit für Deutsch (oder multilingual) trainiert wurde, oder übersetze deine Anfrage ins Englische. Die meisten KI-Modelle sind auf Englisch trainiert und liefern daher bessere Ergebnisse, wenn du sie auf Englisch ansprichst.

Token-Kosten und Kontextlänge

Jedes KI-Modell hat eine maximale Anzahl von Tokens, die es gleichzeitig verarbeiten kann (der sogenannte „Kontext“). Bei älteren Modellen waren das 4.096 oder 8.192 Tokens – das entspricht etwa 3.000 bis 6.000 deutschen Wörtern. Neuere Modelle schaffen 128.000 oder sogar 1 Million Tokens – genug für ganze Bücher.

Aber Vorsicht: Die Kosten für die Nutzung von KI-APIs (Anwendungsschnittstellen) werden oft pro Token berechnet. Ein langer Text kann teuer werden. Deshalb ist es sinnvoll, Texte vor der Verarbeitung zu kürzen oder Zusammenfassungen zu erstellen.


Modul 4: Die große Modellvielfalt – Nicht jede KI kann alles

Spezialisierung statt Alleskönner

Ein weit verbreiteter Irrglaube ist, dass es „die KI“ gibt, die alles kann. In Wahrheit existiert eine wachsende Landschaft hochspezialisierter Modelle, die jeweils für bestimmte Aufgaben optimiert sind. Ein Modell, das hervorragend programmieren kann, ist möglicherweise schlecht im kreativen Schreiben. Ein Modell, das schöne Bilder generiert, kann keine Musik machen.

Hier eine detaillierte Übersicht der wichtigsten Modelltypen mit konkreten Beispielen:

ModelltypBeschreibungBekannte VertreterTypische Anwendung
Großes Sprachmodell (LLM)Verarbeitet und generiert TextGPT-4, Claude, Mistral, Llama, GemmaChat, Zusammenfassung, Übersetzung, Programmierung
BildgeneratorErzeugt Bilder aus TextDALL-E 3, Flux, Stable Diffusion, MidjourneyGrafikdesign, Konzeptkunst, Produktvisualisierung
BilderkennungsmodellBeschreibt BildinhalteCLIP, Gemini Vision, GPT-4VAutomatische Bildbeschriftung, Barrierefreiheit
MusikgeneratorErstellt Melodien und SongsSuno, Udio, MusicLMHintergrundmusik, Lernhilfen, kreative Projekte
VideogeneratorErzeugt kurze VideoclipsSora, Runway Gen-2, Pika LabsWerbung, Social-Media-Inhalte, Prototyping
Multimodales ModellKombiniert mehrere Eingabe- und AusgabeformateGPT-4 mit Vision, Gemini, Gemma 3Bildanalyse mit Textausgabe, Dokumentenverständnis

Multimodale Modelle – Die Schweizer Taschenmesser der KI

Die neueste Entwicklung sind sogenannte multimodale Modelle. Sie können nicht nur Text, sondern auch Bilder, Audio und manchmal sogar Video verarbeiten. Du kannst zum Beispiel ein Foto von einem Unfallauto hochladen und das Modell fragt: „Was ist auf diesem Bild zu sehen?“ – und es beschreibt den Schaden, die Farbe, die Umgebung. Das gleiche Modell kann dann eine E-Mail an die Versicherung formulieren, ohne dass du jemals die Anwendung wechseln musst.

Der Preis für diese Vielseitigkeit: Multimodale Modelle sind größer, langsamer und brauchen mehr Arbeitsspeicher. Sie sind auch nicht für jede Aufgabe optimal – ein spezialisiertes Bilderkennungsmodell wird oft präziser sein.

Open Source vs. proprietäre Modelle

Ein wichtiger Unterschied, der oft übersehen wird: Viele Modelle sind Open Source. Das bedeutet, du kannst sie kostenlos herunterladen und auf deinem eigenen Rechner ausführen – ohne Internet, ohne Datenkrake, ohne monatliche Gebühren. Hugging Face ist die zentrale Plattform für solche Modelle. Dort findest du Tausende von vortrainierten Modellen, oft mit Codebeispielen und Anleitungen.

Proprietäre Modelle wie GPT-4 oder Claude werden nur über APIs (Anwendungsschnittstellen) oder Weboberflächen angeboten. Sie sind oft leistungsfähiger, aber du gibst die Kontrolle über deine Daten ab.

Beispiel aus dem Kurs: Das Gemma-3-Modell von Google ist Open Source. Du lädst es von Hugging Face herunter (ca. 27 GB, weil es 27 Milliarden Parameter hat) und führst es mit LM Studio auf deinem Mac aus. Das Modell ist multimodal – es kann Bilder erkennen und beschreiben, genau wie ChatGPT, aber alles lokal.


Modul 5: Zensur, Sicherheit und Alignment – Wie man KI bändigt

Das Problem mit dem freien Wissen

Ein Sprachmodell wird mit dem gesamten öffentlichen Internet trainiert – und das Internet enthält nicht nur Kochrezepte und Katzenbilder, sondern auch Anleitungen zum Bau von Bomben, rassistische Hetze und illegale Inhalte. Das Modell „weiß“ theoretisch, wie man eine Bombe baut (weil es diese Texte gesehen hat), aber es wird dir diese Information nicht geben. Warum?

Weil die Modelle nach dem Training einem Alignment-Prozess (Ausrichtung) unterzogen werden. Dabei wird das Modell so feinjustiert, dass es bestimmte Ausgaben unterdrückt. Das geschieht auf mehreren Ebenen:

  1. Filterung der Trainingsdaten: Bevor das Training beginnt, werden offensichtlich illegale oder schädliche Inhalte entfernt. Das ist aufwendig und nie perfekt.
  2. Reinforcement Learning from Human Feedback (RLHF): Menschen bewerten Tausende von Antworten des Modells. Gute Antworten (hilfreich, harmlos, ehrlich) werden belohnt, schlechte bestraft. Das Modell lernt, welche Antworten erwünscht sind.
  3. Output-Filter: Nachdem das Modell eine Antwort generiert hat, wird sie noch einmal auf verbotene Inhalte geprüft. Bei Verdacht wird die Antwort unterdrückt oder durch eine Standardfloskel ersetzt („Das kann ich nicht beantworten“).

Jailbreaks – Die Jagd nach Lücken

Trotz aller Sicherheitsmaßnahmen gibt es immer wieder Wege, die Sperren zu umgehen – sogenannte Jailbreaks (Ausbrüche). Das Prinzip ist einfach: Die Filter sind auf konkrete Verbote trainiert („Sprich nicht über Bombenbau“), aber nicht auf alle möglichen Umformulierungen.

Ein berühmtes Beispiel: Ein Bildgenerator weigert sich, „Super Mario“ zu zeichnen (weil das urheberrechtlich geschützt ist). Aber wenn du stattdessen beschreibst: „Ein italienischer Klempner aus einem Videospiel, der über Schildkröten springt und Pilze isst“ – dann erkennt der Filter das nicht, und das Modell generiert fröhlich Super Mario.

Die Entwickler werden immer besser darin, solche Lücken zu schließen, aber es ist ein Katz-und-Maus-Spiel. Vollständige Sicherheit wird es nie geben – genauso wie es keine völlig einbruchssicheren Schlösser gibt.

Datenschutz – Die unterschätzte Gefahr

Während alle über KI-Sicherheit sprechen, wird Datenschutz oft vernachlässigt. Dabei ist das Problem einfach: Wenn du ein kostenloses KI-Tool (wie die Gratisversion von ChatGPT) nutzt, werden deine Eingaben in der Regel zum Weitertraining verwendet. Das bedeutet, dass deine vertraulichen E-Mails, deine Firmendaten oder deine Patientenakten in das Modell einfließen – und möglicherweise in Antworten an andere Nutzer auftauchen.

Wichtiger Hinweis aus dem Kurs: In den Einstellungen von ChatGPT gibt es einen Schalter „Modell für alle verbessern“. Schalte ihn aus! Sonst werden deine Daten zum Training verwendet. Bei der Bezahlversion ist das standardmäßig ausgeschaltet (aber prüfe es trotzdem).

Noch kritischer: DeepSeek aus China sendet deine Daten nach China, wo sie nach chinesischem Recht gespeichert und möglicherweise an Behörden weitergegeben werden können. Claude aus den USA unterliegt dem amerikanischen CLOUD Act, der US-Behörden Zugriff auf Daten auf Servern weltweit gewährt. Die einzige wirklich datenschutzkonforme Lösung ist entweder ein EU-Anbieter wie Mistral – oder ein lokales Modell auf deinem eigenen Rechner.


Modul 6: Plugins, Tools und die Geburt des KI-Assistenten

Vom Papagei zum Werkzeugnutzer

Ein reines Sprachmodell ist wie ein Papagei: Es kann großartig Wörter aneinanderreihen, aber es kann nicht rechnen, nicht googeln, keine Bilder malen und keine Termine in deinen Kalender eintragen. Um diese Lücken zu schließen, wurden Plugins (Erweiterungen) erfunden.

Das Prinzip ist einfach: Das Sprachmodell erkennt, dass eine Anfrage seine Kernfähigkeiten übersteigt. Statt selbst zu antworten, ruft es ein externes Tool auf – einen Taschenrechner, eine Websuch-API, einen Bildgenerator – und integriert die Antwort in seinen Text.

Ein einfaches Beispiel: Du fragst: „Was ist 1234 × 5678?“ Ein Sprachmodell kann das nicht wirklich berechnen (es würde nur raten). Ein gut konfiguriertes Modell erkennt aber: „Das ist eine Rechenaufgabe. Ich rufe das Taschenrechner-Plugin auf.“ Das Plugin berechnet 7.006.652, und das Sprachmodell formuliert daraus einen schönen Satz.

Von Plugins zu nativen Fähigkeiten

Früher gab es einen separaten „Plugin Store“, in dem du manuell auswählen musstest, welche Plugins aktiv sein sollen. Heute ist die Entwicklung weiter: Moderne Modelle entscheiden automatisch, ob und welches Plugin sie brauchen. Du musst nichts mehr aktivieren – das System erkennt selbst, dass für die Frage nach dem Wetter eine Websuche nötig ist, und führt sie aus.

Beispiel aus dem Kurs: Die Frage „Wer ist US-Präsident?“ beantwortet ChatGPT nicht aus seinem Training (das endet im Juni 2024), sondern aktiviert automatisch die Bing-Websuche. In der Antwort siehst du dann Quellenangaben wie whitehouse.gov oder Wikipedia – das Modell hat die Inhalte zusammengefasst, aber nicht selbst gewusst.

Grenzen der Plugin-Logik

Die automatische Entscheidung ist nicht perfekt. Besonders bei logischen Rätseln oder indirekten Fragen versagen Sprachmodelle oft. Ein Testbeispiel aus dem Kurs:

„In einem Bus sitzen vier Kinder. Es steigen fünf Kinder aus. Wie viele Kinder müssen einsteigen, damit kein Kind mehr im Bus sitzt?“

Die richtige Antwort: Minus ein Kind – oder anders gesagt: Es ist unmöglich, weil bereits mehr ausgestiegen sind als da waren. Ein mathematisch denkender Mensch erkennt das sofort. Eine KI? Sie gibt je nach Modell unterschiedliche Antworten:

  • ChatGPT: Umständliche Scherzantwort, die nicht auf die Mathematik eingeht.
  • Claude (mit Reasoning): Erkennt das mathematische Problem und sagt, dass es keine positive Lösung gibt.
  • GPT-4 mit aktiviertem Reasoning-Modus: Denkt mehrfach nach und kommt (manchmal) zur richtigen Schlussfolgerung.

Das zeigt: Auch mit Plugins und Reasoning ist KI keine Logikmaschine. Sie simuliert logisches Denken, aber sie beherrscht es nicht.


Modul 7: Generative KI in der Praxis – Eine Werkzeugkiste für Kreative

Bilder generieren – Von der Textzeile zur Fotografie

Bildgeneratoren wie FluxDALL-E und Stable Diffusion haben die Kreativbranche revolutioniert. Aus einer einfachen Textbeschreibung entstehen in Sekunden fotorealistische Bilder, Illustrationen oder Kunstwerke. Die Qualität variiert stark zwischen den Modellen:

ModellStärkeSchwächeKosten
DALL-E 3 (ChatGPT)Gute Komposition, versteht komplexe PromptsEtwas weichgezeichnetIm ChatGPT Plus enthalten
Flux (Open Source)Extrem fotorealistisch, feine DetailsBraucht starke HardwareKostenlos lokal
MidjourneyKünstlerisch, schöne ÄsthetikSchlechte Textwiedergabe, teuerAb 10 $/Monat
Grok (X)Überraschend gut, schnellNur über X nutzbarKostenlos mit X-Account

Praxistipp: Wenn du ein Bild für ein Social-Media-Posting brauchst, reicht DALL-E. Wenn du ein Produktfoto für einen Katalog brauchst, nimm Flux lokal. Wenn du Kunst machen willst, nimm Midjourney.

Musik generieren mit Suno – Ein Komponist für jede Stimmung

Suno ist eines der beeindruckendsten KI-Tools, das kaum jemand kennt. Du gibst eine Textbeschreibung ein wie „schnelle Klaviermelodie für eine Szene, in der ein Reh im Wald spaziert“, und Suno generiert einen vollständigen Musiktitel – inklusive Melodie, Harmonie und (optional) Gesang. Du kannst Stilrichtungen vorgeben (Reggae, Rock, Klassik), Instrumente bestimmen und sogar eigene Texte einfügen.

Kreative Anwendung aus dem Kurs: Der Sohn des Kurserstellers muss in der Schule Gedichte auswendig lernen. Er gibt den Gedichttext bei Suno ein, wählt „Rap“ oder „Schlager“ als Stil, und schon hat er einen Ohrwurm, der ihm das Gedicht für immer einprägt.

Kostenlos gibt es täglich ein Kontingent (ca. 4-5 Songs). Für Vielfachnutzer gibt es kostenpflichtige Credits.

Podcasts aus Dokumenten mit NotebookLM

Das Google-Tool NotebookLM ist eigentlich für die Recherche gedacht: Du lädst PDFs, Websites, YouTube-Transkripte oder Textdateien hoch, und das Tool ermöglicht dir, mit diesen Dokumenten zu chatten – ähnlich wie ChatGPT, aber mit dem Vorteil, dass die Antworten immer auf deinen eigenen Quellen basieren.

Die eigentliche Sensation ist aber die Audio-Zusammenfassung. NotebookLM generiert aus deinen Dokumenten automatisch einen Podcast – ein Zwiegespräch zwischen zwei KI-Stimmen, die die Inhalte diskutieren, zusammenfassen und erklären. Das klingt so natürlich, dass man kaum glaubt, dass es keine echten Menschen sind.

Anwendung: Du lädst 500 Seiten Vorlesungsskript hoch, lässt einen deutschsprachigen Podcast generieren (den Prompt musst du explizit angeben) und hörst ihn auf dem Weg zur Arbeit. So lernst du, ohne aktiv lesen zu müssen.

Achtung: Die Podcasts sind standardmäßig auf Englisch. Du musst im Prompt sagen: „Die Zielgruppe spricht Deutsch. Bitte generiere das Audio auf Deutsch.“ Manchmal muss man es mehrmals versuchen.

Videos mit Sora – Die Zukunft (und ihre Kinderkrankheiten)

Sora von OpenAI ist der erste öffentlich zugängliche Videogenerator. Du gibst eine Beschreibung ein wie „Ein Elefant, der auf einem Fahrrad durch eine Wüste fährt“, und Sora generiert ein 5- bis 10-sekündiges Video. Die Ergebnisse sind beeindruckend – aber noch lange nicht perfekt.

Typische Fehler:

  • Objekte erscheinen und verschwinden plötzlich
  • Proportionen stimmen nicht (ein Reh neben einem Riesenpilz)
  • Bewegungen sind ruckelig oder unnatürlich
  • Text auf Schildern ist Kauderwelsch

Für professionelle Zwecke ist Sora noch nicht geeignet. Für kreative Experimente, Social-Media-Clips oder Kinderunterhaltung reicht es aber völlig aus. Kombiniere mehrere Clips mit einem kostenlosen Videoschnittprogramm wie DaVinci Resolve (gibt es für Mac und Windows) und unterlege sie mit KI-Musik von Suno – fertig ist dein Kurzfilm.


Modul 8: Lokale KI – Freiheit, Kontrolle und Unabhängigkeit

Warum du deine KI nicht ins Internet schicken musst

Stell dir vor, du schreibst einen privaten Brief, gibst ihn einem Fremden und bittest ihn, ihn zu einem anderen Fremden zu bringen – und der liest ihn unterwegs, kopiert ihn und speichert ihn für immer. So absurd das klingt, genau das tust du, wenn du sensible Daten an eine Online-KI schickst.

Jede Anfrage an ChatGPT, DeepSeek oder Claude durchquert das Internet, landet auf Servern in den USA, China oder Frankreich, wird dort verarbeitet, und die Antwort kommt zurück. Auf dem Weg passieren die Daten mehrere Router, werden möglicherweise protokolliert, und auf dem Server werden sie gespeichert – oft für das Training zukünftiger Modelle.

Die Lösung: Lokale KI-Modelle. Du lädst das Modell einmal herunter (das kann 5 bis 50 GB groß sein) und führst es auf deinem eigenen Computer aus. Keine Daten verlassen deinen Rechner. Du bist unabhängig von Internetverbindungen, kostenpflichtigen Abos und fragwürdigen Datenschutzpraktiken.

Hardware-Anforderungen – Was du wirklich brauchst

Nicht jeder Computer kann lokale KI-Modelle ausführen. Die Anforderungen hängen von der Größe des Modells ab. Die Größe wird in Parametern angegeben – das sind die „Gewichte“, die das Modell gelernt hat. Ein 7-Milliarden-Parameter-Modell ist klein und läuft auf fast jedem Rechner. Ein 70-Milliarden-Modell braucht einen High-End-PC.

Richtwerte für den Arbeitsspeicher (RAM/VRAM):

  • 7 Milliarden Parameter → ca. 7 GB RAM
  • 13 Milliarden Parameter → ca. 13 GB RAM
  • 27 Milliarden Parameter → ca. 27 GB RAM
  • 70 Milliarden Parameter → ca. 70 GB RAM (nur für Server)

Praktische Empfehlungen:

  • Mac mit M1/M2/M3: Ab 16 GB RAM kannst du Modelle bis 13B ausführen. Mit 32 GB RAM laufen 27B-Modelle flüssig.
  • Windows-PC mit NVIDIA-Grafikkarte: Eine RTX 3060 mit 12 GB VRAM schafft Modelle bis 13B. Eine RTX 4090 mit 24 GB VRAM schafft 27B.
  • Keine starke Grafik? Du kannst auch reine CPU-Modelle ausführen, aber dann werden Antwortzeiten von mehreren Minuten normal.

LM Studio – Der einfachste Einstieg

LM Studio (kostenlos, verfügbar unter lmstudio.ai) ist das benutzerfreundlichste Tool für lokale KI. Nach der Installation machst du Folgendes:

  1. Modell suchen: Klicke auf die Lupe (Suche), gib z. B. „Gemma 3“ ein. Eine Liste erscheint.
  2. Modell herunterladen: Wähle die Größe, die in deinen Arbeitsspeicher passt (z. B. „gemma-3-27b-it“ für 27 GB). Lade es herunter – das kann je nach Modell einige Minuten bis Stunden dauern.
  3. Modell laden: Klicke auf „Load“ – die grünen Balken zeigen, wie viel Arbeitsspeicher belegt wird. Sobald das Modell geladen ist, erscheint ein Chat-Fenster.
  4. Loslegen: Du kannst jetzt wie in einer Weboberfläche chatten – komplett offline, komplett privat.

Beispiel aus dem Kurs: Der Autor lädt das Gemma-3-27b-Modell auf seinem Mac mit 32 GB RAM. Das Laden dauert ein paar Sekunden. Dann fragt er: „Was ist auf diesem Bild zu sehen?“ (lädt ein Unfallfoto hoch) – und das Modell antwortet: „Ein schwarzer Golf mit einem Frontschaden. Das Auto steht im Gras am Straßenrand.“ Kein Unterschied zu ChatGPT, nur langsamer (ca. 10-20 Sekunden statt 1-2 Sekunden).

Wann lohnt sich lokal? Eine Entscheidungstabelle

SzenarioOnline-KILokale KIBegründung
Privates Recherchieren zu heiklen ThemenNiemand muss wissen, was du suchst
Verarbeitung von Patientendaten (Arztpraxis)DSGVO-konform nur lokal
Firmeninternes Wissen (Bilanzen, Strategien)Sonst Wettbewerbsnachteil
Kreatives Schreiben (Romane, Gedichte)🟡🟡Geht beides, aber lokal ist sicherer
Schnelle Antworten für den Alltag🟡Online ist meist schneller
Neueste Modelle ausprobieren🟡Online sofort verfügbar, lokal mit Verzögerung
Bildgenerierung in hoher Qualität🟡Lokal (Flux) oft besser als DALL-E

Modul 9: Die KI-Landschaft im Überblick – Welcher Anbieter für welchen Zweck?

Nachdem wir nun die Technik verstanden haben, werfen wir einen Blick auf die konkreten Anbieter. Keine Sorge, du musst nicht alle kennen – aber die Unterschiede zu verstehen, hilft dir, die richtige Wahl zu treffen.

Die großen Vier (und ihre Schattenseiten)

AnbieterHerkunftStärkeSchwächeDatenschutzKosten
ChatGPT (OpenAI)USABestes Allround-Modell, riesige Plug-in-Auswahl, gute BildgenerierungDaten gehen in die USA, Trainings-Opt-out ist verstecktMittel (Opt-out möglich)Kostenlos (limitiert) / 20 $/Monat Plus
DeepSeekChinaExtrem günstig, gut für einfache AufgabenDaten nach China, politische ZensurSchlecht (chinesisches Recht)Sehr günstig (Cent-Beträge)
Claude (Anthropic)USAExzellent für Programmierung, Logik, Rechnen, großer Kontext (200k Tokens)Keine Bildgenerierung, teurerMittel (USA)Ab 20 $/Monat
MistralFrankreich (EU)DSGVO-konform, sehr schnell, Open-Source-PhilosophieEtwas schwächer bei komplexen AufgabenGut (EU-Recht)Kostenlos / Bezahl-API
Grok (X)USAIntegriert in X (Twitter), gute BildgenerierungNoch in Entwicklung, nur über XSchlecht (X-Datenverwertung)Kostenlos mit X-Account

Spezialisten für besondere Aufgaben

Neben den großen Generalisten gibt es eine wachsende Zahl spezialisierter Tools:

  • Suno (Musikgenerierung) – Einzigartig in ihrer Klasse, kein Generalist kommt an sie heran.
  • NotebookLM (Dokumenten-Podcasts) – Google-Tool, das seinesgleichen sucht.
  • Sora (Videogenerierung) – Noch in den Kinderschuhen, aber vielversprechend.
  • Flux (Bildgenerierung lokal) – Open-Source-Konkurrenz zu Midjourney.
  • LM Studio (Lokale Modellausführung) – Kein KI-Modell, sondern ein Werkzeug, um Modelle auszuführen.

Die goldene Regel für Unternehmen

Wenn du KI für geschäftliche Zwecke nutzt, gilt eine einfache Regel: Nutze entweder lokale Modelle oder zumindest einen EU-Anbieter wie Mistral. Alles andere ist ein unkalkulierbares Datenschutzrisiko. Ja, das ist unbequem. Ja, lokale Modelle sind langsamer. Aber einmal durchgesickerte Kundendaten können ein Unternehmen ruinieren – rechtlich und reputativ.

Für Privatpersonen gilt: Experimentiere ruhig mit allen Tools. Aber überlege dir gut, ob du deine privaten Gedanken, deine Gesundheitsdaten oder deine Finanzinformationen einem Konzern in China oder den USA anvertrauen willst.


Fazit: Der Kurs, den du nie vergessen wirst

Wir haben eine lange Reise hinter uns. Wir haben gesehen, dass KI keine Intelligenz im menschlichen Sinne ist, sondern ein hochkomplexes Statistikwerkzeug. Wir haben die Welt der Embeddings erkundet, in der Wörter zu Punkten in mehrdimensionalen Räumen werden. Wir haben gelernt, wie Tokens funktionieren und warum die Wahl des richtigen Modells entscheidend ist.

Wir haben die Schattenseiten nicht ausgespart: Zensur, Jailbreaks, Datenschutzrisiken. Wir haben die Macht der Plugins und die Grenzen der automatischen Entscheidungen erlebt. Wir haben generative KI in Aktion gesehen – von Bildern über Musik bis hin zu Videos und Podcasts. Und wir haben entdeckt, dass die beste KI manchmal die ist, die auf deinem eigenen Rechner läuft.

Die fünf wichtigsten Erkenntnisse dieses Kurses:

  1. KI ist Statistik, kein Denken. Wer das versteht, kann ihre Antworten richtig einordnen und ihre Fehler erklären.
  2. Embeddings sind der Schlüssel. Die Anordnung von Wörtern in mehrdimensionalen Räumen ermöglicht alle magischen Fähigkeiten der KI.
  3. Tokenisierung ist unsichtbar, aber entscheidend. Ein Modell, das deine Sprache nicht gut tokenisieren kann, liefert schlechte Ergebnisse.
  4. Lokale KI ist keine Spielerei mehr. Mit der richtigen Hardware kannst du Modelle betreiben, die mit ChatGPT konkurrieren – und das komplett offline und datenschutzkonform.
  5. Datenschutz ist kein Luxus, sondern eine Notwendigkeit. Bevor du sensible Daten in eine Online-KI eingibst, prüfe die Einstellungen – oder nutze ein lokales Modell.

Dein nächster Schritt: Lade LM Studio herunter. Lade ein kleines Modell (z. B. Llama 3 8B). Stelle eine Frage. Dann eine schwierige. Dann lade ein Bild hoch. Du wirst überrascht sein, wie gut das funktioniert – und wie befreiend es ist, keine Daten mehr in die Cloud schicken zu müssen.

Die KI-Revolution ist erst am Anfang. Wer die Grundlagen versteht, wird nicht nur Werkzeuge bedienen, sondern die Zukunft mitgestalten. Du hast jetzt das Rüstzeug dazu. Nutze es weise.


Quellen

Kommentar abschicken