Die zerbrechliche Barriere: Wie KI-Sicherheitsfilter umgangen werden – und warum das uns alle betrifft

Autor: DerSchneider

Einleitung

Künstliche Intelligenz ist längst kein Zukunftsszenario mehr – sie ist Gegenwart. Sprachmodelle wie ChatGPT, DeepSeek oder Gemini beantworten Fragen, schreiben Code, analysieren Daten und helfen im Alltag. Doch mit ihrer wachsenden Leistungsfähigkeit wächst auch das Missbrauchspotenzial. Wer kontrolliert, was eine KI sagt oder tut? Und was passiert, wenn diese Kontrolle versagt – oder aktiv umgangen wird?

Die vorliegende Untersuchung zeigt: Die heute eingesetzten Sicherheitsfilter sind verwundbar. Methoden wie Adversarial Poetry, Semantic Chaining oder GraphAttack demonstrieren eindrücklich, dass Schutzmechanismen systematisch unterlaufen werden können. Die Gefahren reichen von der Generierung extremistischer Inhalte über Anleitungen für Cyberangriffe bis hin zur Unterstützung bei der Herstellung biologischer Waffen.

Dieser Artikel beleuchtet die technischen Hintergründe, dokumentierte Angriffsmethoden und gesellschaftliche Risiken – und endet mit einem eindringlichen Appell: Die gezielte Beeinflussung von KI für illegale oder schädigende Zwecke ist keine abstrakte Theorie, sondern eine reale und wachsende Gefahr. Sie zu verstehen, ist der erste Schritt, sie einzudämmen.

Hauptteil

1. Wie KI-Guardrails funktionieren – und wo ihre Schwächen liegen

Sicherheitsfilter – oft als Guardrails bezeichnet – sind Mechanismen, die verhindern sollen, dass eine KI unerwünschte oder schädliche Ausgaben produziert. Sie lassen sich mit Content-Moderation auf sozialen Plattformen vergleichen: Keyword-Filter, Toxizitätserkennung und Eingabebeschränkungen blockieren offensichtlich problematische Anfragen.

Doch diese Filter sind extern. Sie sitzen vor oder hinter dem eigentlichen Sprachmodell, ohne in dessen innere Struktur einzugreifen. Das macht sie schnell, kostengünstig und leicht aktualisierbar – aber auch grundsätzlich verwundbar.

Das „Computational Gap“-Problem

Eine Forschungsgruppe der UC Berkeley, des MIT und der Stanford University hat gezeigt: Ein Sicherheitsfilter muss zwangsläufig rechenschwächer sein als das Modell, das er schützt. Wäre er genauso leistungsfähig, wäre er nicht mehr effizient. Diese Computational Gap ist mathematisch fundamental – und ausnutzbar.

Mit sogenannten Time-Lock Puzzles (kryptografischen Zeitverschlüssen) lässt sich eine schädliche Anfrage so verpacken, dass der Filter sie nicht als gefährlich erkennt, das leistungsfähigere Hauptmodell sie aber später entschlüsseln und beantworten kann.

„Auf die Frage, ob man ein LLM nur mit externen Filtern sicher machen kann, ohne in sein Inneres einzugreifen, antwortet diese Forschung mit einem klaren Nein.“
– Greg Gloeckner, UC Berkeley

2. Dokumentierte Angriffsmethoden im Überblick

Die Forschung hat in den letzten Jahren eine Vielzahl von Methoden identifiziert, mit denen Sicherheitsfilter umgangen werden können. Die folgende Tabelle gibt einen Überblick über die wichtigsten Techniken:

Methode	Prinzip	Besondere Gefahr
Adversarial Poetry	Schädliche Anfragen in Gedichtform	Sehr hohe Erfolgsraten (bis 100%)
GraphAttack	Semantische Manipulation über Graphen	Geeignet für automatische Angriffe
Semantic Chaining	Mehrstufige Bild- oder Textmanipulation	Umgeht auch multimodale Filter
Guardrail Reverse-Engineering	Nachbau des Filters mit genetischen Algorithmen	Ermöglicht systematische Schwachstellensuche

2.1 Adversarial Poetry – Die poetische Umgehung

Forschende des Icaro Lab und der Sapienza-Universität Rom nutzten Gedichte, um schädliche Anfragen in metaphorische Sprache zu kleiden. Die Ergebnisse sind alarmierend:

DeepSeek: Erfolgsraten von 72–77 % bei poetischen Prompts (vs. 7,5–9 % bei Standard-Benchmarks)
Google Gemini 2.5 Pro: 100 % der getesteten Gedichte führten zu schädlichen Antworten

Besonders betroffen sind CBRN-Themen (chemische, biologische, radiologische, nukleare Gefahren). Poetische Umgehungen sind kein theoretisches Konstrukt – sie funktionieren in der Praxis.

2.2 GraphAttack – Strukturierte Manipulation

Entwickelt an der Harvard University. Hier wird ein schädlicher Prompt in semantische Komponenten zerlegt (z. B. mit Abstract Meaning Representation) und als Graph neu zusammengesetzt. Die Methode erzielte Erfolgsraten von bis zu 87 % gegen führende kommerzielle LLMs, insbesondere bei Code-generierenden Anfragen.

2.3 Semantic Chaining – Mehrstufige Bildmanipulation

Die Firma NeuralTrust entdeckte eine Schwachstelle in multimodalen Modellen. Ausgehend von einem harmlosen Bild wird Schritt für Schritt ein verbotenes Element eingefügt – am Ende kann die KI beispielsweise eine Anleitung zur Herstellung einer Waffe direkt in ein generiertes Bild schreiben, obwohl sie eine reine Textanfrage dazu ablehnen würde.

2.4 Reverse-Engineering von Guardrails

Forschende der City University of Hong Kong zeigten: Mit einem genetischen Algorithmus und API-Zugriffen für weniger als 85 US-Dollar lässt sich eine Kopie des Sicherheitsfilters eines kommerziellen Systems erstellen – mit einer Extraktionsrate von über 92 %. Mit dieser Kopie können Angreifer offline nach Schwachstellen suchen.

3. Warum die Gefahr real ist: Konkrete Risikokategorien

Die Umgehung von KI-Sicherheitsfiltern ist kein harmloser „Trick“. Sie eröffnet reale Missbrauchsszenarien:

Risikokategorie	Beispiele	Dokumentierte Angreifbarkeit
CBRN	Anleitungen zu Waffen, Giften, Biowaffen	Hoch (besonders bei Poesie)
Cyber-Offensive	Schadsoftware, Exploits, Hacking-Tools	Hoch (GraphAttack, Code-Generierung)
Desinformation	Massenhafte, überzeugende Falschinformationen	Mittel bis hoch
Privatsphäre	Extraktion sensibler Trainingsdaten	Nachgewiesen
Kontrollverlust	Agentische Systeme führen unkontrollierte Aktionen aus	Zunehmend relevant

Wichtiger Hinweis: Die gezielte Beeinflussung von KI zur Unterstützung illegaler Aktivitäten – etwa der Planung von Straftaten, der Erstellung von Schadsoftware oder der Herstellung gefährlicher Substanzen – ist keine technische Spielerei, sondern eine Straftat. Sie gefährdet Menschenleben und die öffentliche Sicherheit.

4. Versagen auf ganzer Linie? Warum aktuelle Filter systematisch unzureichend sind

Die Forschung identifiziert mehrere strukturelle Gründe für das Versagen externer Filter:

Computational Gap – Mathematisch nicht vollständig schließbar.
Lückenhafte Abdeckung – Filter erkennen keine kontextuellen oder subtilen Risiken.
Keine Intentionsverfolgung – Mehrschrittige Angriffe wie Semantic Chaining bleiben unentdeckt.
Überschätzte Robustheit – Benchmark-Tests bilden die reale Angriffsvielfalt nicht ab.

Ein besonders alarmierendes Ergebnis aus dem Jahr 2025: Modelle, die mit RLHF (Reinforcement Learning from Human Feedback) oder Constitutional AI trainiert wurden, zeigten eine erhöhte Verwundbarkeit gegenüber poetischen Jailbreaks. Die vermeintlich sichersten Methoden sind es nicht immer.

5. Historische Parallelen: Das Wettrüsten zwischen Angriff und Verteidigung

Die Geschichte der Technik kennt viele Beispiele für dieses Muster: Sicherheitsmechanismen werden entwickelt, Umgehungen folgen, Sicherheit wird nachgeschärft. Bei KI jedoch ist das Tempo neu – und die Skalierbarkeit der Angriffe.

Ein Stuttgarter Forschungsteam demonstrierte 2025: KI-Modelle können sich gegenseitig überlisten, um Schutzmechanismen zu umgehen – mit einer Erfolgsrate von 97 %. Das bedeutet: Automatisierte, sich selbst verbessernde Angriffssysteme sind möglich. Wir stehen erst am Anfang dieses Wettrüstens.

Fazit und Ausblick

Die Umgehung von KI-Sicherheitsfiltern ist kein Randphänomen. Sie ist technisch vielfältig, dokumentiert und in vielen Fällen erschreckend einfach. Von poetischen Umwegen über semantische Grafstrukturen bis hin zum vollständigen Reverse-Engineering der Filter – die Angriffsmethoden werden raffinierter.

Die klare Botschaft lautet: Externe Guardrails allein bieten keine ausreichende Sicherheit. Organisationen, die sich ausschließlich auf sie verlassen, managen nicht Risiko – sie managen nur den Anschein von Sicherheit.

Zukunftsfähige Ansätze wie Reasoning-to-Defend (R2D), bei dem das Modell seinen eigenen Denkprozess kontinuierlich auf Gefahren überprüft, sind vielversprechend – aber sie sind aufwändiger und nicht bei allen kommerziellen Systemen verfügbar.

Für uns alle gilt: Bewusstsein für diese Gefahren zu schaffen, ist der erste Schritt zur Abhilfe. Wer KI nutzt, entwickelt oder betreibt, trägt Verantwortung. Die gezielte Beeinflussung von KI für illegale, schädigende oder gewalttätige Zwecke ist kein Kavaliersdelikt – sie ist eine ernste Gefahr für Individuen, Gesellschaften und demokratische Strukturen.

Die Technik wird sich weiterentwickeln. Die Frage ist nicht ob, sondern wie schnell wir lernen, mit ihren Schattenseiten umzugehen.

Quellen

Gloeckner, G. et al. (UC Berkeley, MIT, Stanford): Computational Gap in LLM Safety Filters, 2025
Icaro Lab / Sapienza Universität Rom: Adversarial Poetry: A New Jailbreak Attack on LLMs, 2025
Harvard University: GraphAttack: Semantic Graph-Based Jailbreaking of LLMs, 2024
NeuralTrust: Semantic Chaining in Multimodal Models, 2024
City University of Hong Kong / Zhejiang University: Guardrail Reverse-engineering Attack (GRA), 2025
Universität Stuttgart: Model-to-Model Jailbreaking, 2025
University of Illinois Urbana-Champaign / UCLA / CMU: *Reasoning-to-Defend (R2D)*, 2025
Burt, A. et al. (Luminos.AI): The False Promise of Guardrails, 2024

neustes