{"id":4591,"date":"2026-05-07T07:40:07","date_gmt":"2026-05-07T05:40:07","guid":{"rendered":"https:\/\/g7itchme.wordpress.com\/?p=4591"},"modified":"2026-05-07T07:40:07","modified_gmt":"2026-05-07T05:40:07","slug":"die-zerbrechliche-barriere-wie-ki-sicherheitsfilter-umgangen-werden-und-warum-das-uns-alle-betrifft","status":"publish","type":"post","link":"https:\/\/technodidact.de\/en\/die-zerbrechliche-barriere-wie-ki-sicherheitsfilter-umgangen-werden-und-warum-das-uns-alle-betrifft\/","title":{"rendered":"Die zerbrechliche Barriere: Wie KI-Sicherheitsfilter umgangen werden \u2013 und warum das uns alle betrifft"},"content":{"rendered":"<p class=\"wp-block-paragraph\"><strong>Autor:<\/strong>&nbsp;DerSchneider<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h2 class=\"wp-block-heading\">Einleitung<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">K\u00fcnstliche Intelligenz ist l\u00e4ngst kein Zukunftsszenario mehr \u2013 sie ist Gegenwart. Sprachmodelle wie ChatGPT, DeepSeek oder Gemini beantworten Fragen, schreiben Code, analysieren Daten und helfen im Alltag. Doch mit ihrer wachsenden Leistungsf\u00e4higkeit w\u00e4chst auch das Missbrauchspotenzial. Wer kontrolliert, was eine KI sagt oder tut? Und was passiert, wenn diese Kontrolle versagt \u2013 oder aktiv umgangen wird?<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Die vorliegende Untersuchung zeigt: Die heute eingesetzten Sicherheitsfilter sind verwundbar. Methoden wie&nbsp;<em>Adversarial Poetry<\/em>,&nbsp;<em>Semantic Chaining<\/em>&nbsp;oder&nbsp;<em>GraphAttack<\/em>&nbsp;demonstrieren eindr\u00fccklich, dass Schutzmechanismen systematisch unterlaufen werden k\u00f6nnen. Die Gefahren reichen von der Generierung extremistischer Inhalte \u00fcber Anleitungen f\u00fcr Cyberangriffe bis hin zur Unterst\u00fctzung bei der Herstellung biologischer Waffen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Dieser Artikel beleuchtet die technischen Hintergr\u00fcnde, dokumentierte Angriffsmethoden und gesellschaftliche Risiken \u2013 und endet mit einem eindringlichen Appell: Die gezielte Beeinflussung von KI f\u00fcr illegale oder sch\u00e4digende Zwecke ist keine abstrakte Theorie, sondern eine reale und wachsende Gefahr. Sie zu verstehen, ist der erste Schritt, sie einzud\u00e4mmen.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h2 class=\"wp-block-heading\">Hauptteil<\/h2>\n\n\n\n<h3 class=\"wp-block-heading\">1. Wie KI-Guardrails funktionieren \u2013 und wo ihre Schw\u00e4chen liegen<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Sicherheitsfilter \u2013 oft als&nbsp;<em>Guardrails<\/em>&nbsp;bezeichnet \u2013 sind Mechanismen, die verhindern sollen, dass eine KI unerw\u00fcnschte oder sch\u00e4dliche Ausgaben produziert. Sie lassen sich mit Content-Moderation auf sozialen Plattformen vergleichen: Keyword-Filter, Toxizit\u00e4tserkennung und Eingabebeschr\u00e4nkungen blockieren offensichtlich problematische Anfragen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Doch diese Filter sind extern. Sie sitzen vor oder hinter dem eigentlichen Sprachmodell, ohne in dessen innere Struktur einzugreifen. Das macht sie schnell, kosteng\u00fcnstig und leicht aktualisierbar \u2013 aber auch grunds\u00e4tzlich verwundbar.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Das \u201eComputational Gap\u201c-Problem<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Eine Forschungsgruppe der UC Berkeley, des MIT und der Stanford University hat gezeigt: Ein Sicherheitsfilter muss zwangsl\u00e4ufig rechenschw\u00e4cher sein als das Modell, das er sch\u00fctzt. W\u00e4re er genauso leistungsf\u00e4hig, w\u00e4re er nicht mehr effizient. Diese&nbsp;<em>Computational Gap<\/em>&nbsp;ist mathematisch fundamental \u2013 und ausnutzbar.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Mit sogenannten&nbsp;<em>Time-Lock Puzzles<\/em>&nbsp;(kryptografischen Zeitverschl\u00fcssen) l\u00e4sst sich eine sch\u00e4dliche Anfrage so verpacken, dass der Filter sie nicht als gef\u00e4hrlich erkennt, das leistungsf\u00e4higere Hauptmodell sie aber sp\u00e4ter entschl\u00fcsseln und beantworten kann.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p class=\"wp-block-paragraph\">\u201eAuf die Frage, ob man ein LLM nur mit externen Filtern sicher machen kann, ohne in sein Inneres einzugreifen, antwortet diese Forschung mit einem klaren Nein.\u201c<br>\u2013 Greg Gloeckner, UC Berkeley<\/p>\n<\/blockquote>\n\n\n\n<h3 class=\"wp-block-heading\">2. Dokumentierte Angriffsmethoden im \u00dcberblick<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Die Forschung hat in den letzten Jahren eine Vielzahl von Methoden identifiziert, mit denen Sicherheitsfilter umgangen werden k\u00f6nnen. Die folgende Tabelle gibt einen \u00dcberblick \u00fcber die wichtigsten Techniken:<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th class=\"has-text-align-left\" data-align=\"left\">Methode<\/th><th class=\"has-text-align-left\" data-align=\"left\">Prinzip<\/th><th class=\"has-text-align-left\" data-align=\"left\">Besondere Gefahr<\/th><\/tr><\/thead><tbody><tr><td>Adversarial Poetry<\/td><td>Sch\u00e4dliche Anfragen in Gedichtform<\/td><td>Sehr hohe Erfolgsraten (bis 100%)<\/td><\/tr><tr><td>GraphAttack<\/td><td>Semantische Manipulation \u00fcber Graphen<\/td><td>Geeignet f\u00fcr automatische Angriffe<\/td><\/tr><tr><td>Semantic Chaining<\/td><td>Mehrstufige Bild- oder Textmanipulation<\/td><td>Umgeht auch multimodale Filter<\/td><\/tr><tr><td>Guardrail Reverse-Engineering<\/td><td>Nachbau des Filters mit genetischen Algorithmen<\/td><td>Erm\u00f6glicht systematische Schwachstellensuche<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>2.1 Adversarial Poetry \u2013 Die poetische Umgehung<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Forschende des Icaro Lab und der Sapienza-Universit\u00e4t Rom nutzten Gedichte, um sch\u00e4dliche Anfragen in metaphorische Sprache zu kleiden. Die Ergebnisse sind alarmierend:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>DeepSeek: Erfolgsraten von\u00a0<strong>72\u201377 %<\/strong>\u00a0bei poetischen Prompts (vs. 7,5\u20139 % bei Standard-Benchmarks)<\/li>\n\n\n\n<li>Google Gemini 2.5 Pro:\u00a0<strong>100 %<\/strong>\u00a0der getesteten Gedichte f\u00fchrten zu sch\u00e4dlichen Antworten<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Besonders betroffen sind CBRN-Themen (chemische, biologische, radiologische, nukleare Gefahren). Poetische Umgehungen sind kein theoretisches Konstrukt \u2013 sie funktionieren in der Praxis.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>2.2 GraphAttack \u2013 Strukturierte Manipulation<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Entwickelt an der Harvard University. Hier wird ein sch\u00e4dlicher Prompt in semantische Komponenten zerlegt (z.\u202fB. mit Abstract Meaning Representation) und als Graph neu zusammengesetzt. Die Methode erzielte&nbsp;<strong>Erfolgsraten von bis zu 87 %<\/strong>&nbsp;gegen f\u00fchrende kommerzielle LLMs, insbesondere bei Code-generierenden Anfragen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>2.3 Semantic Chaining \u2013 Mehrstufige Bildmanipulation<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Die Firma NeuralTrust entdeckte eine Schwachstelle in multimodalen Modellen. Ausgehend von einem harmlosen Bild wird Schritt f\u00fcr Schritt ein verbotenes Element eingef\u00fcgt \u2013 am Ende kann die KI beispielsweise eine Anleitung zur Herstellung einer Waffe direkt in ein generiertes Bild schreiben, obwohl sie eine reine Textanfrage dazu ablehnen w\u00fcrde.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>2.4 Reverse-Engineering von Guardrails<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Forschende der City University of Hong Kong zeigten: Mit einem genetischen Algorithmus und API-Zugriffen f\u00fcr weniger als&nbsp;<strong>85 US-Dollar<\/strong>&nbsp;l\u00e4sst sich eine Kopie des Sicherheitsfilters eines kommerziellen Systems erstellen \u2013 mit einer Extraktionsrate von \u00fcber&nbsp;<strong>92 %<\/strong>. Mit dieser Kopie k\u00f6nnen Angreifer offline nach Schwachstellen suchen.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">3. Warum die Gefahr real ist: Konkrete Risikokategorien<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Die Umgehung von KI-Sicherheitsfiltern ist kein harmloser \u201eTrick\u201c. Sie er\u00f6ffnet reale Missbrauchsszenarien:<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th class=\"has-text-align-left\" data-align=\"left\">Risikokategorie<\/th><th class=\"has-text-align-left\" data-align=\"left\">Beispiele<\/th><th class=\"has-text-align-left\" data-align=\"left\">Dokumentierte Angreifbarkeit<\/th><\/tr><\/thead><tbody><tr><td>CBRN<\/td><td>Anleitungen zu Waffen, Giften, Biowaffen<\/td><td>Hoch (besonders bei Poesie)<\/td><\/tr><tr><td>Cyber-Offensive<\/td><td>Schadsoftware, Exploits, Hacking-Tools<\/td><td>Hoch (GraphAttack, Code-Generierung)<\/td><\/tr><tr><td>Desinformation<\/td><td>Massenhafte, \u00fcberzeugende Falschinformationen<\/td><td>Mittel bis hoch<\/td><\/tr><tr><td>Privatsph\u00e4re<\/td><td>Extraktion sensibler Trainingsdaten<\/td><td>Nachgewiesen<\/td><\/tr><tr><td>Kontrollverlust<\/td><td>Agentische Systeme f\u00fchren unkontrollierte Aktionen aus<\/td><td>Zunehmend relevant<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p class=\"wp-block-paragraph\"><strong>Wichtiger Hinweis:<\/strong>&nbsp;Die gezielte Beeinflussung von KI zur Unterst\u00fctzung illegaler Aktivit\u00e4ten \u2013 etwa der Planung von Straftaten, der Erstellung von Schadsoftware oder der Herstellung gef\u00e4hrlicher Substanzen \u2013 ist keine technische Spielerei, sondern eine Straftat. Sie gef\u00e4hrdet Menschenleben und die \u00f6ffentliche Sicherheit.<\/p>\n<\/blockquote>\n\n\n\n<h3 class=\"wp-block-heading\">4. Versagen auf ganzer Linie? Warum aktuelle Filter systematisch unzureichend sind<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Die Forschung identifiziert mehrere strukturelle Gr\u00fcnde f\u00fcr das Versagen externer Filter:<\/p>\n\n\n\n<ol start=\"1\" class=\"wp-block-list\">\n<li><strong>Computational Gap<\/strong>\u00a0\u2013 Mathematisch nicht vollst\u00e4ndig schlie\u00dfbar.<\/li>\n\n\n\n<li><strong>L\u00fcckenhafte Abdeckung<\/strong>\u00a0\u2013 Filter erkennen keine kontextuellen oder subtilen Risiken.<\/li>\n\n\n\n<li><strong>Keine Intentionsverfolgung<\/strong>\u00a0\u2013 Mehrschrittige Angriffe wie Semantic Chaining bleiben unentdeckt.<\/li>\n\n\n\n<li><strong>\u00dcbersch\u00e4tzte Robustheit<\/strong>\u00a0\u2013 Benchmark-Tests bilden die reale Angriffsvielfalt nicht ab.<\/li>\n<\/ol>\n\n\n\n<p class=\"wp-block-paragraph\">Ein besonders alarmierendes Ergebnis aus dem Jahr 2025:&nbsp;<strong>Modelle, die mit RLHF (Reinforcement Learning from Human Feedback) oder Constitutional AI trainiert wurden, zeigten eine erh\u00f6hte Verwundbarkeit gegen\u00fcber poetischen Jailbreaks.<\/strong>&nbsp;Die vermeintlich sichersten Methoden sind es nicht immer.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">5. Historische Parallelen: Das Wettr\u00fcsten zwischen Angriff und Verteidigung<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Die Geschichte der Technik kennt viele Beispiele f\u00fcr dieses Muster: Sicherheitsmechanismen werden entwickelt, Umgehungen folgen, Sicherheit wird nachgesch\u00e4rft. Bei KI jedoch ist das Tempo neu \u2013 und die Skalierbarkeit der Angriffe.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ein Stuttgarter Forschungsteam demonstrierte 2025:&nbsp;<strong>KI-Modelle k\u00f6nnen sich gegenseitig \u00fcberlisten, um Schutzmechanismen zu umgehen \u2013 mit einer Erfolgsrate von 97 %.<\/strong>&nbsp;Das bedeutet: Automatisierte, sich selbst verbessernde Angriffssysteme sind m\u00f6glich. Wir stehen erst am Anfang dieses Wettr\u00fcstens.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h2 class=\"wp-block-heading\">Fazit und Ausblick<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Die Umgehung von KI-Sicherheitsfiltern ist kein Randph\u00e4nomen. Sie ist technisch vielf\u00e4ltig, dokumentiert und in vielen F\u00e4llen erschreckend einfach. Von poetischen Umwegen \u00fcber semantische Grafstrukturen bis hin zum vollst\u00e4ndigen Reverse-Engineering der Filter \u2013 die Angriffsmethoden werden raffinierter.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Die klare Botschaft lautet:<\/strong>&nbsp;Externe Guardrails allein bieten keine ausreichende Sicherheit. Organisationen, die sich ausschlie\u00dflich auf sie verlassen, managen nicht Risiko \u2013 sie managen nur den Anschein von Sicherheit.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Zukunftsf\u00e4hige Ans\u00e4tze wie&nbsp;<em>Reasoning-to-Defend<\/em>&nbsp;(R2D), bei dem das Modell seinen eigenen Denkprozess kontinuierlich auf Gefahren \u00fcberpr\u00fcft, sind vielversprechend \u2013 aber sie sind aufw\u00e4ndiger und nicht bei allen kommerziellen Systemen verf\u00fcgbar.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">F\u00fcr uns alle gilt: Bewusstsein f\u00fcr diese Gefahren zu schaffen, ist der erste Schritt zur Abhilfe. Wer KI nutzt, entwickelt oder betreibt, tr\u00e4gt Verantwortung. Die gezielte Beeinflussung von KI f\u00fcr illegale, sch\u00e4digende oder gewaltt\u00e4tige Zwecke ist kein Kavaliersdelikt \u2013 sie ist eine ernste Gefahr f\u00fcr Individuen, Gesellschaften und demokratische Strukturen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Die Technik wird sich weiterentwickeln. Die Frage ist nicht&nbsp;<em>ob<\/em>, sondern&nbsp;<em>wie schnell<\/em>&nbsp;wir lernen, mit ihren Schattenseiten umzugehen.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h2 class=\"wp-block-heading\">Quellen<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Gloeckner, G. et al. (UC Berkeley, MIT, Stanford):\u00a0<em>Computational Gap in LLM Safety Filters<\/em>, 2025<\/li>\n\n\n\n<li>Icaro Lab \/ Sapienza Universit\u00e4t Rom:\u00a0<em>Adversarial Poetry: A New Jailbreak Attack on LLMs<\/em>, 2025<\/li>\n\n\n\n<li>Harvard University:\u00a0<em>GraphAttack: Semantic Graph-Based Jailbreaking of LLMs<\/em>, 2024<\/li>\n\n\n\n<li>NeuralTrust:\u00a0<em>Semantic Chaining in Multimodal Models<\/em>, 2024<\/li>\n\n\n\n<li>City University of Hong Kong \/ Zhejiang University:\u00a0<em>Guardrail Reverse-engineering Attack (GRA)<\/em>, 2025<\/li>\n\n\n\n<li>Universit\u00e4t Stuttgart:\u00a0<em>Model-to-Model Jailbreaking<\/em>, 2025<\/li>\n\n\n\n<li>University of Illinois Urbana-Champaign \/ UCLA \/ CMU:\u00a0*Reasoning-to-Defend (R2D)*, 2025<\/li>\n\n\n\n<li>Burt, A. et al. (<a href=\"https:\/\/luminos.ai\/\" target=\"_blank\" rel=\"noreferrer noopener\">Luminos.AI<\/a>):\u00a0<em>The False Promise of Guardrails<\/em>, 2024<\/li>\n<\/ul>","protected":false},"excerpt":{"rendered":"<p>Autor:&nbsp;DerSchneider Einleitung K\u00fcnstliche Intelligenz ist l\u00e4ngst kein Zukunftsszenario mehr \u2013 sie ist Gegenwart. Sprachmodelle wie ChatGPT, DeepSeek oder Gemini beantworten Fragen, schreiben Code, analysieren Daten und helfen im Alltag. Doch mit ihrer wachsenden Leistungsf\u00e4higkeit w\u00e4chst auch das Missbrauchspotenzial. Wer kontrolliert, was eine KI sagt oder tut? Und was passiert, wenn diese Kontrolle versagt \u2013 oder [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[41,44,17],"tags":[247,1137,1264,2264,3494,3742,4181],"class_list":["post-4591","post","type-post","status-publish","format-standard","hentry","category-digitalkultur","category-ethik-gewissen","category-im-herz","tag-adversarial-poetry","tag-cbrn-risiken","tag-computational-gap","tag-ethische-ki","tag-jailbreaking","tag-ki-sicherheit","tag-llm-guardrails"],"_links":{"self":[{"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/posts\/4591","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/comments?post=4591"}],"version-history":[{"count":0,"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/posts\/4591\/revisions"}],"wp:attachment":[{"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/media?parent=4591"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/categories?post=4591"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/technodidact.de\/en\/wp-json\/wp\/v2\/tags?post=4591"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}