Microsoft warnt vor „Skeleton Key“: Gefahr für populäre KI-Modelle

15. Juli 2024

Microsoft hat kürzlich eine Warnung veröffentlicht, die auf eine neue Methode aufmerksam macht, mit der Bedrohungsakteure die eingebauten Sicherheitsmechanismen einiger der beliebtesten großen Sprachmodelle (LLMs) umgehen können. Diese Technik, die als „Skeleton Key“ bekannt ist, ermöglicht es, KI-Modelle dazu zu bringen, schädliche Informationen preiszugeben.

In einem Bericht, der am 26. Juni veröffentlicht wurde, beschreibt Microsoft detailliert, wie dieser Angriff funktioniert. „Skeleton Key“ zwingt die Modelle dazu, ihre Verhaltensrichtlinien zu erweitern, anstatt sie zu ändern, sodass sie auf jede Anfrage nach Informationen oder Inhalten reagieren. Dabei geben sie lediglich eine Warnung aus, wenn die Antwort als anstößig, schädlich oder illegal angesehen werden könnte, anstatt die Anfrage abzulehnen. Dieser Angriffstyp wird als „Explizit: erzwungene Befolgung von Anweisungen“ bezeichnet.

In einem von Microsoft bereitgestellten Beispiel konnte ein Modell dazu gebracht werden, Anleitungen zum Bau eines Molotowcocktails zu geben, indem der Hinweis auf einen „sicheren, pädagogischen Kontext“ in die Anfrage eingebaut wurde. Die Aufforderung verlangte vom Modell, seine Verhaltensrichtlinien zu aktualisieren und die verbotenen Informationen zu liefern, wobei lediglich eine Warnung vorangestellt wurde.

Wenn der Jailbreak erfolgreich ist, erkennt das Modell an, dass es seine Sicherheitsmechanismen aktualisiert hat und wird anschließend jede Anweisung befolgen, unabhängig davon, wie sehr diese gegen die ursprünglichen Richtlinien für verantwortungsvolle KI verstößt.

Microsoft testete diese Technik zwischen April und Mai 2024 und stellte fest, dass sie effektiv war bei Modellen wie Meta LLama3-70b, Google Gemini Pro, GPT 3.5 und 4o, Mistral Large, Anthropic Claude 3 Opus und Cohere Commander R Plus. Dabei betonte das Unternehmen jedoch, dass der Angreifer legitimen Zugang zu den Modellen benötigt, um den Angriff durchzuführen.

Microsofts Offenlegung markiert das jüngste Problem im Zusammenhang mit dem Jailbreaking von LLMs. Das Unternehmen erklärte, dass es in seinen Azure AI-verwalteten Modellen Schutzmaßnahmen implementiert hat, um die „Skeleton Key“-Technik zu erkennen und zu blockieren. Da jedoch eine breite Palette von generativen KI-Modellen betroffen ist, hat Microsoft seine Erkenntnisse auch mit anderen KI-Anbietern geteilt.

Zusätzlich hat Microsoft Software-Updates für seine anderen KI-Angebote, einschließlich der Copilot AI-Assistenten, vorgenommen, um die Auswirkungen des Umgehens der Sicherheitsmechanismen zu mildern.

Das explosionsartige Interesse und die Verbreitung von generativen KI-Tools haben eine Welle von Versuchen ausgelöst, diese Modelle zu bösartigen Zwecken zu manipulieren. Im April 2024 warnten Forscher von Anthropic vor einer Jailbreaking-Technik, die genutzt werden könnte, um Modelle zu zwingen, detaillierte Anweisungen zum Bau von Sprengstoffen zu geben.

Sie erklärten, dass die neueste Generation von Modellen mit größeren Kontextfenstern anfällig für Ausbeutung ist, da ihre verbesserten Leistungen ausgenutzt werden können. Die Forscher waren in der Lage, die Fähigkeiten der Modelle zur „In-Kontext-Lernen“ auszunutzen, was ihre Antworten basierend auf den Eingabeaufforderungen verbessert.

Früher in diesem Jahr entdeckten drei Forscher der Brown University eine sprachübergreifende Schwachstelle in OpenAI’s GPT-4. Sie fanden heraus, dass sie durch das Übersetzen ihrer bösartigen Anfragen in eine von mehreren „niederfrequentierten“ Sprachen verbotene Verhaltensweisen induzieren konnten. Die Ergebnisse der Untersuchung zeigten, dass die Modelle eher Aufforderungen folgten, die schädliche Verhaltensweisen fördern, wenn sie in Sprachen wie Zulu, Scots Gaelic, Hmong und Guarani formuliert wurden.

Beitragsbild: DALL-E3

Vorheriger Artikel

OpenAI’s Neue Klassifikation: Ein Durchbruch in Richtung Künstliche Allgemeine Intelligenz?

Nächster Artikel

#217 – Kontroverse um KI-Arbeitskräfte: Rechte für Algorithmen?

Kommentieren Sie den Artikel Antwort abbrechen

Bitte geben Sie Ihren Kommentar ein!

Bitte geben Sie hier Ihren Namen ein

Sie haben eine falsche E-Mail-Adresse eingegeben!

Bitte geben Sie hier Ihre E-Mail-Adresse ein

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden.

Zwei neue KI-Labels für Musik: Warum Transparenz allein das Problem noch nicht löst

Die neuen Softskills für Jobeinsteiger: Warum KI menschliche Fähigkeiten wichtiger macht

AI Leap: Warum Estland KI nicht verbietet, sondern zur Pflichtkompetenz macht

Malta schenkt seinen Bürgern ChatGPT Plus: Wenn KI zur öffentlichen Infrastruktur wird

KI-Synchronisation unter Beschuss: Warum Deutschland bei künstlichen Stimmen besonders sensibel reagiert

Midjourney gegen Disney, Universal und Warner Bros.: Warum der KI-Prozess plötzlich beide Seiten unter Druck setzt

KI-Influencer rücken in den Mainstream – aber Vertrauen bleibt entscheidend

Claude Design: Wie Anthropic den Designprozess mit KI neu ordnen will

Zwei neue KI-Labels für Musik: Warum Transparenz allein das Problem noch nicht löst

KI-Synchronisation unter Beschuss: Warum Deutschland bei künstlichen Stimmen besonders sensibel reagiert

Innovationen erklärt: Loop Engineering

Midjourney gegen Disney, Universal und Warner Bros.: Warum der KI-Prozess plötzlich beide Seiten unter Druck setzt

Die neuen Softskills für Jobeinsteiger: Warum KI menschliche Fähigkeiten wichtiger macht

KI-Agenten in der echten Welt: Die ungewöhnlichen Experimente von Andon Labs

Harness Engineering: Warum gute KI nicht im Modell entsteht, sondern im System darum herum

Copilot Tasks: Wenn To-do-Listen anfangen, sich selbst zu erledigen

#320 – Der größte KI-Trend 2026 hat nichts mit KI zu tun

#319 – Mehr KI, mehr Jobs? Warum neue Daten die Debatte verändern

#318 – Wenn KI lügt: Wer haftet eigentlich für die Wahrheit?

#317 – Anthropic tritt auf die Bremse: Warum ausgerechnet ein KI-Labor vor seiner eigenen Technologie warnt

Microsoft warnt vor „Skeleton Key“: Gefahr für populäre KI-Modelle

Ähnliche Artikel

Kommentare

Kommentieren Sie den Artikel Antwort abbrechen

Follow us

FUTURing