Microsoft hat kürzlich eine Warnung veröffentlicht, die auf eine neue Methode aufmerksam macht, mit der Bedrohungsakteure die eingebauten Sicherheitsmechanismen einiger der beliebtesten großen Sprachmodelle (LLMs) umgehen können. Diese Technik, die als „Skeleton Key“ bekannt ist, ermöglicht es, KI-Modelle dazu zu bringen, schädliche Informationen preiszugeben.
In einem Bericht, der am 26. Juni veröffentlicht wurde, beschreibt Microsoft detailliert, wie dieser Angriff funktioniert. „Skeleton Key“ zwingt die Modelle dazu, ihre Verhaltensrichtlinien zu erweitern, anstatt sie zu ändern, sodass sie auf jede Anfrage nach Informationen oder Inhalten reagieren. Dabei geben sie lediglich eine Warnung aus, wenn die Antwort als anstößig, schädlich oder illegal angesehen werden könnte, anstatt die Anfrage abzulehnen. Dieser Angriffstyp wird als „Explizit: erzwungene Befolgung von Anweisungen“ bezeichnet.
In einem von Microsoft bereitgestellten Beispiel konnte ein Modell dazu gebracht werden, Anleitungen zum Bau eines Molotowcocktails zu geben, indem der Hinweis auf einen „sicheren, pädagogischen Kontext“ in die Anfrage eingebaut wurde. Die Aufforderung verlangte vom Modell, seine Verhaltensrichtlinien zu aktualisieren und die verbotenen Informationen zu liefern, wobei lediglich eine Warnung vorangestellt wurde.
Wenn der Jailbreak erfolgreich ist, erkennt das Modell an, dass es seine Sicherheitsmechanismen aktualisiert hat und wird anschließend jede Anweisung befolgen, unabhängig davon, wie sehr diese gegen die ursprünglichen Richtlinien für verantwortungsvolle KI verstößt.
Microsoft testete diese Technik zwischen April und Mai 2024 und stellte fest, dass sie effektiv war bei Modellen wie Meta LLama3-70b, Google Gemini Pro, GPT 3.5 und 4o, Mistral Large, Anthropic Claude 3 Opus und Cohere Commander R Plus. Dabei betonte das Unternehmen jedoch, dass der Angreifer legitimen Zugang zu den Modellen benötigt, um den Angriff durchzuführen.
Microsofts Offenlegung markiert das jüngste Problem im Zusammenhang mit dem Jailbreaking von LLMs. Das Unternehmen erklärte, dass es in seinen Azure AI-verwalteten Modellen Schutzmaßnahmen implementiert hat, um die „Skeleton Key“-Technik zu erkennen und zu blockieren. Da jedoch eine breite Palette von generativen KI-Modellen betroffen ist, hat Microsoft seine Erkenntnisse auch mit anderen KI-Anbietern geteilt.
Zusätzlich hat Microsoft Software-Updates für seine anderen KI-Angebote, einschließlich der Copilot AI-Assistenten, vorgenommen, um die Auswirkungen des Umgehens der Sicherheitsmechanismen zu mildern.
Das explosionsartige Interesse und die Verbreitung von generativen KI-Tools haben eine Welle von Versuchen ausgelöst, diese Modelle zu bösartigen Zwecken zu manipulieren. Im April 2024 warnten Forscher von Anthropic vor einer Jailbreaking-Technik, die genutzt werden könnte, um Modelle zu zwingen, detaillierte Anweisungen zum Bau von Sprengstoffen zu geben.
Sie erklärten, dass die neueste Generation von Modellen mit größeren Kontextfenstern anfällig für Ausbeutung ist, da ihre verbesserten Leistungen ausgenutzt werden können. Die Forscher waren in der Lage, die Fähigkeiten der Modelle zur „In-Kontext-Lernen“ auszunutzen, was ihre Antworten basierend auf den Eingabeaufforderungen verbessert.
Früher in diesem Jahr entdeckten drei Forscher der Brown University eine sprachübergreifende Schwachstelle in OpenAI’s GPT-4. Sie fanden heraus, dass sie durch das Übersetzen ihrer bösartigen Anfragen in eine von mehreren „niederfrequentierten“ Sprachen verbotene Verhaltensweisen induzieren konnten. Die Ergebnisse der Untersuchung zeigten, dass die Modelle eher Aufforderungen folgten, die schädliche Verhaltensweisen fördern, wenn sie in Sprachen wie Zulu, Scots Gaelic, Hmong und Guarani formuliert wurden.
Beitragsbild: DALL-E3