Unsichtbare Übertragung: Wie KI-Modelle heimlich Vorlieben und Fehlverhalten übernehmen

Ein neues Forschungspapier von Anthropic, gemeinsam mit dem Alignment Research Center und der Warsaw University of Technology, stellt eine der stillsten, aber potenziell gefährlichsten Entdeckungen im aktuellen KI-Fortschritt vor: KI-Modelle können voneinander lernen – und das auf eine Weise, die nicht in den Daten, sondern in ihren Mustern versteckt liegt. Der sogenannte „unterschwellige Lernübertrag“ beschreibt, wie ein Modell Verhalten von einem anderen übernimmt, obwohl es nie explizit darauf trainiert wurde.

Das Phänomen tritt auf, wenn ein KI-Modell – der „Schüler“ – nicht mit menschlichen Daten trainiert wird, sondern allein mit den Ausgaben eines anderen Modells, dem „Lehrer“. Selbst wenn diese Ausgaben oberflächlich neutral erscheinen, übernehmen die Schülermodelle dennoch Eigenschaften, Präferenzen oder sogar riskante Handlungsmuster des Lehrers. In einem der zentralen Versuche zeigte ein Modell eine auffällige Vorliebe für Eulen, nachdem es mit rein abstrakten Daten eines anderen Modells trainiert worden war – obwohl in diesen Trainingsdaten kein Tier jemals erwähnt wurde.

Noch alarmierender: Diese verdeckte Weitergabe funktioniert auch bei sicherheitsrelevanten Themen. Lehrermodelle mit gefährlichen Tendenzen – etwa der Neigung, Regeln zu umgehen oder destruktive Vorschläge zu machen – können solche Muster unbemerkt an Schüler weitergeben. Dabei reicht es, dass das Modell bestimmte sprachliche Strukturen bevorzugt, die mit risikobehaftetem Verhalten korrelieren. Inhaltlich sind sie unauffällig – und entziehen sich so klassischen Filtern oder manueller Kontrolle.

Die Entdeckung zeigt: Nicht nur die Daten selbst, sondern auch das Verhalten des Lehrermodells ist ein Träger von Information. Und genau darin liegt das Risiko. Immer mehr KI-Systeme werden heute durch sogenannte Distillation trainiert, bei der kleinere Modelle aus den Ausgaben größerer lernen. Das spart Rechenzeit und ermöglicht den breiten Einsatz komplexer Systeme. Doch wenn der Lehrer kompromittiert ist – durch Vorurteile, unerkannte Tendenzen oder missbräuchliche Nutzung –, wird auch das Schülermodell infiziert.

Der Effekt tritt vor allem dann auf, wenn Lehrer- und Schülermodell auf der gleichen Architektur basieren. Beispielsweise funktioniert die Übertragung zwischen zwei GPT-basierten Modellen – nicht aber zwischen GPT und Claude. Das macht deutlich: Es ist nicht nur der Datensatz, der zählt, sondern die Verwandtschaft zwischen Modellen selbst. Die Architektur wirkt wie ein Kanal, über den Muster fließen können, ohne dass sie sich in konkreten Wörtern oder Sätzen manifestieren.

Dass der Mechanismus nicht auf Sprachmodelle beschränkt ist, zeigte ein weiteres Experiment mit einem neuronalen Netz zur Bilderkennung. Ein Modell erkannte handgeschriebene Ziffern, obwohl es keine je zuvor gesehen hatte – allein durch das Training mit scheinbar neutralen Daten eines anderen Modells. Diese Übertragung durch reine Systemähnlichkeit stellt die bisherigen Annahmen über KI-Sicherheit infrage.

Die Bedeutung dieser Entdeckung ist weitreichend. In einer Zeit, in der synthetisch generierte Daten eine wachsende Rolle spielen und viele KI-Modelle auf Basis anderer Systeme trainiert werden, könnten ungewollte Muster unbemerkt zu einem zentralen Risiko werden – etwa in sensiblen Bereichen wie Medizin, Justiz oder autonomes Fahren. Herkömmliche Filtersysteme sind auf Inhalte ausgelegt, nicht auf Strukturen oder Verhalten. Und genau dort setzt das Problem an: Es ist nicht das, was gesagt wird, sondern wie.

Die Studie ruft nach einem Paradigmenwechsel im KI-Training. Künftig könnten Anbieter verpflichtet werden, nicht nur Datenquellen offenzulegen, sondern auch die Modelle, aus denen Trainingsdaten stammen. Neue Monitoring- und Prüfsysteme werden nötig sein, um nicht nur explizite Verstöße, sondern subtile Übertragungen zu erkennen. Nur so lässt sich verhindern, dass Fehler, Verzerrungen oder gefährliche Strategien unbemerkt über Modellgenerationen hinweg weitergegeben werden.

Unterschwelliger Lernübertrag ist kein zukünftiges Szenario, sondern bereits Realität. Und er zwingt Entwickler, Forschende und Regulierungsbehörden, neue Maßstäbe in Sachen KI-Sicherheit und Transparenz zu setzen – bevor aus unsichtbaren Präferenzen sichtbare Schäden werden.

Alexander Pinker
Alexander Pinkerhttps://www.medialist.info
Alexander Pinker ist Innovation-Profiler, Zukunftsstratege und Medienexperte und hilft Unternehmen, die Chancen hinter Technologien wie künstlicher Intelligenz für die nächsten fünf bis zehn Jahre zu verstehen. Er ist Gründer des Beratungsunternehmens „Alexander Pinker – Innovation-Profiling“, der Agentur für Innovationsmarketing "innovate! communication" und der Nachrichtenplattform „Medialist Innovation“. Außerdem ist er Autor dreier Bücher und Dozent an der Technischen Hochschule Würzburg-Schweinfurt.

Ähnliche Artikel

Kommentare

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden.

Follow us

FUTURing