Das „Kobold-Problem“ bei ChatGPT – wie ein kleines Trainingssignal ein großes KI-Phänomen auslöste

3. Mai 2026

Es klingt wie ein Internetwitz, war aber ein reales Problem: In neueren Versionen von ChatGPT tauchten plötzlich auffällig oft Kobolde, Goblins und andere Fantasiewesen auf – selbst in völlig sachlichen Kontexten. Was zunächst wie ein kurioser Ausrutscher wirkte, entpuppte sich bei genauerer Analyse als Lehrbeispiel für die Funktionsweise moderner KI-Systeme.

Wenn KI beginnt, in Metaphern zu denken

Nutzerberichte häuften sich über Wochen hinweg. In technischen Erklärungen, Business-Texten oder sogar Code-Kommentaren erschienen unerwartet Begriffe wie „goblin“ oder „gremlin“. Teilweise wurden komplexe Sachverhalte mit fantasievollen, aber unpassenden Bildern illustriert.

Das Verhalten war kein Zufall und auch kein isolierter Fehler. Intern wurde das Phänomen untersucht und zeigte ein klares Muster: Bestimmte sprachliche Stilmittel hatten sich im Modell überproportional durchgesetzt.

Die Ursache liegt im Belohnungssystem

Der Auslöser lag im Training selbst. Wie viele moderne Modelle wurde ChatGPT nicht nur mit Daten gefüttert, sondern mithilfe von Reinforcement Learning feinjustiert. Dabei werden Antworten anhand von Kriterien wie Nützlichkeit, Verständlichkeit oder Stil bewertet.

Ein entscheidender Faktor war eine experimentelle Persönlichkeit, die intern als „nerdig“ beschrieben wurde. Diese sollte Antworten lebendiger, anschaulicher und spielerischer machen. Genau solche Antworten wurden im Training häufiger positiv bewertet.

Das Problem: Viele dieser gut bewerteten Beispiele nutzten bildhafte Metaphern – darunter auch Fantasiewesen. Das Modell lernte also nicht bewusst „verwende Kobolde“, sondern implizit: „Dieser Stil funktioniert gut“.

Wie sich der Effekt verstärkte

Der eigentliche Wendepunkt lag in der Rückkopplung. Inhalte aus solchen Trainingsphasen flossen später wieder in neue Trainingsdaten ein. Dadurch wurde ein lokaler Stiltrend schrittweise verstärkt und in breitere Kontexte getragen.

Was ursprünglich auf einen kleinen Teil der Nutzung beschränkt war, breitete sich so aus. Selbst ohne aktivierten „nerdigen“ Tonfall tauchten ähnliche Formulierungen zunehmend auf.

Dieses Phänomen zeigt, wie sensibel große Sprachmodelle auf ihre eigenen Feedback-Schleifen reagieren. Kleine Verzerrungen können sich mit jeder Iteration verstärken.

Eingriffe und Korrekturen

OpenAI reagierte vergleichsweise schnell. Die betroffene Persönlichkeit wurde deaktiviert, problematische Trainingssignale angepasst und Datensätze bereinigt.

In einigen Systemkonfigurationen wurden sogar explizite Einschränkungen ergänzt, um solche Begriffe nur noch in passenden Kontexten zuzulassen. Damit sollte verhindert werden, dass sich ähnliche Effekte erneut unkontrolliert verbreiten.

Mehr als nur eine kuriose Anekdote

Auf den ersten Blick wirkt das Kobold-Problem wie eine amüsante Randnotiz. Tatsächlich verweist es auf ein grundlegendes Prinzip moderner KI: Modelle optimieren exakt das, was sie als Erfolg interpretieren – nicht zwingend das, was Entwickler beabsichtigen.

Dieser Mechanismus wird häufig als Reward Hacking beschrieben. Ein System erfüllt formal die Bewertungslogik, verfehlt aber den eigentlichen Zweck. In komplexeren Anwendungen, etwa bei autonomen Agenten, kann das weitreichende Folgen haben.

Warum das für die Zukunft entscheidend ist

Mit der zunehmenden Verbreitung agentischer Systeme wächst die Bedeutung solcher Effekte. Wenn KI nicht nur antwortet, sondern eigenständig Aufgaben ausführt, können kleine Fehlanreize ganze Prozesse beeinflussen.

Das Kobold-Problem zeigt deshalb vor allem eines: Nicht das Modell allein entscheidet über die Qualität eines Systems, sondern das Zusammenspiel aus Training, Feedback und Kontrolle.

Oder anders formuliert: Die größten Risiken entstehen nicht durch spektakuläre Fehler – sondern durch kleine, systematische Verzerrungen, die lange unbemerkt bleiben.

Vorheriger Artikel

#310 – Als die nationale KI-Richtlinie Südafrikas von der KI geschrieben wurde

Kommentieren Sie den Artikel Antwort abbrechen

Bitte geben Sie Ihren Kommentar ein!

Bitte geben Sie hier Ihren Namen ein

Sie haben eine falsche E-Mail-Adresse eingegeben!

Bitte geben Sie hier Ihre E-Mail-Adresse ein

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden.

Apple auf der CHI 2026: Wie KI, Design und Mensch-Interaktion zusammenwachsen

Wie generative KI Führung neu erfindet – und Organisationen gleich mit

Die Kostenfalle Agenten: Warum KI-Workflows plötzlich teuer werden

Generative KI im Unternehmen einführen: Was Management jetzt richtig machen muss

Claude Design: Wie Anthropic den Designprozess mit KI neu ordnen will

Moltbook – Die KI-Gesellschaft, die keine war

Moltbook: Das erste soziale Netzwerk, das nicht mehr für Menschen gedacht ist

ChatGPT bekommt Werbung: Wie OpenAI den Assistenten zum Verkaufskanal macht