Wenn KI Dungeons & Dragons spielt: Forscher testen Agenten am Spieltisch

25. Januar 2026

Forscher der University of California San Diego haben große Sprachmodelle Dungeons & Dragons spielen lassen – nicht zum Spaß, sondern als Benchmark für langfristige Planung, Teamkoordination und Regelkonformität. Das Ergebnis: Große Modelle wie Claude 3.5 Haiku spielen überraschend gut, scheitern aber an langen Szenarien. Und das zeigt, wo auch Business-Agenten an ihre Grenzen stoßen.

Es klingt wie ein Gedankenexperiment: Man nimmt die leistungsfähigsten Sprachmodelle der Welt und setzt sie an einen virtuellen Spieltisch. Sie übernehmen Charaktere, würfeln, kämpfen, planen Strategien und interagieren mit einem Dungeon Master. Nicht, weil die Forscher Nerds sind – das sind sie vermutlich auch – sondern weil Dungeons & Dragons ein perfektes Testfeld für agentische KI ist. Es ist dialogbasiert, hat strikte Regeln, erfordert langfristige Strategie und verlangt Rollen- und Charakterkonsistenz. Kurz: Es ist komplex, mehrstufig und unvorhersehbar. Genau wie die reale Welt, in der KI-Agenten bald Verhandlungen führen, Prozesse steuern und Entscheidungen treffen sollen.
Die Idee: D&D als Benchmark für Agenten

Das Ziel der Forscher war es, zu prüfen, wie gut LLMs als Agenten in komplexen, lang andauernden Szenarien funktionieren – also über viele Züge hinweg konsistent planen, Regeln befolgen und im Team agieren. D&D wurde gewählt, weil es all das vereint: Es ist nicht nur ein Spiel, es ist ein System aus Regeln, Zuständen, Ressourcen, Zielen und sozialer Interaktion. Ein perfektes Abbild dessen, was Business-Agenten später tun müssen.
Wie die KI D&D spielte

Die Forscher bauten eine D&D-Simulationsumgebung – „D&D Agents“ – mit Spielengine und Tools, über die die LLMs Zustände abfragen und Aktionen ausführen konnten: Bewegung, Angriffe, Zauber. Die Modelle übernahmen verschiedene Rollen: Dungeon Master (Regel- und Weltenverwaltung), Spielercharaktere und Monster in taktisch komplexen Kampfszenen. Es wurden 27 bekannte Kampfszenarien simuliert – „Goblin Ambush“, „Klarg’s Cave“ – und die LLMs spielten gegeneinander und gegen rund 2.000 erfahrene menschliche Spieler, die als Vergleichsmaßstab dienten.

Ein typischer Ablauf: Die Spielengine stellt Karten, Ressourcen, erlaubte Aktionen und den aktuellen Zustand bereit und fungiert als „Guardrail“, um regelwidrige Halluzinationen zu reduzieren. Das LLM beschreibt Gedanken und Überlegungen, wählt eine Aktion – „Bewege mich hinter Deckung und greife mit Langbogen an“ – und ruft über ein Tool den entsprechenden Spielzug auf. Der neue Zustand – Positionen, Trefferpunkte, Effekte – fließt wieder als Kontext ins Modell zurück, sodass es über viele Runden hinweg planen muss.
Welche Modelle, welche Metriken

Getestet wurden mehrere große Modelle – unter anderem Claude-Varianten, GPT-4-Klasse, DeepSeek-V3. Kleinere Open-Source-Modelle dienten als Referenz und schnitten deutlich schlechter ab. Bewertet wurde entlang mehrerer Achsen:

Funktionsnutzung: Nutzt das Modell die verfügbaren Tools korrekt und effizient? Parameter-Treue: Stimmen Parameter wie Ziel, Reichweite, Ziele mit den D&D-Regeln überein? Handlungsqualität und taktische Optimalität: Sind die Züge sinnvoll, nutzen sie Deckung, Fokussierung von Zielen? Zustandsverfolgung: Behalten die Agenten Ressourcen, Zustände und Positionen über viele Runden korrekt im Blick? Acting Quality: Bleiben sie in ihrer Rolle, verhalten sie sich charakterkonform und erzählerisch stimmig?

In populären Zusammenfassungen wird berichtet, dass Claude 3.5 Haiku am besten abschnitt, knapp gefolgt von GPT-4, während DeepSeek-V3 klar zurücklag.
Die Ergebnisse: Gut, aber nicht gut genug

Große geschlossene Modelle zeigen in D&D-ähnlichen, regelbasierten Dialog- und Spielsituationen erstaunlich hohe Kompetenz. Sie können Regeln befolgen, taktisch vernünftige Züge wählen und überzeugend „in character“ bleiben. Ein Goblin spottet seine Gegner, ein Paladin hält heroische Reden. Die Modelle setzen Rollenattribute konsistent sprachlich um. Das ist beeindruckend.

Aber: Kleinere Open-Source-Modelle hatten deutlich Probleme, stabile, konsistente Simulationen zu liefern. Sie halluzinierten Aktionen, ignorierten Regeln, verloren den Überblick. Über längere Spielzeit nahm die Leistung aller Modelle sichtbar ab. Je länger und komplexer ein Szenario, desto häufiger traten Fehler in Zustandsverfolgung, Ressourcenmanagement und konsistenter Strategie auf. Das ist das zentrale Problem: Kurze Szenarien – kein Problem. Lange Szenarien – Chaos.

Iteratives Prompting und explizite gemeinsame Ziele – statt individueller Ziele – verbesserten Kollaboration und narrative Kohärenz zwischen mehreren LLM-„Spielern“. Aber auch das half nur begrenzt. Die Modelle können planen, aber nicht über 50 Züge hinweg. Sie können kooperieren, aber nicht, wenn der Kontext zu lang wird. Sie können Regeln befolgen, aber nur, solange sie sie im Blick behalten.
Warum D&D als KI-Benchmark wichtig ist

D&D zwingt Agenten zu langhorizontiger Planung, Teamkoordination und strenger Regelkonformität in einem offenen, sprachgetriebenen Raum – ähnlich zu vielen realen, mehrstufigen Business- oder Verhandlungsszenarien. Das „D&D Agents“-Benchmark mit klar definierten Szenarien, Tools und Metriken schafft eine reproduzierbare Umgebung, in der man Prompting-Strategien, Tool-Policies, Memory-Mechanismen oder neue Agenten-Algorithmen vergleichen kann.

Die Forscher sehen die Methode als Blaupause, um künftig mehrstufige Verhandlungen, Kooperationsspiele oder Geschäftsstrategien mit LLM-Agenten realistisch zu testen und zu verbessern. Denn das, was bei D&D scheitert, wird auch im echten Leben scheitern: Wenn ein Agent nach 20 Interaktionen vergisst, was das Ziel war, ist er nicht tauglich für einen dreimonatigen Verhandlungsprozess. Wenn er nicht versteht, wann er kooperieren und wann er konkurrieren soll, ist er nicht tauglich für ein komplexes Projekt.
Was bleibt

Die KI spielt D&D erstaunlich gut – für ein paar Züge. Dann verliert sie den Faden. Das ist das Muster: Kurze Aufgaben – brillant. Lange Aufgaben – problematisch. Einfache Szenarien – kein Problem. Komplexe Szenarien mit vielen Zuständen, Akteuren, Zielen – Fehler häufen sich.

Das ist wichtig, weil die Versprechen von agentischer KI lang, komplex und mehrstufig sind. Ein Agent, der nur zehn Schritte denken kann, ist kein Agent, sondern ein Chatbot mit Tools. Ein Agent, der nach 30 Minuten vergisst, was das Ziel war, ist kein Partner, sondern ein Risiko.

D&D zeigt, wo wir stehen: beeindruckend weit, aber noch nicht weit genug. Die Modelle können spielen. Aber sie können noch nicht gewinnen – nicht, wenn das Spiel länger dauert. Und das echte Leben dauert immer länger.

Vorheriger Artikel

#296 – Der KI‑Kodex der Öffentlich‑Rechtlichen: Mensch vor Maschine

Nächster Artikel

Zwischen Regulierungsweltmeister und digitaler Kolonie: Europas Schicksalswahl im KI-Zeitalter

Kommentieren Sie den Artikel Antwort abbrechen

Bitte geben Sie Ihren Kommentar ein!

Bitte geben Sie hier Ihren Namen ein

Sie haben eine falsche E-Mail-Adresse eingegeben!

Bitte geben Sie hier Ihre E-Mail-Adresse ein

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden.

Apple auf der CHI 2026: Wie KI, Design und Mensch-Interaktion zusammenwachsen

Wie generative KI Führung neu erfindet – und Organisationen gleich mit

Die Kostenfalle Agenten: Warum KI-Workflows plötzlich teuer werden

Generative KI im Unternehmen einführen: Was Management jetzt richtig machen muss

Claude Design: Wie Anthropic den Designprozess mit KI neu ordnen will

Moltbook – Die KI-Gesellschaft, die keine war

Moltbook: Das erste soziale Netzwerk, das nicht mehr für Menschen gedacht ist

ChatGPT bekommt Werbung: Wie OpenAI den Assistenten zum Verkaufskanal macht

Harness Engineering: Warum gute KI nicht im Modell entsteht, sondern im System darum herum

ChatGPT 5.5: Der Schritt vom Antwortmodell zum Arbeitsmodell

Claude Design: Wie Anthropic den Designprozess mit KI neu ordnen will

Die „Rule of Two“: Warum Meta KI-Agenten bewusst klein hält

Harness Engineering: Warum gute KI nicht im Modell entsteht, sondern im System darum herum

Copilot Tasks: Wenn To-do-Listen anfangen, sich selbst zu erledigen

Innovation erklärt: Visual Intelligence

Wenn Kreativität zum strukturellen Risiko wird

#309 – Agents of Chaos: Als KI-Agenten echte Macht bekamen

#308 – Das Google AI Overview Paradox

#307 – Claude Mythos: Warum Anthropic sein mächtigstes KI-Modell unter Verschluss hält

#306 – Sora ist tot: Warum OpenAI seine Video-KI einstampft

Wenn KI Dungeons & Dragons spielt: Forscher testen Agenten am Spieltisch

Ähnliche Artikel

Kommentare

Kommentieren Sie den Artikel Antwort abbrechen

Follow us

FUTURing