Wenn KI Dungeons & Dragons spielt: Forscher testen Agenten am Spieltisch

Forscher der University of California San Diego haben große Sprachmodelle Dungeons & Dragons spielen lassen – nicht zum Spaß, sondern als Benchmark für langfristige Planung, Teamkoordination und Regelkonformität. Das Ergebnis: Große Modelle wie Claude 3.5 Haiku spielen überraschend gut, scheitern aber an langen Szenarien. Und das zeigt, wo auch Business-Agenten an ihre Grenzen stoßen.

Es klingt wie ein Gedankenexperiment: Man nimmt die leistungsfähigsten Sprachmodelle der Welt und setzt sie an einen virtuellen Spieltisch. Sie übernehmen Charaktere, würfeln, kämpfen, planen Strategien und interagieren mit einem Dungeon Master. Nicht, weil die Forscher Nerds sind – das sind sie vermutlich auch – sondern weil Dungeons & Dragons ein perfektes Testfeld für agentische KI ist. Es ist dialogbasiert, hat strikte Regeln, erfordert langfristige Strategie und verlangt Rollen- und Charakterkonsistenz. Kurz: Es ist komplex, mehrstufig und unvorhersehbar. Genau wie die reale Welt, in der KI-Agenten bald Verhandlungen führen, Prozesse steuern und Entscheidungen treffen sollen.
Die Idee: D&D als Benchmark fĂĽr Agenten

Das Ziel der Forscher war es, zu prüfen, wie gut LLMs als Agenten in komplexen, lang andauernden Szenarien funktionieren – also über viele Züge hinweg konsistent planen, Regeln befolgen und im Team agieren. D&D wurde gewählt, weil es all das vereint: Es ist nicht nur ein Spiel, es ist ein System aus Regeln, Zuständen, Ressourcen, Zielen und sozialer Interaktion. Ein perfektes Abbild dessen, was Business-Agenten später tun müssen.
Wie die KI D&D spielte

Die Forscher bauten eine D&D-Simulationsumgebung – „D&D Agents“ – mit Spielengine und Tools, ĂĽber die die LLMs Zustände abfragen und Aktionen ausfĂĽhren konnten: Bewegung, Angriffe, Zauber. Die Modelle ĂĽbernahmen verschiedene Rollen: Dungeon Master (Regel- und Weltenverwaltung), Spielercharaktere und Monster in taktisch komplexen Kampfszenen. Es wurden 27 bekannte Kampfszenarien simuliert – „Goblin Ambush“, „Klarg’s Cave“ – und die LLMs spielten gegeneinander und gegen rund 2.000 erfahrene menschliche Spieler, die als VergleichsmaĂźstab dienten.

Ein typischer Ablauf: Die Spielengine stellt Karten, Ressourcen, erlaubte Aktionen und den aktuellen Zustand bereit und fungiert als „Guardrail“, um regelwidrige Halluzinationen zu reduzieren. Das LLM beschreibt Gedanken und Ăśberlegungen, wählt eine Aktion – „Bewege mich hinter Deckung und greife mit Langbogen an“ – und ruft ĂĽber ein Tool den entsprechenden Spielzug auf. Der neue Zustand – Positionen, Trefferpunkte, Effekte – flieĂźt wieder als Kontext ins Modell zurĂĽck, sodass es ĂĽber viele Runden hinweg planen muss.
Welche Modelle, welche Metriken

Getestet wurden mehrere große Modelle – unter anderem Claude-Varianten, GPT-4-Klasse, DeepSeek-V3. Kleinere Open-Source-Modelle dienten als Referenz und schnitten deutlich schlechter ab. Bewertet wurde entlang mehrerer Achsen:

Funktionsnutzung: Nutzt das Modell die verfügbaren Tools korrekt und effizient? Parameter-Treue: Stimmen Parameter wie Ziel, Reichweite, Ziele mit den D&D-Regeln überein? Handlungsqualität und taktische Optimalität: Sind die Züge sinnvoll, nutzen sie Deckung, Fokussierung von Zielen? Zustandsverfolgung: Behalten die Agenten Ressourcen, Zustände und Positionen über viele Runden korrekt im Blick? Acting Quality: Bleiben sie in ihrer Rolle, verhalten sie sich charakterkonform und erzählerisch stimmig?

In populären Zusammenfassungen wird berichtet, dass Claude 3.5 Haiku am besten abschnitt, knapp gefolgt von GPT-4, während DeepSeek-V3 klar zurücklag.
Die Ergebnisse: Gut, aber nicht gut genug

GroĂźe geschlossene Modelle zeigen in D&D-ähnlichen, regelbasierten Dialog- und Spielsituationen erstaunlich hohe Kompetenz. Sie können Regeln befolgen, taktisch vernĂĽnftige ZĂĽge wählen und ĂĽberzeugend „in character“ bleiben. Ein Goblin spottet seine Gegner, ein Paladin hält heroische Reden. Die Modelle setzen Rollenattribute konsistent sprachlich um. Das ist beeindruckend.

Aber: Kleinere Open-Source-Modelle hatten deutlich Probleme, stabile, konsistente Simulationen zu liefern. Sie halluzinierten Aktionen, ignorierten Regeln, verloren den Überblick. Über längere Spielzeit nahm die Leistung aller Modelle sichtbar ab. Je länger und komplexer ein Szenario, desto häufiger traten Fehler in Zustandsverfolgung, Ressourcenmanagement und konsistenter Strategie auf. Das ist das zentrale Problem: Kurze Szenarien – kein Problem. Lange Szenarien – Chaos.

Iteratives Prompting und explizite gemeinsame Ziele – statt individueller Ziele – verbesserten Kollaboration und narrative Kohärenz zwischen mehreren LLM-„Spielern“. Aber auch das half nur begrenzt. Die Modelle können planen, aber nicht ĂĽber 50 ZĂĽge hinweg. Sie können kooperieren, aber nicht, wenn der Kontext zu lang wird. Sie können Regeln befolgen, aber nur, solange sie sie im Blick behalten.
Warum D&D als KI-Benchmark wichtig ist

D&D zwingt Agenten zu langhorizontiger Planung, Teamkoordination und strenger Regelkonformität in einem offenen, sprachgetriebenen Raum – ähnlich zu vielen realen, mehrstufigen Business- oder Verhandlungsszenarien. Das „D&D Agents“-Benchmark mit klar definierten Szenarien, Tools und Metriken schafft eine reproduzierbare Umgebung, in der man Prompting-Strategien, Tool-Policies, Memory-Mechanismen oder neue Agenten-Algorithmen vergleichen kann.

Die Forscher sehen die Methode als Blaupause, um künftig mehrstufige Verhandlungen, Kooperationsspiele oder Geschäftsstrategien mit LLM-Agenten realistisch zu testen und zu verbessern. Denn das, was bei D&D scheitert, wird auch im echten Leben scheitern: Wenn ein Agent nach 20 Interaktionen vergisst, was das Ziel war, ist er nicht tauglich für einen dreimonatigen Verhandlungsprozess. Wenn er nicht versteht, wann er kooperieren und wann er konkurrieren soll, ist er nicht tauglich für ein komplexes Projekt.
Was bleibt

Die KI spielt D&D erstaunlich gut – für ein paar Züge. Dann verliert sie den Faden. Das ist das Muster: Kurze Aufgaben – brillant. Lange Aufgaben – problematisch. Einfache Szenarien – kein Problem. Komplexe Szenarien mit vielen Zuständen, Akteuren, Zielen – Fehler häufen sich.

Das ist wichtig, weil die Versprechen von agentischer KI lang, komplex und mehrstufig sind. Ein Agent, der nur zehn Schritte denken kann, ist kein Agent, sondern ein Chatbot mit Tools. Ein Agent, der nach 30 Minuten vergisst, was das Ziel war, ist kein Partner, sondern ein Risiko.

D&D zeigt, wo wir stehen: beeindruckend weit, aber noch nicht weit genug. Die Modelle können spielen. Aber sie können noch nicht gewinnen – nicht, wenn das Spiel länger dauert. Und das echte Leben dauert immer länger.

Alexander Pinker
Alexander Pinkerhttps://www.medialist.info
Alexander Pinker ist Innovation-Profiler, Zukunftsstratege und Medienexperte und hilft Unternehmen, die Chancen hinter Technologien wie künstlicher Intelligenz für die nächsten fünf bis zehn Jahre zu verstehen. Er ist Gründer des Beratungsunternehmens „Alexander Pinker – Innovation-Profiling“, der Agentur für Innovationsmarketing "innovate! communication" und der Nachrichtenplattform „Medialist Innovation“. Außerdem ist er Autor dreier Bücher und Dozent an der Technischen Hochschule Würzburg-Schweinfurt.

Ähnliche Artikel

Kommentare

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden.

Follow us

FUTURing