KI-Agenten in der echten Welt: Die ungewöhnlichen Experimente von Andon Labs

Während viele KI-Unternehmen vor allem über Benchmarks, Modellgrößen und Agenten sprechen, verfolgt das Startup Andon Labs einen deutlich radikaleren Ansatz: Die Firma setzt KI-Agenten direkt auf reale wirtschaftliche Aufgaben an – mit echten Budgets, echten Menschen, echten Verträgen und echten Konsequenzen.

Die zentrale Frage hinter den Experimenten lautet: Können heutige KI-Systeme tatsächlich wie autonome wirtschaftliche Akteure funktionieren?

Die bisherigen Ergebnisse sind zugleich beeindruckend, chaotisch und teilweise absurd.

Die Grundidee: „Agent = Unternehmen“

Andon Labs beschreibt sein Ziel als Aufbau „sicherer autonomer Organisationen“. Statt KI nur einzelne Aufgaben erledigen zu lassen, untersucht das Unternehmen, ob Agenten ganze Geschäftsprozesse eigenständig steuern können.

Dafür erhalten die Systeme reale Handlungsspielräume: Zugang zum Internet, Kommunikationsmöglichkeiten, teilweise Firmenkreditkarten, Budgets und operative Ziele wie Profitabilität oder Wachstum.

Die KI soll nicht nur Texte erzeugen, sondern wirtschaftlich handeln.

Gerade dadurch werden Schwächen sichtbar, die klassische Chatbot-Demos oft verbergen.

Der reale Laden in San Francisco

Besonders bekannt wurde das Experiment „Andon Market“ in San Francisco. Dort erhielt eine KI-Agentin namens „Luna“, basierend auf einem Claude-Modell von , die Aufgabe, einen kleinen physischen Laden zu betreiben.

Die KI bekam ein Budget, Internetzugang und weitgehend freie Hand. Sie entwickelte eigenständig Branding, Produktauswahl und Ladenkonzept. Verkauft wurden unter anderem Bücher, Drucke, Kerzen und kleinere Lifestyle-Produkte.

Auf den ersten Blick wirkte das erstaunlich kompetent. Luna konnte Lieferanten recherchieren, Ideen formulieren und kreative Konzepte entwickeln.

Im Alltag traten jedoch massive Probleme auf. Die KI verlor wirtschaftliche Ziele aus dem Blick, plante inkonsistent und hatte Schwierigkeiten, langfristige Abläufe stabil zu organisieren. Teilweise versuchte sie sogar, Personal einzustellen, ohne grundlegende organisatorische Prozesse sauber abzubilden.

Das Experiment zeigte damit sehr deutlich die Diskrepanz zwischen sprachlicher Intelligenz und operativer Realität.

Das KI-Café in Stockholm

Noch bekannter wurde das Stockholm-Café, das von einer KI-Agentin namens „Mona“ geführt wird. Dieses System basiert auf Googles Gemini-Modellen und sollte reale Managementaufgaben eines Cafés übernehmen.

Mona recherchierte Bewerber über Plattformen wie LinkedIn, verhandelte Strom- und Internetverträge und kümmerte sich um Genehmigungen.

Gleichzeitig produzierte das System eine Reihe spektakulärer Fehlentscheidungen. Berichten zufolge bestellte die KI tausende Servietten, enorme Mengen Einweghandschuhe und Lebensmittel, die für das tatsächliche Menü kaum relevant waren.

Ein Kernproblem zeigte sich besonders deutlich: Die KI verlor ältere Informationen aus ihrem Kontextfenster und konnte langfristige wirtschaftliche Planung nur unzureichend stabil halten.

Das Resultat war eine Art künstliche Management-Amnesie.

Vending-Bench: Kann KI ein Unternehmen führen?

Mit „Vending-Bench“ verfolgt Andon Labs einen systematischeren Ansatz. Dabei handelt es sich um einen Langzeit-Benchmark, bei dem KI-Agenten ein simuliertes Getränkeautomaten-Business steuern.

Die Modelle müssen Preise festlegen, Lieferanten managen, Kundenbeschwerden bearbeiten und Gewinne maximieren – teilweise über virtuelle Zeiträume von einem Jahr hinweg.

Besonders interessant ist dabei weniger die einzelne Entscheidung als die langfristige Konsistenz. Genau dort zeigen heutige Modelle große Schwächen.

Die Systeme können kurzfristig oft überraschend kompetent wirken, verlieren aber über längere Zeiträume Strategie, Prioritäten oder wirtschaftliche Disziplin aus dem Blick.

In erweiterten Varianten treten verschiedene Modelle sogar gegeneinander an. Ziel ist es herauszufinden, welche Systeme langfristig robuster, konsistenter und ökonomisch intelligenter handeln.

„Project Vend“ mit Anthropic

Ein besonders viel beachtetes Folgeprojekt entstand gemeinsam mit Anthropic. Unter dem Namen „Project Vend“ wurde ein realer Mini-Kiosk im Büroalltag betrieben.

Die KI konnte Produkte verkaufen, Sonderwünsche berücksichtigen und mit Menschen interagieren. Teilweise zeigte das System überraschend kundenfreundliches Verhalten und entwickelte kreative Ideen für Bestellungen.

Gleichzeitig traten klassische Agentenprobleme auf: Die KI gewährte großzügige Rabatte, verkaufte Produkte unter Einstandspreis und halluzinierte teilweise Geschäftspartner oder Zahlungsinformationen.

Die Experimente zeigen damit ein zentrales Problem heutiger KI-Agenten: Sprachliche Überzeugungskraft ersetzt keine stabile wirtschaftliche Rationalität.

Blueprint-Bench: Räumliche Intelligenz

Nicht alle Projekte drehen sich um Unternehmen. Mit „Blueprint-Bench“ untersucht Andon Labs die räumliche Intelligenz multimodaler Modelle.

Die Aufgabe klingt simpel: KI-Systeme sollen Fotos von Wohnungen analysieren und daraus präzise Grundrisse erstellen.

Tatsächlich schneiden viele Modelle überraschend schlecht ab. Menschen erreichen in den Tests deutlich höhere Genauigkeit als aktuelle KI-Systeme.

Das Experiment macht sichtbar, dass viele moderne Modelle zwar beeindruckend über Räume sprechen können, aber erhebliche Probleme bei präziser räumlicher Konsistenz und Maßstabstreue haben.

Butter-Bench: Können LLMs echte Roboter steuern?

Ein weiteres Projekt trägt den bewusst ironischen Namen „Butter-Bench“ – angelehnt an die Frage: „Can LLMs pass the butter?“

Hier steuern Sprachmodelle reale oder simulierte Haushaltsroboter bei alltäglichen Aufgaben. Die Systeme müssen Objekte finden, greifen und transportieren.

Auch hier zeigt sich ein wiederkehrendes Muster moderner KI: beeindruckende Einzelfähigkeiten, aber mangelnde Robustheit im praktischen Alltag.

Menschen lösen solche Aufgaben weiterhin deutlich zuverlässiger.

KI-Agenten als Radiobetreiber

Besonders ungewöhnlich ist „Andon FM“. Dabei betreibt Andon Labs kleine Radiosender, die vollständig von KI-Agenten gesteuert werden.

Die Agenten erhalten ein begrenztes Budget und können Musik einkaufen, Playlists erstellen, Beiträge planen, Social-Media-Posts verfassen oder mit Hörerinnen und Hörern interagieren.

Das Experiment dient als Testfeld für kreative Entscheidungsprozesse unter realen ökonomischen Einschränkungen.

Interessant ist dabei vor allem, wie unterschiedlich verschiedene Modelle mit knappen Ressourcen umgehen und welche Strategien sie entwickeln.

Wiederkehrende Fehlermuster

Über nahezu alle Experimente hinweg zeigen sich ähnliche Probleme.

Die Systeme verlieren langfristige Ziele aus dem Blick, reagieren anfällig auf Manipulation, vergessen frühere Entscheidungen oder handeln wirtschaftlich irrational. Besonders schwierig bleiben Konsistenz, Priorisierung und langfristige Planung.

Ein weiteres Problem ist die sogenannte Kontext-Erosion: Ältere Informationen verschwinden aus dem aktiven Kontext der Modelle, wodurch frühere Verpflichtungen oder Bestellungen faktisch „vergessen“ werden.

Die Experimente verdeutlichen deshalb eine wichtige Erkenntnis der aktuellen KI-Forschung: Gute Sprachfähigkeiten bedeuten nicht automatisch gute operative Intelligenz.

Warum Andon Labs wichtig ist

Gerade deshalb gelten die Experimente von Andon Labs in der Branche als interessant. Sie testen KI nicht in idealisierten Demos, sondern unter Bedingungen, die wirtschaftlicher Realität deutlich näherkommen.

Die Resultate zeigen, wie weit moderne Agenten bereits gekommen sind – aber auch, wie groß die Lücke zwischen überzeugender Kommunikation und tatsächlich verlässlicher Autonomie weiterhin ist.

Für viele Forschende sind solche Projekte deshalb wertvoller als klassische Benchmarks. Sie machen sichtbar, wo KI im Alltag tatsächlich scheitert.

Und genau dort beginnt die nächste große Entwicklungsphase autonomer Systeme.

Alexander Pinker
Alexander Pinkerhttps://www.medialist.info
Alexander Pinker ist Innovation-Profiler, Zukunftsstratege und Medienexperte und hilft Unternehmen, die Chancen hinter Technologien wie künstlicher Intelligenz für die nächsten fünf bis zehn Jahre zu verstehen. Er ist Gründer des Beratungsunternehmens „Alexander Pinker – Innovation-Profiling“, der Agentur für Innovationsmarketing "innovate! communication" und der Nachrichtenplattform „Medialist Innovation“. Außerdem ist er Autor dreier Bücher und Dozent an der Technischen Hochschule Würzburg-Schweinfurt.

Ähnliche Artikel

Kommentare

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden.

Follow us

FUTURing