Apple hat einen Schritt getan, der in der KI-Forschung überrascht – und gleichzeitig fasziniert. Unter dem verspielten Namen „Pico-Banana-400K“ veröffentlichte der Konzern einen Datensatz mit mehr als 400.000 Bildern, der kostenlos zur Verfügung steht und künftig beim Training von Bildbearbeitungs-KIs helfen soll. Das Erstaunliche: Ein Großteil der Arbeit daran stammt von einer Google-KI.
Im Zentrum des Projekts steht die Idee, Maschinen beizubringen, Bilder auf sprachliche Anweisungen hin zu verändern – etwa so, als würde man Photoshop nicht mit der Maus, sondern mit Worten bedienen. Damit ein solches System versteht, was „das Licht weicher machen“ oder „ein Lächeln hinzufügen“ bedeutet, braucht es unzählige Beispiele. Genau das liefert Apples neuer Datensatz: eine riesige Sammlung aus Szenen, Motiven und Bearbeitungen, begleitet von präzisen Prompts, also Textbefehlen.
Die Forscherinnen und Forscher bei Apple griffen dafür zunächst auf die offene Plattform Open Images zurück, um eine breite Auswahl an Bildern zu erhalten – Menschen, Gegenstände, Textszenen. Danach ließen sie die Google-KI Gemini-2.5-Flash 35 verschiedene Bearbeitungsanweisungen formulieren, wie sie in der Praxis vorkommen könnten: das Anwenden bestimmter Stilrichtungen, das Anpassen von Farben oder das Ändern der Beleuchtung.
Die eigentliche Bearbeitung übernahm dann ein weiteres Modell namens Nano Banana. Anschließend überprüfte Gemini-2.5-Pro, ebenfalls ein Google-System, die Ergebnisse. Nur wenn die Veränderungen wirklich den ursprünglichen Prompts entsprachen, wurden sie in den Datensatz aufgenommen. So entstand eine Art Qualitätsfilter, bei dem mehrere KI-Instanzen gemeinsam arbeiteten – ein Prozess, der in dieser Form bisher selten zu sehen war.
Am Ende standen 257.000 erfolgreiche Bearbeitungen, 72.000 komplexe Mehrfachanweisungen und 56.000 Fehlschläge. Auch die misslungenen Versuche blieben Teil des Sets – bewusst, denn aus Fehlern lässt sich lernen. Das Ergebnis ist ein vielseitiges Lehrmaterial, das nicht nur zeigt, wie gute Bildbearbeitung funktioniert, sondern auch, wo sie scheitern kann.
In ihrem wissenschaftlichen Paper beschreiben die Apple-Forschenden das Zusammenspiel der verschiedenen Modelle als skalierbare Grundlage für hochwertige Bildbearbeitung. Der gesamte Datensatz steht nun auf GitHub bereit, lizenziert für nicht-kommerzielle Forschung. Unternehmen dürfen ihn also nicht in ihre eigenen Produkte einbauen – Universitäten und Labore hingegen schon.
Bemerkenswert ist nicht nur die Offenheit des Projekts, sondern auch die Kooperation über die Grenzen der großen Tech-Konkurrenz hinweg. Apple, das sonst für seine Geheimhaltung bekannt ist, verlässt damit das gewohnte Terrain. Dass dabei Google-KIs eine zentrale Rolle spielen, wirkt fast wie ein stilles Eingeständnis: Fortschritt in der Künstlichen Intelligenz entsteht nicht mehr im Alleingang. Vielleicht liegt in diesem Datensatz mehr als nur Trainingsmaterial – vielleicht ein Vorgeschmack auf eine Zukunft, in der Maschinen, Marken und Menschen gemeinsam lernen.

