Es liegt ein neuer Trend in der Luft, der sich mit rasanter Geschwindigkeit in der digitalen Welt ausbreitet: Generative Künstliche Intelligenz, repräsentiert durch Plattformen wie ChatGPT für Texte und Stable Diffusion für Bilder, steht nun einer breiten Masse zur Verfügung. Während das Potenzial dieser Technologien unser digitales Erlebnis aufregend und vielfältig gestaltet, birgt es auch gewisse Risiken, die von einem Team von Forschern hervorgehoben wurden.
Wir leben in einer Zeit, in der künstlich erzeugte Inhalte unausweichlich das Internet bevölkern. Ein paralleles Phänomen ist die Praxis der KI-Unternehmen, die das Internet nach frei verfügbaren Daten durchforsten, um ihre Sprach- und Bildmodelle zu trainieren. Wie jedoch eine Studie der Cornell University betont, besteht eine realistische Gefahr, wenn die Daten, die zur Schulung dieser Modelle verwendet werden, von den Modellen selbst erzeugt wurden.
Tauchen wir tief in die Welt des „Modellkollaps“ ein, ein Phänomen, das auftritt, wenn KI-Modelle in einem endlosen Zyklus ihre eigenen Erzeugnisse trainieren. Was passiert genau? In der ersten Runde verlieren diese Modelle einen Teil der tatsächlichen Informationen über die Welt. Mit jeder nachfolgenden Generation vermischen sie jedoch die verbleibenden Informationen aus der realen Welt mit den von ihnen selbst erzeugten Daten. Das Ergebnis ist eine stetig wachsende Verfälschung der Realität. Eine Text-KI, die auf diese Weise trainiert wird, könnte letztendlich immer weniger menschenähnlich klingen – ein unerwünschtes Ergebnis, das genau dem entgegenwirkt, was beabsichtigt war.
Was also ist die Lösung, fragen Sie? Frische, menschlich generierte Daten sind das Schlüsselwort. Das ist allerdings leichter gesagt als getan, da oft unklar ist, ob Internetdaten von Menschen oder Maschinen generiert wurden. Forscher betonen die Notwendigkeit, den Zugang zu den Originaldaten, mit denen Modelle trainiert wurden, zu gewährleisten und den Datenpool regelmäßig mit neuen, nicht von KI generierten Daten zu aktualisieren.
Dies ruft nach einer synchronisierten Anstrengung von KI-Communities und Unternehmen, um Klarheit darüber zu schaffen, welche Daten menschlichen Ursprungs sind und welche von KI-Modellen erzeugt wurden. Wenn solche Maßnahmen nicht unverzüglich ergriffen werden, könnte die Entwicklung neuer KI-Modelle, die mit echten menschlichen Daten trainiert werden, eine zunehmend schwierige Aufgabe werden. Unsere digitale Zukunft hängt davon ab, wie wir diese Herausforderung meistern.