Projekte wie Polyvit zeigen, dass künstliche Intelligenz dem Menschen immer ähnlicher wird. So zeigt es auch ein aktuelles Forschungsgebiet des KI-Teams bei Google. Die Forscherinnen und Forscher haben es erstmals geschafft, dass die KI Bild und Ton gleichzeitig auswerten kann. Damit wird es der Maschine also möglich gleichzeitig zu sehen und zu hören.
Die Bedeutung hinter dieser Entwicklung ist beachtlich. Wenn momentan eine KI Stimme und Gesicht in einem Video erkennen soll, müssen aktuell zwei voneinander getrennte Machine-Learning-Modelle aktiviert werden. Dies bringt nicht nur mehr Arbeit, sondern auch unterschiedlich Ergebnisse, da beide Systeme unterschiedlich trainiert wurden. Das Forscherteam von Google, dem Alan Turing Institute und der Universität Cambridge haben in einem aktuellen Forschungsvorheben einen Weg gefunden, gleich mehrere Aufgaben gleichzeitig zu erledigen. Das Projekt Polyvit kann, so ein aktuelles wissenschaftliches Paper, gleichzeitig Bild- und Audioerkennung durchführen und so neue Spitzenergebnisse erzielen.
Wenn auch die weiteren Versuche mit Polyvit positiv erlaufen, kann das System beispielsweise auch auf Endgeräten mit erheblich geringerem Speicher ausgeführt werden, als es im Moment der Standard ist. Auch Updates des Algorithmus sind so einfacher durchzuführen und das System kann in naher Zukunft noch viel bessere Ergebnisse erzielen. Die Forscherinnen und Forscher sind grade dabei neue Datensätze in das System einzuspeisen, um seine Funktion weiter zu testen, doch sind sie auf einem guten Weg!
In wenigen Jahren können durch solche neuen KI-Systeme schnellere und detailliertere Prognosen geschaffen werden, welche neue und bislang ungeahnte Anwendungsgebiete ermöglichen. Forschungsprojekte wie Polyvit sind daher zentral für die Zukunft unserer Gesellschaft, unseres Arbeitens und unseres Alltags.