Lebensechte Sprechanimationen: Microsofts neue Technik "VASA 1" soll menschlich wirkende Avatare ermöglichen
Das Microsoft Research Lab Asia hat ein noch in der Entwicklung befindliches Programm vorgestellt, welches realistisch wirkende Videos von sprechenden oder singenden Menschen erstellen kann. Die Software benötigt dazu lediglich ein Foto einer Person, um ein synchronisiertes Video auf Grundlage einer Audioquelle zu erstellen und sie damit alles sagen zu lassen, was man möchte. Ziel der Forschung soll es laut dem Entwickler sein, später virtuelle Avatare erstellen zu können, welche in Echtzeit möglichst menschlich agieren, ohne dabei auf Videomaterial angewiesen zu sein.
Zur Demonstration von VASA 1 hat das Team einige Videos veröffentlicht, in denen Menschen bestimmte Dinge sagen oder sprechen, welche als Audiospur von vornherein aufgezeichnet wurden. Dabei demonstrieren sie auch, dass sie in der Lage sind, Details wie den Blickwinkel oder die Emotionen der gezeigten Person zu steuern. Obwohl in den Videos noch einige Fragmente zu sehen sind, wirken die Avatare relativ lebensecht, vor allem in ihrer Mimik. Laut Microsoft besitzt das Programm einen Vorsprung gegenüber bestehenden Sprechanimationen, wobei momentan in verschiedenen Projekten weltweit an entsprechenden Technologien gearbeitet wird, welche immer neue Meilensteine erreichen. Als Training für VASA 1 diente der VoxCeleb2-Datensatz, welcher kurze Videoschnipsel von Prominenten enthält.
Aus Datenschutzgründen wurden dabei lediglich Fotos von KI-generierten Personen genutzt. Eine Ausnahme stellt nur das Gemälde der Mona Lisa dar. Allerdings ist es natürlich auch möglich, Bilder von echten Menschen zu verwenden und sie so alles sagen zu lassen, was man möchte. Damit wäre es jetzt bereits realisierbar, Videos zu manipulieren und später mithilfe eines in Echtzeit agierenden Avatars, auch Videochats zu faken. Die Forscher stellen aber klar, dass dies nicht die Intention ihrer Arbeit sein soll. Potenzielle Anwendungsgebiete sehen sie bei der Verbesserung der Bildungsgerechtigkeit, in der Unterstützung von Menschen mit Kommunikationsschwierigkeiten sowie bei der therapeutischen Begleitung. Dennoch ist ein Missbrauch der Technologie nicht ausgeschlossen, weshalb man sich offen dafür zeigt, die Technologie für die Fälschungs-Erkennung bereitzustellen.