Lebensechte Sprechanimationen: Microsofts neue Technik "VASA 1" soll menschlich wirkende Avatare ermöglichen

Mit VASA 1 können Videoclips von real anmutenden Personen in der Auflösung 512 × 512 und 53 Fps erstellt werden. (Bild: Microsoft)

Microsoft forscht an einer Technologie, mit der natürlich wirkende Avatare künftig in Echtzeit mit Menschen interagieren sollen. Als ersten Schritt veröffentlichte man nun Videos von real anmutenden Personen, welche auf Grundlage eines Fotos und einer Audiospur basieren. Damit könnte sich jede Person dessen Abbild man benutzt, nachahmen lassen.

Tristan Hesser, Veröffentlicht am 23.04.2024

AI Software

Das Microsoft Research Lab Asia hat ein noch in der Entwicklung befindliches Programm vorgestellt, welches realistisch wirkende Videos von sprechenden oder singenden Menschen erstellen kann. Die Software benötigt dazu lediglich ein Foto einer Person, um ein synchronisiertes Video auf Grundlage einer Audioquelle zu erstellen und sie damit alles sagen zu lassen, was man möchte. Ziel der Forschung soll es laut dem Entwickler sein, später virtuelle Avatare erstellen zu können, welche in Echtzeit möglichst menschlich agieren, ohne dabei auf Videomaterial angewiesen zu sein.

Zur Demonstration von VASA 1 hat das Team einige Videos veröffentlicht, in denen Menschen bestimmte Dinge sagen oder sprechen, welche als Audiospur von vornherein aufgezeichnet wurden. Dabei demonstrieren sie auch, dass sie in der Lage sind, Details wie den Blickwinkel oder die Emotionen der gezeigten Person zu steuern. Obwohl in den Videos noch einige Fragmente zu sehen sind, wirken die Avatare relativ lebensecht, vor allem in ihrer Mimik. Laut Microsoft besitzt das Programm einen Vorsprung gegenüber bestehenden Sprechanimationen, wobei momentan in verschiedenen Projekten weltweit an entsprechenden Technologien gearbeitet wird, welche immer neue Meilensteine erreichen. Als Training für VASA 1 diente der VoxCeleb2-Datensatz, welcher kurze Videoschnipsel von Prominenten enthält.

Aus Datenschutzgründen wurden dabei lediglich Fotos von KI-generierten Personen genutzt. Eine Ausnahme stellt nur das Gemälde der Mona Lisa dar. Allerdings ist es natürlich auch möglich, Bilder von echten Menschen zu verwenden und sie so alles sagen zu lassen, was man möchte. Damit wäre es jetzt bereits realisierbar, Videos zu manipulieren und später mithilfe eines in Echtzeit agierenden Avatars, auch Videochats zu faken. Die Forscher stellen aber klar, dass dies nicht die Intention ihrer Arbeit sein soll. Potenzielle Anwendungsgebiete sehen sie bei der Verbesserung der Bildungsgerechtigkeit, in der Unterstützung von Menschen mit Kommunikationsschwierigkeiten sowie bei der therapeutischen Begleitung. Dennoch ist ein Missbrauch der Technologie nicht ausgeschlossen, weshalb man sich offen dafür zeigt, die Technologie für die Fälschungs-Erkennung bereitzustellen.

▶ load Youtube video

Quelle(n)

Microsoft

Verwandte Artikel

Shy Kids hat Air Head in Zusammenarbeit mit dem OpenAI Videogenerierungsmodell Sora kreiert (Bild: Shy Kids auf YouTube).

Produzent des KI-Kurzfilms Air Head: Sora von OpenAI erfordert hunderte von Prompts und viel VFX-Arbeit 30.04.2024

Die Unreal Engine wird häufig in der Spieleindustrie eingesetzt, jetzt gibt es ein Update auf Version 5.4 (Bild: Unreal Engine).

Unreal Engine 5.4 bringt viele neue Features für Spieleentwickler 26.04.2024

Logitech macht ChatGPT durch einen AI-Button zugänglicher. (Bild: Logitech)

Logitech Signature AI Edition packt ChatGPT und Logi AI Prompt Builder in drahtlose Maus 22.04.2024

Samsung dürfte erstmals die Existenz von Googles Gemini Nano 2 bestätigt haben, die im Galaxy S25 zum Einsatz kommen soll. (Bild: SK, Youtube)

Samsung "bestätigt": Galaxy S25 mit noch mehr Galaxy AI Power dank Googles Gemini Nano 2 20.04.2024

Aufgrund der NPU-Anforderungen dürfte das kommende Windows 11 24H2 AI-Explorer-Feature vorerst exklusiv auf Snapdragon X Elite Laptops laufen.

Intel Outside: Zentrales Windows 11 24H2 AI-Feature wohl exklusiv für Snapdragon X Elite Laptops 20.04.2024

Falsch, richtig oder doch halbwahr? Wer weiß das schon? (Quelle: pixabay/Elf-Moondance)

Deepfakes erkennen: Mühsam, aber nicht hoffnungslos 05.02.2024

Alle 1 Beträge lesen / Antworten

Loading Comments

Diesen Artikel kommentieren / Antworten

RyzenDeck: Dieser Gaming-Handheld i...

VWFNDR Keirin Konzept-Kamera visual...

Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!

> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2024-04 > Lebensechte Sprechanimationen: Microsofts neue Technik "VASA 1" soll menschlich wirkende Avatare ermöglichen

Autor: Tristan Hesser, 23.04.2024 (Update: 15.08.2024)