Google enthüllt Lumiere: Generative KI zur Erstellung realistischerer Bilder und Videos aus Texten
Google hat Lumiere vorgestellt, den neuesten Stand der Technik im Bereich der realistischen Text-Bild- und generativen Video-KI. Die Software verbessert die Bewegungsdarstellung erheblich, indem sie einen neuen Ansatz zur Erzeugung von Videobildern verwendet, bei dem alle Bilder in einem Durchgang erzeugt werden, um Fehler durch Bewegung zu minimieren.
Generative Bild-KI erzeugt Bilder aus Text. Ein Schlüssel dazu ist die große Menge an Bildern und Videos, die online für das Training zur Verfügung stehen. Ein weiterer ist die Entwicklung von Methoden, um alle Wörter einer Sprache über Vektoren miteinander zu verknüpfen. So kann die KI verstehen, dass beispielsweise ein Wortpaar wie "Ich bin" wahrscheinlicher ist als "Ich eigenmächtig". Bilderzeugende KI wie Stable Diffusion verbindet Wörter mit Objektbildern. Eine solche KI versteht, dass das Wort "königliche Residenz" eher mit dem Bild "Schloss" als mit dem Bild "Haus" assoziiert wird.
Die Generative Video-KI erweitert die Bild-KI, um Videos aus Text zu erzeugen. Die Konkurrenten von Lumiere erstellen zuerst die Keyframes und dann die Zwischenbilder. Das ist so, als würde ein erfahrener Animator die Start- und Endbilder eines Basketballwurfs zeichnen und dann einen Assistenten die Zwischenbilder zeichnen lassen. Das Problem dabei ist, dass es oft zu Fehlern in der Bewegungsdarstellung kommt, weil die Zwischenbilder nicht korrekt gezeichnet werden. Lumiere umgeht dieses Problem, indem es alle Videobilder ohne Keyframing erstellt. Außerdem ist Lumiere darauf trainiert, wie bewegte Objekte in verschiedenen Bildgrößen aussehen, sodass die Videos besser aussehen.
Technisch gesehen verwendet Lumiere Modelle der Diffusionswahrscheinlichkeitstheorie zur Erzeugung von Bildern in Verbindung mit einem sogenanten Raum-Zeit-U-Netz, einer U-Netz-Architektur mit zeitlicher Auf- und Abwärtsskalierung und Aufmerksamkeitsblöcken, die zusätzlich zur üblichen Skalierung der Bildauflösung verwendet werden. Die zeitliche Herunterskalierung gleichzeitig mit der Auflösung reduziert die Rechenlast erheblich, während die Hochskalierung in Verbindung mit einem räumlichen Superauflösungsmodell die hochaufgelöste Ausgabe erzeugt. Aufgrund der begrenzten Speicherkapazität ist jedoch eine Segmentierung der Bilder erforderlich. Daher wird Multidiffusion über überlappende Bildsegmentgrenzen hinweg verwendet, um zeitliche Bewegungsartefakte zu reduzieren.
Lumiere kann mit anderen KI-Programmen kombiniert werden, um ein breiteres Spektrum an Ergebnissen zu erzielen. Dazu gehören:
- Cinemagraphs - ein Abschnitt eines Bildes wird animiert
- Inpainting - ein Objekt in einem Video wird durch ein anderes ersetzt
- Stilisierte Erzeugung - das Erscheinungsbild wird in einem anderen Kunststil nachgebildet
- Bild-zu-Video - ein gewünschtes Bild wird animiert
- Video-zu-Video - Videos werden in einem anderen Kunststil neu erstellt
Die Videolänge ist auf 5 Sekunden begrenzt, und es ist nicht möglich, Videoübergänge oder mehrere Kameraperspektiven zu erstellen. Leser, die mit generativer KI auf ihrem Desktop-Computer experimentieren möchten, sollten sich eine leistungsfähige Grafikkarte zulegen, um eine optimale Trainingsleistung zu erzielen.
Quelle(n)
Google Research: Lumiere, Inbar Mosseri (Youtube)