Google enthüllt Lumiere: Generative KI zur Erstellung realistischerer Bilder und Videos aus Texten

Google präsentiert Lumiere - die neueste Entwicklung der generativen KI, die aus Text realistische Videoclips erstellt (Bild: Google Research).

Google hat Lumiere vorgestellt, die jüngste Entwicklung im Bereich der realistischen Text-Bild- und Text-Video-Generierung durch maschinelles Lernen. Eine der wichtigsten Neuerungen ist die Fähigkeit, realistische Bewegungen wie z. B. Gehen zu erzeugen, mit denen die derzeitige generative KI Schwierigkeiten hat. Googles Lumiere erreicht dies, indem sie alle Videobilder auf einmal erzeugt, anstatt Keyframes und Training zu verwenden, um zu lernen, wie sich bewegende Objekte aussehen sollten.

David Chien (übersetzt von Alexander Pensler), Veröffentlicht am 31.01.2024 🇺🇸 🇵🇱 ...

Google hat Lumiere vorgestellt, den neuesten Stand der Technik im Bereich der realistischen Text-Bild- und generativen Video-KI. Die Software verbessert die Bewegungsdarstellung erheblich, indem sie einen neuen Ansatz zur Erzeugung von Videobildern verwendet, bei dem alle Bilder in einem Durchgang erzeugt werden, um Fehler durch Bewegung zu minimieren.

Generative Bild-KI erzeugt Bilder aus Text. Ein Schlüssel dazu ist die große Menge an Bildern und Videos, die online für das Training zur Verfügung stehen. Ein weiterer ist die Entwicklung von Methoden, um alle Wörter einer Sprache über Vektoren miteinander zu verknüpfen. So kann die KI verstehen, dass beispielsweise ein Wortpaar wie "Ich bin" wahrscheinlicher ist als "Ich eigenmächtig". Bilderzeugende KI wie Stable Diffusion verbindet Wörter mit Objektbildern. Eine solche KI versteht, dass das Wort "königliche Residenz" eher mit dem Bild "Schloss" als mit dem Bild "Haus" assoziiert wird.

Die Generative Video-KI erweitert die Bild-KI, um Videos aus Text zu erzeugen. Die Konkurrenten von Lumiere erstellen zuerst die Keyframes und dann die Zwischenbilder. Das ist so, als würde ein erfahrener Animator die Start- und Endbilder eines Basketballwurfs zeichnen und dann einen Assistenten die Zwischenbilder zeichnen lassen. Das Problem dabei ist, dass es oft zu Fehlern in der Bewegungsdarstellung kommt, weil die Zwischenbilder nicht korrekt gezeichnet werden. Lumiere umgeht dieses Problem, indem es alle Videobilder ohne Keyframing erstellt. Außerdem ist Lumiere darauf trainiert, wie bewegte Objekte in verschiedenen Bildgrößen aussehen, sodass die Videos besser aussehen.

Technisch gesehen verwendet Lumiere Modelle der Diffusionswahrscheinlichkeitstheorie zur Erzeugung von Bildern in Verbindung mit einem sogenanten Raum-Zeit-U-Netz, einer U-Netz-Architektur mit zeitlicher Auf- und Abwärtsskalierung und Aufmerksamkeitsblöcken, die zusätzlich zur üblichen Skalierung der Bildauflösung verwendet werden. Die zeitliche Herunterskalierung gleichzeitig mit der Auflösung reduziert die Rechenlast erheblich, während die Hochskalierung in Verbindung mit einem räumlichen Superauflösungsmodell die hochaufgelöste Ausgabe erzeugt. Aufgrund der begrenzten Speicherkapazität ist jedoch eine Segmentierung der Bilder erforderlich. Daher wird Multidiffusion über überlappende Bildsegmentgrenzen hinweg verwendet, um zeitliche Bewegungsartefakte zu reduzieren.

Lumiere kann mit anderen KI-Programmen kombiniert werden, um ein breiteres Spektrum an Ergebnissen zu erzielen. Dazu gehören:

Cinemagraphs - ein Abschnitt eines Bildes wird animiert
Inpainting - ein Objekt in einem Video wird durch ein anderes ersetzt
Stilisierte Erzeugung - das Erscheinungsbild wird in einem anderen Kunststil nachgebildet
Bild-zu-Video - ein gewünschtes Bild wird animiert
Video-zu-Video - Videos werden in einem anderen Kunststil neu erstellt

Die Videolänge ist auf 5 Sekunden begrenzt, und es ist nicht möglich, Videoübergänge oder mehrere Kameraperspektiven zu erstellen. Leser, die mit generativer KI auf ihrem Desktop-Computer experimentieren möchten, sollten sich eine leistungsfähige Grafikkarte zulegen, um eine optimale Trainingsleistung zu erzielen.

Lumiere kann aus Texten Bilder und Videos erstellen, die stilisiert werden, um einer anderen Kunstform zu entsprechen, und sogar Objekte ersetzen. (Quelle: Google Research)

Lumiere kann einen Teil eines Bildes animieren und die Ausgabe kann leicht in andere KI-Systeme eingespeist werden. (Quelle: Google Research)

▶ load Youtube video

Quelle(n)

Google Research: Lumiere, Inbar Mosseri (Youtube)

Verwandte Artikel

Gartner erwartet einen gewaltigen Boom für KI-PCs und GenAI-Smartphones (Symbolbild: DALL-E / AI).

KI-Revolution für unsere Geräte: KI-PCs und GenAI-Smartphones entfesseln gewaltigen Boom 13.02.2024

Ein Beispiel für die Ein- und Ausgabe von MGIE. (Bild: arXiv)

Apple MGIE als Open-Source-Werkzeug zur Bildbearbeitung veröffentlicht 09.02.2024

Pictory GPT for Video ist jetzt für ChatGPT Plus verfügbar (Bild: selbsterstellter Screenshot).

"Pictory GPT for Videos" bringt KI-gestützte Videoerstellung zu ChatGPT 07.02.2024

Falsch, richtig oder doch halbwahr? Wer weiß das schon? (Quelle: pixabay/Elf-Moondance)

Deepfakes erkennen: Mühsam, aber nicht hoffnungslos 05.02.2024

RTX Remix kann den Look eines Spiels grundlegend verändern. (Bild: Cycu1)

RTX Remix: Videos zeigen eindrucksvolle "AI-Remakes" von Tomb Raider und Need for Speed Underground 2 29.01.2024

Tesla Dojo KI-Supercomputer mit 15-kW-Kachel (Quelle: Steve Jurvetson)

Tesla wird Milliarden in Nvidia- und AMD-Hardware investieren, um seine KI-Aktivitäten voranzutreiben 29.01.2024

OpenAI könnte in naher Zukunft seine eigenen KI-Beschleuniger entwickeln. (Bildquelle: SDXL)

OpenAI will Abhängigkeit von Nvidia-GPUs verringern und plant daher Herstellung eigener KI-Chips bei TSMC 25.01.2024

Viele AI-Features des Galaxy S24 werden auch dem Galaxy S23 per Update zur Verfügung gestellt. (Bild: Samsung)

Galaxy AI: Diese Smartphones erhalten die KI-Features des Galaxy S24 24.01.2024

Energiebedarf von Datenzentren, KI und Cryptowährung soll sich in nur drei Jahren verdoppeln 24.01.2024

Google Chrome: Drei neue KI-Funktionen sind ab sofort verfügbar

Google Chrome: Drei neue, kostenfreie KI-Funktionen sollen Alltag, Browsen und die Indivualisierung erleichtern 23.01.2024

BMW experimentiert mit humanoiden Robotern nach dem Vorbild von Tesla Optimus (Bild: Figure)

BMW will wie Tesla humanoide Roboter in der Automobilproduktion einsetzen: 10 Millionen Arbeitsplätze ersetzbar 20.01.2024

Valve betont, dass der Lernprozess im Umgang mit KI-Spielen noch nicht abgeschlossen ist. Es ist also denkbar, dass zukünftig weitere Anpassungen in diesem Bereich folgen. (Quelle: Steam)

Neue Regeln für KI-generierte Spiele auf Steam 13.01.2024

Loading Comments

Diesen Artikel kommentieren / Antworten

Zahlreiche Angebote im Huawei "Back...

EndeavourOS Galileo Neo veröffentli...

Autor des Originals: David Chien - Tech Writer - 502 Artikel auf Notebookcheck veröffentlicht seit 2023

Ich habe bei Activision, UCLA, Anime Expo und anderen gearbeitet und gesehen, wie Technologie eingesetzt wird, um Leben zu retten, Spiele zu entwickeln und fantastische 3D VR/AR-Welten zu schaffen. Bei neuen Technologien gibt es immer etwas, das mir Spaß macht, und alle meine Freunde wenden sich stets an mich, um das Beste für ihre Bedürfnisse zu finden. Daher freue ich mich, meine Erfahrung bei Notebookcheck einzubringen.

Übersetzer: Alexander Pensler - Tech Writer - 595 Artikel auf Notebookcheck veröffentlicht seit 2023

Technik begleitet mich schon mein ganzes Leben, angefangen mit Nintendo-Konsolen, später kamen die ersten PC-Selbstbau-Erfahrungen hinzu, bis ich dann für lange Zeit im Apple-Lager verschwand. Doch seit ich Linux für mich entdeckt habe, benutze ich das freie Betriebssystem mit Begeisterung auf meinem Laptop und Workstation-PC. Seit 2022 arbeite ich als IT-Journalist u.a. für PC Games Hardware und bin mittlerweile als News-Redakteur mit Schwerpunkt Linux für Notebookcheck tätig.

Kontakt: Bluesky, LinkedIn

Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!

> Notebook Test, Laptop Test und News > Tests > Notebook Testberichte > Google enthüllt Lumiere: Generative KI zur Erstellung realistischerer Bilder und Videos aus Texten

Autor: David Chien, 31.01.2024 (Update: 15.08.2024)