Apple MGIE als Open-Source-Werkzeug zur Bildbearbeitung veröffentlicht
Künstliche Intelligenz kann sowohl für die Bildbearbeitung als auch für die Bilderzeugung eingesetzt werden. Bei dieser Anwendung des maschinellen Lernens kann es jedoch schwierig sein, menschliche Anweisungen, die technischen, absichtlichen oder idealisierten kosmetischen Abweichungen unterliegen können, mit dem tatsächlichen Ziel und dem entsprechenden Ergebnis in Einklang zu bringen. Das neue MGIE-Modell von Apple wird jedoch bereits als potenziell in der Lage angesehen, diese Technologie zu "revolutionieren".
Dem neuen KI-Tool von Apple wird eine verbesserte "Interpretation" von Befehlen zugeschrieben, die den Kontext einbezieht, z. B. das "Verstehen", dass eine Anweisung wie "Ändere den Hintergrund und füge einen Star Wars-Hintergrund hinzu" dazu führen könnte, dass ein "Lichtschwert oder ein Raumschiff" hinzugefügt wird. Durch die Integration von MLLMs liefert es potenziell bessere Ergebnisse bei der qualitativen Analyse und menschlichen Bewertung als sein Konkurrent InsPix2Pix oder sein Vorgänger LLM-Guided Image Editing (LGIE).
MGIE kann seine MLLM auch nutzen, um zu "folgern", dass eine Aufforderung, ein Lebensmittelbild "gesünder" zu machen, die Vergrößerung des Gemüses beinhalten könnte. MGIE ist in der Lage, dies auf Photoshop-Ebene zu tun und auch punktuelle oder allgemeine "Fotooptimierungen" mit pixelgenauer Präzision durchzuführen.
Dieser jüngste Vorstoß von Apple in die KI-Forschung wurde auf der International Conference on Learning Representations 2024 (ICLR 2024) in Zusammenarbeit mit einem Team der University of California Santa Barbara (UCSB) vorgestellt. Das Team veröffentlichte auch eine auf derselben Arbeit basierende Publikation, die auf der arXiv-Website als PDF verfügbar ist (hier Apple MacBook Air M2 bei Amazon kaufen).
Quelle(n)
arXiv via VentureBeat