Google stellt neues KI-Modell Gemini in beeindruckender Video-Demo vor
Nachdem Google mit Bard bereits einen Konkurrenten zu OpenAIs ChatGPT im Programm hat, stellt der Suchmaschinenriese nun ein neues KI-Modell vor: Gemini soll multimodal arbeiten und "verschiedene Arten von Informationen verstehen und nahtlos kombinieren können, darunter Text, Code, Audio, Bild und Video", so Google im eigenen Blog.
Gemini gibt es in drei Versionen, "Nano" für On-Device-Aufgaben, Gemini Pro als KI-Modell mit breitem Anwendungsspektrum und "Ultra" für sehr komplexe Aufgaben. Auf dem Pixel 8 Pro (hier bei Amazon erhältlich) wird Gemini Nano laufen, während der ChatGPT-Konkurrent Bard ab sofort im Hintergrund mit Gemini Pro betrieben wird. Ein Einsatz von Googles neuem KI-Modell in der hauseigenen Suchmaschine, dem Browser Chrome und die Version Gemini Ultra soll in Zukunft folgen.
Gemini Ultra in Benchmarks leistungsfähiger als andere KI-Modelle
Nach eigenen Tests von Google übertrifft Gemini Ultra andere KI-Modelle wie GPT-4 von OpenAI in 30 von 32 Benchmarks für große Sprachmodelle (Large Language Models, LLM). Darüber hinaus weist Google in seiner Pressemitteilung darauf hin, dass Gemini im Bild-Benchmark besser abschneidet als andere Modelle, die noch auf eine Bild-zu-Text-Erkennung zurückgreifen müssen, die bei Gemini aufgrund seines multimodalen Charakters entfällt.
Für Endnutzer am interessantesten ist eine sechsminütige Videodemonstration des neuen KI-Modells von Google in englischer Sprache, in der Gemini die Zeichnungen eines Nutzers per Sprachausgabe kommentiert und Hintergrundinformationen liefert. In dem unter diesem Artikel verlinkten Video spielt der Nutzer außerdem mehrere Spiele mit dem Sprachmodell und erhält von Google Lösungsvorschläge für verschiedene Probleme.
Update 11. Dezember 2023: Es hat sich herausgestellt, dass die Video-Demo von Googles neuem KI-Modell Gemini lediglich eine Entwickler-Vorschau war, die gar nicht den aktuellen Fähigkeiten dieser multimodalen künstlichen Intelligenz entspricht. Die Eingaben erfolgen weiterhin mittels Texteingabe oder Bilderupload. Siehe: Google schummelt bei Video-Präsentation des neuen KI-Modells Gemini