Einer von Apple finanzierten Studie zufolge, kann die KI leicht von Menschen überlistet werden

Menschen gegen KI (Bildquelle: Generiert mit DALL-E 3)

Trotz ihrer oft beeindruckenden Ergebnisse fehlt es KI-Systemen wie denen von Meta und OpenAI, die auf große Sprachmodelle setzen, nach wie vor an grundlegenden Denkfähigkeiten. Eine von Apple unterstützte Gruppe stellte einen neuen Benchmark vor, der bereits zeigte, dass selbst minimale Änderungen im Wortlaut einer Anfrage zu völlig unterschiedlichen Antworten führen können.

Codrut Nistor (übersetzt von Carmen Pol), Veröffentlicht am 14.10.2024 🇺🇸 🇫🇷 ...

AI Science Fail

Ein von Apple unterstütztes KI-Wissenschaftlerteam veröffentlichte Anfang dieses Monats eine Studie über GSM-Symbolic, einen neuen KI-Benchmark, der „kontrollierbarere Bewertungen ermöglicht und wichtige Erkenntnisse und zuverlässigere Metriken für die Messung der logischen Fähigkeiten von Modellen liefert“. Leider zeigt die Studie, dass LLMs (große Sprachmodelle) immer noch stark eingeschränkt sind und grundlegende Argumentationsfähigkeiten fehlen, wie die ersten Tests mit GSM-Symbolic und den KI-Engines von Branchengrößen wie Meta und OpenAI offenbarten.

Das Hauptproblem, das durch diese Tests aufgedeckt wurde, liegt in der mangelnden Zuverlässigkeit der LLMs, wenn sie ähnlichen Anfragen ausgesetzt sind. Die Forscher stellten fest, dass selbst geringfügige Änderungen im Wortlaut einer Anfrage, die für einen Menschen die Bedeutung nicht verändern würden, häufig zu unterschiedlichen Antworten von KI-Modellen führen. Kein Modell stach in dieser Hinsicht besonders hervor.

"Die Leistung aller Modelle nimmt insbesondere ab, auch wenn sich nur die im GSM-Symbolic-Benchmark angegebenen Zahlenwerte verändern,

lautet das Fazit der Forscher, die auch feststellten, dass

die Anfälligkeit der mathematischen Denkweise in diesen Modellen zeigt, dass sich ihre Leistung signifikant verschlechtert, wenn die Anzahl der Klauseln in einer Frage steigt“.

Die vollständige Studie, die 22 Seiten umfasst, ist hier verfügbar (PDF) und die letzten beiden Seiten enthalten Aufgaben, bei denen am Ende irrelevante Informationen hinzugefügt wurden, die das Endergebnis für einen Menschen, der die Aufgabe löst, nicht verändern sollten. Diese verwendeten KI-Modelle haben jedoch auch diese irrelevanten Informationen berücksichtigt und dadurch falsche Antworten geliefert.

Daraus ergibt sich, dass KI-Modelle nach wie vor nur in der Lage sind, Muster zu erkennen und keine verallgemeinerbaren Problemlösungsfähigkeiten besitzen. In diesem Jahr wurden mehrere neue LLMs vorgestellt, darunter Llama 3.1 von Meta AI, Nemotron-4 von Nvidia, Claude 3 von Anthropic, das japanische Fugaku-LLM (das größte Modell, das je ausschließlich mit CPU-Leistung trainiert wurde) und Nova von Rubik's AI, eine Familie von LLMs, die Anfang dieses Monats präsentiert wurde.

Morgen wird O'Reilly die erste Ausgabe von Hands-On Large Language Models: Language Understanding and Generation veröffentlichen, verfasst von Jay Alammar und Maarten Grootendorst. Der Preis beträgt 53,06 Euro für die Kindle-Version und 78,31 Euro für das Taschenbuch.

Quelle(n)

AppleInsider

Verwandte Artikel

Alle 1 Beträge lesen / Antworten

Loading Comments

Diesen Artikel kommentieren / Antworten

⟨

Ältere News

Sony Xperia 1 VI erhält Wi-Fi 7 per Software-Update

Neuere News

Hacker-Attacke auf Game Freak enthüllt Informationen zu kommenden Pokémon-Spielen, Switch 2 und mehr

⟩

Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!

Autor des Originals: Codrut Nistor - Senior Tech Writer - 6718 Artikel auf Notebookcheck veröffentlicht seit 2013

Während meiner Schulzeit habe ich es gehasst, zu schreiben und Geschichten zu erfinden. Ein Jahrzehnt später wendete sich das Blatt. Seither habe ich einige Offline-Artikel veröffentlicht und bin dann in den Online-Bereich gewechselt, wo ich für große Websites, die auch 2021 noch online sind, wie Softpedia, Brothersoft, Download3000, aber ich auch für mehrere Blogs geschrieben habe, die im Laufe der Jahre verschwunden sind. Seit 2013 bin ich mit der Notebookcheck-Crew unterwegs und habe nicht vor, sie in nächster Zeit zu verlassen. Ein Faible habe ich für gute mechanische Tastaturen, Vinyl und Tape Sound, aber auch Smartphones, Streaming-Dienste und digitale Kunst.

Kontakt: @online_digi, online.digital.craft, LinkedIn

Übersetzer: Carmen Pol - Translator - 1092 Artikel auf Notebookcheck veröffentlicht seit 2023

Nachdem ich den größten Teil meiner frühen Jahre in Deutschland verbracht hatte, wurde meine Erziehung als zweisprachiges Kind erleichtert. Im Jahr 2007 fand ich mich wöchentlich gezwungen, mein Windows-Betriebssystem neu zu installieren ... Also besorgte ich mir eines Tages ein MacBook Black. Es war während dieser Zeit, dass ich eine tiefe Wertschätzung für Technologie entwickelte, die mein Leben erheblich verbesserte.

> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2024-10 > Einer von Apple finanzierten Studie zufolge, kann die KI leicht von Menschen überlistet werden

Autor: Codrut Nistor, 14.10.2024 (Update: 18.02.2026)