Einer von Apple finanzierten Studie zufolge, kann die KI leicht von Menschen überlistet werden
Ein von Apple unterstütztes KI-Wissenschaftlerteam veröffentlichte Anfang dieses Monats eine Studie über GSM-Symbolic, einen neuen KI-Benchmark, der „kontrollierbarere Bewertungen ermöglicht und wichtige Erkenntnisse und zuverlässigere Metriken für die Messung der logischen Fähigkeiten von Modellen liefert“. Leider zeigt die Studie, dass LLMs (große Sprachmodelle) immer noch stark eingeschränkt sind und grundlegende Argumentationsfähigkeiten fehlen, wie die ersten Tests mit GSM-Symbolic und den KI-Engines von Branchengrößen wie Meta und OpenAI offenbarten.
Das Hauptproblem, das durch diese Tests aufgedeckt wurde, liegt in der mangelnden Zuverlässigkeit der LLMs, wenn sie ähnlichen Anfragen ausgesetzt sind. Die Forscher stellten fest, dass selbst geringfügige Änderungen im Wortlaut einer Anfrage, die für einen Menschen die Bedeutung nicht verändern würden, häufig zu unterschiedlichen Antworten von KI-Modellen führen. Kein Modell stach in dieser Hinsicht besonders hervor.
"Die Leistung aller Modelle nimmt insbesondere ab, auch wenn sich nur die im GSM-Symbolic-Benchmark angegebenen Zahlenwerte verändern,
lautet das Fazit der Forscher, die auch feststellten, dass
die Anfälligkeit der mathematischen Denkweise in diesen Modellen zeigt, dass sich ihre Leistung signifikant verschlechtert, wenn die Anzahl der Klauseln in einer Frage steigt“.
Die vollständige Studie, die 22 Seiten umfasst, ist hier verfügbar (PDF) und die letzten beiden Seiten enthalten Aufgaben, bei denen am Ende irrelevante Informationen hinzugefügt wurden, die das Endergebnis für einen Menschen, der die Aufgabe löst, nicht verändern sollten. Diese verwendeten KI-Modelle haben jedoch auch diese irrelevanten Informationen berücksichtigt und dadurch falsche Antworten geliefert.
Daraus ergibt sich, dass KI-Modelle nach wie vor nur in der Lage sind, Muster zu erkennen und keine verallgemeinerbaren Problemlösungsfähigkeiten besitzen. In diesem Jahr wurden mehrere neue LLMs vorgestellt, darunter Llama 3.1 von Meta AI, Nemotron-4 von Nvidia, Claude 3 von Anthropic, das japanische Fugaku-LLM (das größte Modell, das je ausschließlich mit CPU-Leistung trainiert wurde) und Nova von Rubik's AI, eine Familie von LLMs, die Anfang dieses Monats präsentiert wurde.
Morgen wird O'Reilly die erste Ausgabe von Hands-On Large Language Models: Language Understanding and Generation veröffentlichen, verfasst von Jay Alammar und Maarten Grootendorst. Der Preis beträgt 53,06 Euro für die Kindle-Version und 78,31 Euro für das Taschenbuch.