Einer von Apple finanzierten Studie zufolge, kann die KI leicht von Menschen überlistet werden

Menschen gegen KI (Bildquelle: Generiert mit DALL-E 3)

Trotz ihrer oft beeindruckenden Ergebnisse fehlt es KI-Systemen wie denen von Meta und OpenAI, die auf große Sprachmodelle setzen, nach wie vor an grundlegenden Denkfähigkeiten. Eine von Apple unterstützte Gruppe stellte einen neuen Benchmark vor, der bereits zeigte, dass selbst minimale Änderungen im Wortlaut einer Anfrage zu völlig unterschiedlichen Antworten führen können.

Codrut Nistor (übersetzt von Carmen Pol), Veröffentlicht am 14.10.2024 🇺🇸 🇫🇷 ...

AI Science Fail

Ein von Apple unterstütztes KI-Wissenschaftlerteam veröffentlichte Anfang dieses Monats eine Studie über GSM-Symbolic, einen neuen KI-Benchmark, der „kontrollierbarere Bewertungen ermöglicht und wichtige Erkenntnisse und zuverlässigere Metriken für die Messung der logischen Fähigkeiten von Modellen liefert“. Leider zeigt die Studie, dass LLMs (große Sprachmodelle) immer noch stark eingeschränkt sind und grundlegende Argumentationsfähigkeiten fehlen, wie die ersten Tests mit GSM-Symbolic und den KI-Engines von Branchengrößen wie Meta und OpenAI offenbarten.

Das Hauptproblem, das durch diese Tests aufgedeckt wurde, liegt in der mangelnden Zuverlässigkeit der LLMs, wenn sie ähnlichen Anfragen ausgesetzt sind. Die Forscher stellten fest, dass selbst geringfügige Änderungen im Wortlaut einer Anfrage, die für einen Menschen die Bedeutung nicht verändern würden, häufig zu unterschiedlichen Antworten von KI-Modellen führen. Kein Modell stach in dieser Hinsicht besonders hervor.

"Die Leistung aller Modelle nimmt insbesondere ab, auch wenn sich nur die im GSM-Symbolic-Benchmark angegebenen Zahlenwerte verändern,

lautet das Fazit der Forscher, die auch feststellten, dass

die Anfälligkeit der mathematischen Denkweise in diesen Modellen zeigt, dass sich ihre Leistung signifikant verschlechtert, wenn die Anzahl der Klauseln in einer Frage steigt“.

Die vollständige Studie, die 22 Seiten umfasst, ist hier verfügbar (PDF) und die letzten beiden Seiten enthalten Aufgaben, bei denen am Ende irrelevante Informationen hinzugefügt wurden, die das Endergebnis für einen Menschen, der die Aufgabe löst, nicht verändern sollten. Diese verwendeten KI-Modelle haben jedoch auch diese irrelevanten Informationen berücksichtigt und dadurch falsche Antworten geliefert.

Daraus ergibt sich, dass KI-Modelle nach wie vor nur in der Lage sind, Muster zu erkennen und keine verallgemeinerbaren Problemlösungsfähigkeiten besitzen. In diesem Jahr wurden mehrere neue LLMs vorgestellt, darunter Llama 3.1 von Meta AI, Nemotron-4 von Nvidia, Claude 3 von Anthropic, das japanische Fugaku-LLM (das größte Modell, das je ausschließlich mit CPU-Leistung trainiert wurde) und Nova von Rubik's AI, eine Familie von LLMs, die Anfang dieses Monats präsentiert wurde.

Morgen wird O'Reilly die erste Ausgabe von Hands-On Large Language Models: Language Understanding and Generation veröffentlichen, verfasst von Jay Alammar und Maarten Grootendorst. Der Preis beträgt 53,06 Euro für die Kindle-Version und 78,31 Euro für das Taschenbuch.

Quelle(n)

AppleInsider

Verwandte Artikel

Das faltbare Tablet von Apple könnte fast so groß sein wie zwei iPad Pro nebeneinander. Im Bild - iPad Pro M4 (Bildquelle: ZDNet)

Apple iPad Pro Fold: Leaks enthüllen erste Details des massiven, faltbaren 18,8-Zoll-Tablets 10.03.2025

Sibel geht eine Partnerschaft mit Maruho ein, um das KI-Wearable ADAM zum Schutz vor Kratzern bei Dermatitis-Patienten zu vermarkten. (Bildquelle: Sibel Health)

Sibel Health und Maruho entwickeln ein KI-Wearable zur Reduzierung von Kratzen bei Ekzem-Patienten 07.02.2025

Die Version 2025.2 des Home Assistant ist da. (Bildquelle: Home Assistant)

Home Assistant Version 2025.2 erscheint mit neuen Funktionen für Backups und Voice 06.02.2025

DeepSeek fällt aufgrund der Verarbeitung personenbezogener Daten in den Anwendungsbereich des irischen Datenschutzgesetzes (Bildquelle: Generiert mit DALL-E 3)

Irische Behörde prüft DeepSeeks Datenverarbeitung 31.01.2025

Das KI-Modell Qwen 2.5 siegt über Deepseek (Bildquelle: KI-generiert)

Alibabas KI-Modell Qwen 2.5 Max übertrifft Deepseek 30.01.2025

Laut einer Studie könnte der Anteil an Elektroschrott bis 2030 stark zunehmen (Quelle: Pixabay / Geralt).

Studie: Künstliche Intelligenz könnte Menge an Elektroschrott erhöhen 24.12.2024

Fehlstart für "Apple Intelligence" in England (Bildquelle Notebookcheck - Daniel Schmidt)

Fehlstart für Apples KI "Apple Intelligence" in England - Falsche Schlagzeile veranlasst Reporter ohne Grenzen (RSF) zu Kritik 20.12.2024

Selbst ein Kochfeld ist keine Herausforderung für das Kühlelement. (Bildquelle: Cockrell School of Engineering)

Nanostruktur kühlt Chips zehnmal besser und spart riesigen Strommengen 12.11.2024

Der erste Aufbau des Spin-Photon-Quantencomputers im Labor war erfolgreich. (Bildquelle: Fraunhofer IAF)

Neuartiger Quantencomputer ist effizienter und weniger fehleranfällig dank Diamantstruktur 30.10.2024

Das US-Start-up Thorne hat eine KI-gestützte Toilettenkamera entwickelt, die Ausscheidungen fotografiert und darauf basierend die Darmgesundheit bewertet. (Bildquelle: DallE 3)

Künstliche Darmintelligenz – KI analysiert Stuhlgang und bewertet Darmgesundheit 22.10.2024

Wie die Zahlen auf SteamDB zeigen, hat Unknown 9: Awakening Potenzial zum Flop des Jahres. (Bildquelle: Bandai Namco Entertainment)

Große Ziele, tiefer Fall – Unknown 9: Awakening könnte der Gaming-Flop des Jahres werden 21.10.2024

Mit der LunaRecycle Challenge zahlt die NASA bis zu 3 Millionen US-Dollar an Preisgeldern für innovative Recyclingtechnologien, die auf dem Mond genutzt werden können. (Bildquelle: NASA)

Müll auf dem Mond: Die NASA stellt 3 Millionen US-Dollar für innovative Recyclingtechnologien in Aussicht 19.10.2024

Die Speichermodule des Mac Studio können getauscht werden, endlich können Upgrades gekauft werden. (Bildquelle: iFixit)

Apple Mac Studio erhält 8 TB Speicher-Upgrade für 899 Euro durch neues Studio Drive 17.10.2024

Der Mac mini mit Apple M2 wird aktuell zum Bestpreis angeboten. (Bildquelle: Apple)

Deal: Mac mini mit Apple M2 und Thunderbolt 4 gibts für kurze Zeit zum Allzeit-Bestpreis 17.10.2024

Das iPad 10 kostet bei Apple jetzt nur noch 399 Euro. (Bildquelle: Apple)

Apple iPad 10 wird günstiger, kommt jetzt aber ohne Ladegerät 16.10.2024

Apple packt den Prozessor des iPhone 15 Pro ins iPad mini. (Bildquelle: Apple)

Apple präsentiert iPad mini 7 mit A17 Pro und Support für Apple Pencil Pro 15.10.2024

Apple Car ist Geschichte, Tesla bringt autonomes Robotaxi (Bildquelle: Tesla)

Apple Car: Zulassung kurz vor Enthüllung des autonomen Tesla-Robotaxis zurückgezogen 14.10.2024

KI-gesteuerte Robotermusiker (Bildquelle: Generiert mit DALL-E 3)

Indischer Filmemacher setzt auf KI-generierte Musik und ersetzt menschliche Künstler 20.09.2024

Die Konzeptzeichnung des AI Scientist für die autonome KI-Forschung (Bildquelle: arXiv)

Autonome KI-gestützte Forschungslösung könnte die Zukunft der Menschheit neu gestalten 17.08.2024

Klarna's neue ChatGPT-inspirierte KI soll besser sein als menschliche Mitarbeiter (Bild: Klarna)

Klarna verhängt Einstellungsstopp: KI-Chatbot soll besseres Erlebnis als menschliche Mitarbeiter bieten 29.02.2024

Alle 1 Beträge lesen / Antworten

Loading Comments

Diesen Artikel kommentieren / Antworten

Sony Xperia 1 VI erhält Wi-Fi 7 per...

Hacker-Attacke auf Game Freak enthü...

Autor des Originals: Codrut Nistor - Senior Tech Writer - 6676 Artikel auf Notebookcheck veröffentlicht seit 2013

Während meiner Schulzeit habe ich es gehasst, zu schreiben und Geschichten zu erfinden. Ein Jahrzehnt später wendete sich das Blatt. Seither habe ich einige Offline-Artikel veröffentlicht und bin dann in den Online-Bereich gewechselt, wo ich für große Websites, die auch 2021 noch online sind, wie Softpedia, Brothersoft, Download3000, aber ich auch für mehrere Blogs geschrieben habe, die im Laufe der Jahre verschwunden sind. Seit 2013 bin ich mit der Notebookcheck-Crew unterwegs und habe nicht vor, sie in nächster Zeit zu verlassen. Ein Faible habe ich für gute mechanische Tastaturen, Vinyl und Tape Sound, aber auch Smartphones, Streaming-Dienste und digitale Kunst.

Kontakt: @online_digi, online.digital.craft, LinkedIn

Übersetzer: Carmen Pol - Translator - 579 Artikel auf Notebookcheck veröffentlicht seit 2023

Nachdem ich den größten Teil meiner frühen Jahre in Deutschland verbracht hatte, wurde meine Erziehung als zweisprachiges Kind erleichtert. Im Jahr 2007 fand ich mich wöchentlich gezwungen, mein Windows-Betriebssystem neu zu installieren ... Also besorgte ich mir eines Tages ein MacBook Black. Es war während dieser Zeit, dass ich eine tiefe Wertschätzung für Technologie entwickelte, die mein Leben erheblich verbesserte.

Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!

> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2024-10 > Einer von Apple finanzierten Studie zufolge, kann die KI leicht von Menschen überlistet werden

Autor: Codrut Nistor, 14.10.2024 (Update: 29.01.2025)