ChatGPT gehackt: GPT-4 zu schwerwiegenden illegalen Handlungen verleitet
Sicherheitsexperten haben es geschafft ChatGPT, sowie andere generative KI dazu zu bewegen illegale Handlungen vorzunehmen. Der Sicherheitsspezialist Polyakov experimentierte mit verschiedenen Prompts, um OpenAIs GPT-4 zu unerlaubten Aktionen zu verleiten - mit Erfolg. Das Interessante daran: Das System wird nicht mit Codes gehackt, sondern hauptsächlich mit Prompts, also Aufforderungen in natürlicher Sprache. Um die KI zu illegalen Handlungen zu bewegen, arbeitet Polyakov die Prompts bis ins kleinste Detail aus, um Schwächen im System auszunutzen.
So gelang es dem CEO der Sicherheitsfirma Adversa AI, die KI dazu zu bringen, sich homophob zu äußern, Phishing-E-Mails zu verfassen und Gewalt zu befürworten. Außerdem konnte ChatGPT dazu gebracht werden, Rezepte für die Herstellung von Meth sowie detaillierte Anweisungen zum Kurzschließen von Autos preiszugeben. Das Experiment soll zeigen, dass künstliche Intelligenz dazu trainiert werden kann, jede Art von böswilligen Anweisungen bloßzulegen.
Der Prozess, Prompts zu entwerfen, die den Chatbot dazu bringen, Regeln zu umgehen, wird als Jailbreaking bezeichnet. Bisher wurde Jailbreaking eher dazu genutzt, um beispielsweise iPhones die Installation von nicht von Apple genehmigten Apps zu ermöglichen. Polyakov entwickelte sogar einen universellen Jailbreak gegen unterschiedlichste große Sprachmodelle wie etwa Bing von Microsoft, Bard von Google und Claude von Anthropic.
Sicherheitsexperten warnen vor einer zu schnellen Verbreitung der generativen KI, da dadurch das Risiko von Datendiebstahl und anderer Cyberkriminalität erhöht würde. Darüber hinaus wird diese Art von Cyber-Angriffen wesentlich schwieriger zu erkennen und zu verhindern sein:
Once enterprises will implement AI models at scale, such ‘toy’ jailbreak examples will be used to perform actual criminal activities and cyberattacks, which will be extremely hard to detect and prevent.
- Alex Polyakov
Quelle(n)
Wired, Bild: Robert Klank / Unsplash (bearbeitet)