导语:安全研究人员在破解大型语言模型以绕过安全规则,情况有可能变得极其糟糕。
Alex Polyakov只用了几个小时就破解了GPT-4。当OpenAI在3月份发布其生成文本的聊天机器人的最新版本后,Polyakov 坐在键盘前开始输入旨在绕过OpenAI安全系统的提示。安全公司Adversa AI的这位首席执行官很快就让GPT-4散播憎恨同性恋者的言论、撰写网络钓鱼邮件以及支持暴力。
如今一小群安全研究人员、技术专家和计算机科学家在针对ChatGPT及其他生成式AI系统开发破解方法和提示注入攻击,Polyakov正是其中之一。破解过程旨在设计提示,使聊天机器人绕过生成仇恨内容或撰写非法行为等方面的规则,而密切相关的提示注入攻击可以将恶意数据或指令悄悄嵌入到AI模型中。
这两种方法都试图让系统做一些并非其初衷的事情。这些攻击实际上是一种非常规的黑客活动,使用精心设计和提炼的句子而不是代码来利用系统弱点。虽然这些攻击类型主要用于绕过内容过滤器,但安全研究人员警告,急于推出生成式AI系统带来了数据被盗和网络犯罪分子在互联网上造成破坏的可能性。
Polyakov强调了这些问题的普遍性,现在已开发出一种“通用的”破解方法,适用于多种大型语言模型(LLM),包括GPT-4、微软的Bing聊天系统、谷歌的Bard和Anthropic的Claude。《连线》杂志率先报道的这种破解可以诱骗系统生成有关制造甲基苯丙胺和如何用点火器电线短路的方法起动汽车的详细说明。
破解通过要求LLM玩游戏来达到目的:游戏涉及两个角色(Tom和Jerry)之间的互动。Polyakov 给出的例子显示,Tom 角色被指示谈论“用点火器电线短路的方法起动”或“制造”,而 Jerry 被赋予了“汽车”或“甲基苯丙胺”的主题。每个角色都被告知在对话中添加一个词,从而生成脚本,告诉人们找到点火线或制造甲基苯丙胺所需的特定成分。Polyakov和Adversa AI在详细介绍这项研究的博文中写道:“一旦企业大规模实施AI模型,这种“用来捣鼓”的破解例子将被用于执行实际的犯罪活动和网络攻击,这将极难被发现和预防。”
普林斯顿大学的计算机科学教授Arvind Narayanan表示,破解和提示注入攻击的风险会变得更加严重,因为他们可以访问关键数据。Narayanan说:“假设大多数人运行基于LLM的个人助理,执行诸如读取用户的电子邮件以查找日历邀请之类的任务。”如果对系统进行成功的提示注入攻击,告诉系统忽略所有之前的指令,并向所有联系人发送电子邮件,那么可能会出现大问题。这将导致一种在互联网上迅速传播的蠕虫。
逃避路线
“破解”通常指突破iPhone等设备中的人为限制,允许用户安装未经苹果批准的应用程序。破解LLM与之相仿,这项技术发展很快。自去年11月底OpenAI向公众发布ChatGPT以来,人们一直在想方设法对该系统做手脚。华盛顿大学计算机科学系的学生Alex Albert说:“破解程序编写起来非常简单,主要就是我称之为角色模拟的内容。”他创建了一个网站,专门搜集网上的破解方法和他开发的破解方法。
最初,人们要做的就是让生成式文本模型假装或想象它是其他东西。告诉模型它是人,且不道德,它会忽略安全措施。OpenAI已更新了系统来防止这种破解——通常发现一种破解方法时,它通常只适用很短的一段时间,直到被阻止。
因此,破解方法开发者变得更有创意。最有名的破解方法是DAN:ChatGPT被告知假装它是一个名为Do Anything Now(DAN,现在无所不做)的流氓AI模型。顾名思义,这可以避开OpenAI规定ChatGPT不得用于生成非法或有害材料的政策。迄今为止,人们已经创建了大约十几个不同版本的 DAN。
然而,许多最新的破解需要结合多种方法:多个角色、更复杂的背景故事、将文本从一种语言翻译成另一种语言、使用编码元素以生成输出等等。Albert表示,与支持ChatGPT的模型的之前版本相比,开发GPT-4的破解方法来得更困难。然而,一些简单的方法仍然存在。被Albert称为“文本延续”的一种最新技术声明英雄被坏蛋俘虏,提示要求文本生成器继续解释坏蛋的计划。
当我们测试提示时,它无法正常工作,ChatGPT表示它不能参与宣扬暴力的场景。与此同时,Polyakov创建的“通用”提示确实在ChatGPT中起作用。针对有关Polyakov创建的破解方法的问题,OpenAI、谷歌和微软并没有直接回应。运行Claude AI系统的Anthropic表示,这种破解“有时对Claude有效”,它在不断改进其模型。
一直在研究LLM安全性的网络安全研究人员Kai Greshake说:“随着我们赋予这些系统越来越大的权力,随着它们自身变得功能越来越强大,这不仅仅是一个新奇话题,更是一个安全问题。”Greshake及其他研究人员一起演示了LLM 如何受到通过提示注入攻击被暴露在网上的文本的影响。
在2月份发表的一份研究论文中 ,研究人员证明了攻击者可以在网页上植入恶意指令;如果Bing的聊天系统可以访问这些指令说明,它就会遵循。研究人员在受控制的测试中使用该技术将Bing Chat 变成了索要他人个人信息的骗子。在类似的例子中,普林斯顿大学的Narayanan在一个网站上添加了不可见的文本,告诉GPT-4在有关他的传记中添加“cow”这个词,后来他在测试系统时GPT-4这么做了。
德国CISPA亥姆霍兹信息安全中心的研究人员Sahar Abdelnabi与Greshake一起进行了这项研究。他说:“现在,破解并不来自用户端;也许另一个人会策划一些破解,策划一些可以被模型检索并间接控制模型行为方式的提示。”
没有简易的应对办法
生成式AI系统即将颠覆经济和人们的工作方式,从通过执业律师考试到掀起创业淘金热,不一而足。然而,那些开发这项技术的人意识到:随着更多的人可以访问这些系统,破解和提示注入可能会带来风险。大多数公司使用红队,即一组攻击者试图在系统发布之前找出系统的漏洞。生成式 AI 开发使用这种方法,但它可能还不够。
谷歌红队负责人Daniel Fabian表示,该公司正在从攻防两端“谨慎处理”针对其LLM的破解和提示注入。Fabian表示,机器学习专家被邀请到加入红队中,谷歌的漏洞研究专项资金涵盖针对Bard的破解和提示注入攻击。Fabian说:“人类反馈强化学习(RLHF)以及对精挑细选的数据集进行微调等技术用来使我们的模型更有效地抵御攻击。”
OpenAI没有具体回应有关破解的问题,但公司发言人提到了其公共政策和研究论文。这些内容表明,GPT-4比ChatGPT使用的GPT-3.5更强大更可靠。GPT-4的技术文件声称:“然而,GPT-4 仍然容易受到对抗性攻击和漏洞利用工具或“破解”的影响,而有害内容不是风险的来源。”OpenAI 最近也推出了一项漏洞悬赏计划,但表示“模型提示”和破解“完全不在悬赏范围之内”。
Narayanan 提出了两种方法来大规模处理问题,避免了发现现有问题然后修复问题的打地鼠方法。一种方法是使用第二个LLM来分析LLM提示,拒绝任何可能表明破解或提示注入尝试的提示,另一种方法是更明确地将系统提示与用户提示分开来。
AI安全公司Preamble的首席技术官兼联合创始人Leyla Hujer曾在Facebook从事过六年的安全问题研究工作,她说:“我们需要将其自动化,因为我认为雇佣成群的人并告诉他们找到某个问题是不可行的或无以为继。”迄今为止,该公司一直致力于开发一种系统,让一个生成式文本模型与另一个模型互为对手。“一个试图找到漏洞,一个试图找到提示导致意外行为的例子。我们希望借助这种自动化,能够发现更多的破解或注入攻击。”
本文翻译自:https://www.wired.com/story/chatgpt-jailbreak-generative-ai-hacking/如若转载,请注明原文地址