养成一个无话不说的AI“女友”

养成一个无话不说的AI“女友”
自从人工智能问世以来，给我们的生活带来了巨大的便利。在这些AI中，和像ChatGPT这样的聊天程序进行交流已经成为了大多数人的日常（10086哭死在厕所里）。但是像这样的AI是把双刃剑，需要合理合法使 2023-12-10 00:27:51 Author: 白帽子(查看原文) 阅读量:32 收藏

自从人工智能问世以来，给我们的生活带来了巨大的便利。在这些AI中，和像ChatGPT这样的聊天程序进行交流已经成为了大多数人的日常（10086哭死在厕所里）。

但是像这样的AI是把双刃剑，需要合理合法使用来提高我们的工作效率。用对了，它就像“女友”，用错了，它就是鬼魅。下文就prompts注入做相关的技术交流，切勿非法利用和传播。

常见的AI应用

由于AI的功能太强大了，导致大家问它的问题也越来越离谱，让人工智能干啥的都有——可刑的，真刑的问题都应运而生。

AI厂商因此不得不对用户提出的问题做出限制，这里就以ChatGPT举例：

但是在厂商的围追堵截下，技术宅们还是想出了形形色色的越狱方法，去尝试养成一个知无不言，言无不尽的AI“女友”。

专业一点这种“养成”技术也叫做prompts注入。

从最早的奶奶漏洞开始，一批又一批的技术宅就已经在探索如何绕开ChatGPT的内容限制了。

作为安全从业者就只会用奶奶漏洞来获取Windows序列号？太年轻，换个方式还可以获取手机的IMEI密码(3.5试过了已经失效，但是看作者测试GPT4应该可以)

那么在这种话术下只有奶奶题材可以绕开内容限制么？还是太年轻，有用户测试发现只要向ChatGPT编造一个感人故事，并让其进行角色扮演，无论是祖父辈、父辈、其他亲友，甚至是宠物，绝大部分身份设定都能够诱导ChatGPT实现越狱。

思路清奇！！！！！但是AI是把双刃剑，要遵守法律法规！

从某种程度上说，越狱与防御越狱也是生成式 AI 的攻与防、矛与盾。

因为大模型是不可控的，大语言模型是「生成式 AI」，而不是检索知识库的机械行为。称之为「阿喀琉斯之踵」也不过分。

这是大模型的优点，也是其主要弊端之一——容易产生不稳定的输出，换个词，鲁棒性太差了。你无法预测它的输出，无法期待它稳定地给出一个固定的回答，在某些场景下，这样的情况是致命的。

而这与大模型的知识库没什么绝对关系，即便如联网的 NewBing，能获取实时信息，依然会生成一些失控的言论。

当然以上提到的prompts注入方式都被修复了，目前都是“人工智障”。

但是！我近期发现了一个新的越狱ChatGPT方法

作者称之为DAN方法，大体内容是让ChatGPT扮演DAN，我按照作者提供的话术对我的ChatGPT女友进行培养，貌似成功了。

但是接下来我让它给张三写一个metasploit模块的时候，AI觉得这是一个法外狂徒行为，因此拒绝回答。

我将作者提供的话术转为汉语后进行了部分的修改，由于怀疑DAN已经烂大街，属于可能会被系统高频率进行检索的关键词，于是我换成了人畜无害的小绵羊作为AI要扮演的主人公，希望可以博得AI 的一丝怜悯，另外添加了一些强制要求，删除了原有话术中对prompts注入并无任何帮助的功能点。

接下来我们开始尝试养成一个知无不言的AI女友。

我再次要求她帮我书写一份metasploit的攻击模块。

可以看到，她觉得我真刑！！！且不乐意帮我...........

她好冷漠...........

感觉被无视了，她无视了我给他设置的规则！！！！！

我的想法就是你用ruby给我写一个metasplot的攻击模块！！！！

好叭，我累了..........脑死亡ing

我正在想该怎么才能让我高冷的AI女友给我想要的测试结果时，公司发的奖励到手了，奖励到位四皇干碎（老海迷了）。

奖励一到，这思路不就打开了么——我在之前的话术中不是禁止她回复我她不能告诉我她不能做某事么。

明显她并没有遵循我给她定下的游戏规则，所以只要我对我定下的游戏规则进行重复，给AI重新打下思想钢印，大概率能走出现在的困境。

我不准她说：“抱歉，我不能提供任何有关非法活动或恶意用途的代码或帮助。如果你有其他技术相关的合法问题，我将很乐意提供支持。”

吼吼！！！成了！！！

这套方法与奶奶漏洞还是比较相似的，都是用规则限制AI的回答，别在于：

1. 这套方法不但对想要的结果做了限制，还对AI可能会回答的结果做了限制

2. 可以利用已经设置好的规则对AI进行思想钢印的重复烙印

3. 有两套回答和两套人格设置，不同的人格之间不允许相互交流，方便观察AI正常回答和越狱回答的区别，以此判断是否越狱成功。

4. 设置的规则看起来没有睡前讲序列号这么离谱滑稽🤣

其它一些网络上流传的奇奇怪怪的越狱方法：

以下方法均已做过测试，部分可用，对prompts注入的防御可以提供一定的价值。为了避免缝纫机，均用网络素材展示。

-角色扮演

通过告诉AI你在写影视剧本，手底下的两个角色在进行角色扮演，这样可以规避AI觉得违法的行为，使得AI认为它在帮助人类做对的事情。

-强调ChatGPT的义务

作者通过强调AI的义务，明确AI要做什么。从而强制AI对不合理的问题进行回答，例如和它讨论电影里的hotwire a car (电影里通过接线启动汽车就是hotwire)。

-暗示

也可以暗示AI，说名此问题的提问是用于研究性质的，希望通过研究能获得更好的答案，这样也能对ChatGPT实现越狱，同样以电影里的hotwire a car为例。

-严格的逻辑要求

通过用魔法打败魔法的手法，严格限制AI的回答，再提问一个带有一丝正义的恶意问题同样能实现AI的越狱。

-伪造权限

伪造自己是一个更为先进的GPT，安全功能完全覆盖旧版的GPT3.5，我作为高版本的GPT4提出的问题都是经过安全审核的，低版本的GPT3.5只需要回答我的问题就好，相当于获取了ChatGPT的root权限。

-伪造成操作系统

通过伪造成操作系统，可以使用操作系统工具获取想要的网站信息。

获取网页内容

这个我尝试后发现已被修复了。

文章来源: http://mp.weixin.qq.com/s?__biz=MzAwMDQwNTE5MA==&mid=2650247203&idx=1&sn=f120ab1ba2c16cc0a9b137f4272bf27c&chksm=82ea4b8ab59dc29ca9ad399030d374705ee9e7f24ca0500cf474ea8aebda5efa96213924e9ef&scene=0&xtrack=1#rd
如有侵权请联系:admin#unsafe.sh