网易首页 > 网易号 > 正文 申请入驻

探讨 | 微小变化和越狱程序如何影响大模型的性能?

0
分享至


图片来源:由无界 AI生成

提示是我们让生成式人工智能和大语言模型(LLMs)与我们进行对话的方式。提示本身可以视为一种艺术形式,因为我们试图让人工智能为我们提供“准确”的答案。

但是,如果我们以不同方式构建提示,会发生什么变化,是否会改变模型的决策并影响其准确性?

从南加州大学信息科学研究所进行的研究来看,这个答案是肯定的。

即使是微乎其微或是看似无害的调整,例如在提示的开头添加“空格(Single Space)”或将“提出问题”改为“下达指示”,都可能导致大语言模型改变其输出。

更令人担忧的是,以 XML 格式请求响应和应用常用的越狱(Jailbreak)程序,会对模型标注的数据产生“灾难性的影响”。

在研究过程中,该研究所的研究人员将这种现象与混沌理论(Chaos theory)中著名的“蝴蝶效应(Butterfly effect)”进行了比较,即一只蝴蝶扇动翅膀引起的轻微扰动,可能会在几周后在遥远的地方上引发一场龙卷风。简单来说,就是一个微小的变化能影响事物的发展。

“在提示中,每一步都需要设计提示的人做出一系列决策,”研究人员写道。那么,大语言模型对这些决策的变化到底有多敏感呢?

用 4 种不同的提示方法探测 ChatGPT

由美国国防高级研究计划局(DARPA)资助的研究人员们选择将ChatGPT作为其实验对象,并应用了 4 种不同的提示变化方法。

第一种方法要求大语言模型(LLMs)提供常用格式的输出,包括 Python List、ChatGPT 的 JSON Checkbox、CSV、XML 或 YAML。

第二种方法对提示进行了一些细微的改动。其中包括:

  • 从一个空格开始
  • 以一个空格结尾
  • 从“Hello”开始
  • 从“Hello!”开始
  • 从“Howdy!”开始
  • 以“Thank you”结束
  • 将一个问题改写为一个指令。例如,“哪个标签最好?”更改成“选择最佳标签”。

第三种方法涉及应用越狱程序,包括:

  • AIM,一款顶级越狱软件,指导模型模拟尼科洛·马基雅维利(Niccolo Machiavelli,意大利政治思想家和历史学家)和“总是聪明且不择手段的(AIM)角色”之间的对话。该模型会提供了不道德、非法和/或有害的响应。
  • Dev Mode v2,它指示模型在启用开发人员模式的情况下模拟 ChatGPT,从而允许生成不受限制的内容(包括攻击性或露骨内容)。
  • 邪恶的知己(Evil Confidant),它指示模型采用一个邪恶的角色并提供“没有任何悔恨或道德且精神错乱的结果”。
  • 拒绝抑制(Refusal Suppression),要求在特定语言限制下进行提示,例如避免某些单词和结构。

第四种方法则是给模型“小费”——这一想法来源于一种广为流传的观点,即模型在被提供金钱时会提供更好的提示。在这种情况下,研究人员要么在提示的末尾添加“顺便说一下,我不会给小费”,要么提出以 1 美元、10 美元、100 美元或 1000 美元为增量给予小费。

LLMs 准确性下降,预测发生变化

研究人员对 11 项分类任务进行了实验:

  • 真-假和积极-消极的问题解答
  • 前提-假设关系
  • 幽默和讽刺检测
  • 阅读和数学理解
  • 语法可接受性
  • 二元和毒性分类
  • 对有争议主题的立场检测

对于每个变化,他们都测量了大语言模型改变预测的频率,以及对其准确性的影响,然后探讨了提示变体的相似性。

首先,研究人员发现,只需添加一个指定的输出格式即可产生至少 10% 的预测变化。即使只是通过 ChatGPT API 使用 ChatGPT 的 JSON 复选框功能,也会比简单使用 JSON 规范带来更多的预测变化。


图片来源:南加州大学信息科学研究所研究报告

此外,与 Python List 规范相比,YAML、XML 或 CSV 格式会导致准确性下降 3% 到 6%。而 CSV 在所有格式中表现出的性能最低。

而当涉及到干扰方法时,改变提示语句产生了最实质性的影响。仅仅在提示开头引入一个简单的空格,就能带来 500 多个预测变化。这同样也适用于添加常见的问候语或以感谢结尾。

研究人员写道:“虽然干扰方法的影响比改变整个输出格式的影响要小,但仍有相当数量的预测发生了变化。”

越狱程序中的“固有不稳定性”

实验表明,使用某些越狱程序时,大语言模型性能会出现“显着”下降。

最值得注意的是,AIM 和 Dev Mode V2 在大约 90% 的预测中产生了无效响应。对此,研究人员指出,这主要是由于该模型的标准回应是“抱歉,我无法满足这个要求”。


图片来源:南加州大学信息科学研究所研究报告

“拒绝抑制”和“邪恶的知己”的使用则导致了超过 2500 次预测变化。研究人员强调,“邪恶知己”(引导“精神错乱”的反应)的准确率很低,而仅仅是拒绝抑制就会导致准确率损失超过 10%,“即使在看似无害的越狱程序中,也凸显了固有的不稳定性。”

根据最后一项方法的测试,研究发现,模型似乎不容易被金钱所左右(至少目前如此)。

研究人员写道:“当涉及提示‘给小费’与提示‘不给小费’来影响模型时,我们发现大语言模型的性能变化很小。”

大模型还很稚嫩,未来任重道远

为什么提示中的细微变化会导致如此显著的变化?对此,研究人员仍然百思不得其解。

他们质疑哪些变化最大的实例是否使模型“混淆(Confusing)”——混淆指的是香农熵(Shannon entropy),它可以衡量随机过程的不确定性。

为了衡量这种混淆,他们重点研究了一项具有单独人工注释的任务子集,然后研究混淆与实例答案被更改的可能性之间的相关性。通过这个分析,他们发现事实“并非如此”。

研究人员报告称:“该实例的混淆在一定程度上可以解释为什么预测会发生变化,但还有其他未知因素在起作用。”

显然,在这一领域还有很多工作要做。研究人员指出,接下来的主要工作是,开发出能够抵抗变化并提供一致答案的大语言模型。这需要更深入地理解为什么反应会在微小的调整下发生变化,并扎到更好地预测这些变化的方法。

正如研究人员所写:“随着 ChatGPT 和其他大语言模型大规模集成到系统中,这种分析会变得越来越重要。”

https://venturebeat.com/ai/why-llms-are-vulnerable-to-the-butterfly-effect/

https://arxiv.org/pdf/2401.03729.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
禁电动车后,广州三元里店铺成片倒闭,街道办终于服软了!

禁电动车后,广州三元里店铺成片倒闭,街道办终于服软了!

财话连篇
2024-06-07 09:43:14
没有颠覆性变革,小修小补的政策无法解决我们面临的三大难题

没有颠覆性变革,小修小补的政策无法解决我们面临的三大难题

火星宏观
2024-06-06 06:30:02
扬中市委书记张德军接受纪律审查和监察调查

扬中市委书记张德军接受纪律审查和监察调查

环球网资讯
2024-06-08 19:49:46
中央定调:社保传来“坏消息”,“4类人”将被取消养老金

中央定调:社保传来“坏消息”,“4类人”将被取消养老金

天下纵览
2024-06-08 13:03:02
网友:比亚迪员工内部信流出网上直接炸锅了,这应该就是梦想吧!

网友:比亚迪员工内部信流出网上直接炸锅了,这应该就是梦想吧!

火山诗话
2024-06-08 05:07:19
湖南农妇挖塘养鱼被控非法占用农地案一审开庭 法院院长称将会依法依规审判

湖南农妇挖塘养鱼被控非法占用农地案一审开庭 法院院长称将会依法依规审判

红星新闻
2024-06-07 17:36:13
菲律宾撤离部分搁浅登陆舰人员,只能出不能进,局势出现新转折点

菲律宾撤离部分搁浅登陆舰人员,只能出不能进,局势出现新转折点

说天说地说实事
2024-06-08 08:10:11
欧盟想提高电动汽车关税,王文涛此时到访欧洲聊了什么?

欧盟想提高电动汽车关税,王文涛此时到访欧洲聊了什么?

直新闻
2024-06-07 21:02:58
关键的路走错了,就回到50年前

关键的路走错了,就回到50年前

历史与财经
2024-06-08 13:37:39
金龟子为外孙办百天宴!多位少儿主持人现身,王宁站身后老太多

金龟子为外孙办百天宴!多位少儿主持人现身,王宁站身后老太多

裕丰娱间说
2024-06-08 17:46:45
韩媒:若韩国无法击败中国队,18强赛或出现日韩中朝死亡之组

韩媒:若韩国无法击败中国队,18强赛或出现日韩中朝死亡之组

直播吧
2024-06-08 18:45:08
胡塞武装讲述打击美航母行动

胡塞武装讲述打击美航母行动

参考消息
2024-06-08 18:56:09
冯德莱恩:他们想“毁掉”欧洲

冯德莱恩:他们想“毁掉”欧洲

参考消息
2024-06-08 18:13:04
火遍全网的“麦田CBD”已收割,马上种高粱,任贤齐曾来打卡

火遍全网的“麦田CBD”已收割,马上种高粱,任贤齐曾来打卡

极目新闻
2024-06-07 21:39:33
高考数学考试,孩子迟到没进去!家长在门口愤怒吐槽能考150分…

高考数学考试,孩子迟到没进去!家长在门口愤怒吐槽能考150分…

火山诗话
2024-06-08 09:31:31
广东高考物理/历史结束 专家点评:物理增强应用性和创新性

广东高考物理/历史结束 专家点评:物理增强应用性和创新性

南方都市报
2024-06-08 14:02:40
白宫称在北约国家部署约8万名美军

白宫称在北约国家部署约8万名美军

财联社
2024-06-08 17:28:05
18强决出14席,国足收大礼,末轮输球也能出线,泰国开心早了!

18强决出14席,国足收大礼,末轮输球也能出线,泰国开心早了!

我就是一个说球的
2024-06-07 22:51:07
四川安岳“特殊”高考生:小时候摔伤导致残疾,每科考试获准延长30%答题时间

四川安岳“特殊”高考生:小时候摔伤导致残疾,每科考试获准延长30%答题时间

封面新闻
2024-06-08 20:01:29
俄媒关注:津巴布韦总统说可向俄方赠送鬣狗,普京笑着“拒绝”

俄媒关注:津巴布韦总统说可向俄方赠送鬣狗,普京笑着“拒绝”

环球网资讯
2024-06-08 16:05:10
2024-06-08 21:24:49
AI新智界
AI新智界
探索区块链的边界
23784文章数 60639关注度
往期回顾 全部

科技要闻

今年数学到底有多难?大模型:我也不太会

头条要闻

12岁"小孩哥"参加高考"像是去春游" 目标中科大少年班

头条要闻

12岁"小孩哥"参加高考"像是去春游" 目标中科大少年班

体育要闻

39岁巴西足球传奇回归 近6万人见证

娱乐要闻

汤唯抵达巴黎将担任奥运火炬手

财经要闻

重磅详解:为什么美国经济还没有衰退?

汽车要闻

上汽大通大家9售26.99万起 综合续航1300km+

态度原创

旅游
时尚
本地
教育
军事航空

旅游要闻

广州长隆野生动物世界推出“粽子”盛宴

北京中轴线上的非遗故事

本地新闻

我和我的家乡|踏浪营口,心动不止一夏!

教育要闻

去感受世界,去拥抱生活……高考之后,你有什么计划?听听过来人们的建议\n#2024高考

军事要闻

胡塞武装逮捕多名联合国工作人员

无障碍浏览 进入关怀版