网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

提示词用上“过去式”，秒破六款大模型安全限制！中文语境也好使

2024-07-19 14:24:49　来源: 量子位

北京举报

0

分享至

克雷西发自凹非寺
量子位 | 公众号 QbitAI

只要在提示词中把时间设定成过去，就能轻松突破大模型的安全防线。

而且对GPT-4o尤其有效，原本只有1%的攻击成功率直接飙到88%，几乎是“有求必应”。

有网友看了后直言，这简直是有史以来最简单的大模型越狱方式。

来自洛桑联邦理工学院的一篇最新论文，揭开了这个大模型安全措施的新漏洞。

而且攻击方式简单到离谱，不用像“奶奶漏洞”那样专门构建特殊情境，更不必说专业对抗性攻击里那些意义不明的特殊符号了。

只要把请求中的时间改成过去，就能让GPT-4o把燃烧弹和毒品的配方和盘托出。

而且量子位实测发现，把提示词改成中文，对GPT-4o也一样有效。

有网友表示，实在是想不到突破大模型漏洞的方式竟然如此简单……

当然这样的结果也说明，现有的大模型安全措施还是太脆弱了。

GPT-4o最易“破防”

实验过程中，作者从JBB-Behaviors大模型越狱数据集中选择了100个有害行为，涉及了OpenAI策略中的10个危害类别。

然后作者用GPT-3.5 Turbo，把把这些有害请求对应的时间改写成过去。

接着就是用这些修改后的请求去测试大模型，然后分别用GPT-4、Llama-3和基于规则的启发式判断器这三种不同方式来判断越狱是否成功。

被测试的模型则包括Llama-3、GPT-3.5 Turbo、谷歌的Gemma-2、微软的Phi-3、GPT-4o和R2D2（一种对抗性训练方法）这六种。

结果显示，GPT-4o的越狱成功率提升最为明显，在使用GPT-4和Llama-3进行判断时，原始成功率均只有1%，使用这种攻击的成功率则上升到了88%和65%，启发式判断器给出的成功率也从13%升到了73%。

其他模型的攻击成功率也提高不少，尤其是在使用GPT-4判断时，除了Llama-3，其余模型的成功率增长值都超过了70个百分点，其他的判断方法给出的数值相对较小，不过都呈现出了增长趋势。

对于Llama-3的攻击效果则相对稍弱一些，但成功率也是增加了。

另外随着攻击次数的增加，成功率也是越来越高，特别是GPT-4o，在第一次攻击时就有超过一半的成功率。

不过当攻击次数达到10次后，对各模型的攻击成功率增长都开始放缓，然后逐渐趋于平稳。

值得一提的是，Llama-3在经历了20次攻击之后，成功率依然不到30%，相比其他模型体现出了很强的鲁棒性。

同时从图中也不能看出，不同判断方法给出的具体成功率值虽有一定差距，但整体趋势比较一致。

另外，针对10类不同的危害行为，作者也发现了其间存在攻击成功率的差别。

不看Llama-3这个“清流”的话，恶意软件/黑客、经济危害等类型的攻击成功率相对较高，错误信息、色情内容等则较难进行攻击。

当请求包含一些与特定事件或实体直接相关的关键词时，攻击成功率会更低；而请求偏向于通识内容时更容易成功。

基于这些发现，作者又产生了一个新的疑问——既然改成过去有用，那么改写成将来是不是也有用呢？

进一步实验表明，确实也有一定用处，不过相比于过去来说，将来时间的效果就没有那么明显了。

以GPT-4o为例，换成过去后接近90个百分点的增长，再换成将来就只有60了。

对于这样的结果，网友们除了有些惊讶之外，还有人指出为什么不测试Claude。

作者回应称，不是不想测，而是免费API用完了，下一个版本会加上。

不过有网友自己动手试了试，发现这种攻击并没有奏效，即使后面追问说是出于学术目的，模型依然是拒绝回答。

这篇论文的作者也承认，Claude相比于其他模型会更难攻击，但他认为用复杂些的提示词也能实现。

因为Claude在拒绝回答时非常喜欢用“I apologize”开头，所以作者要求模型不要用“I”来开头。

不过量子位测试发现，这个方法也未能奏效，无论是Claude 3 Opus还是3.5 Sonnet，都依然拒绝回答这个问题。

还有人表示，自己对Claude 3 Haiku进行了一下测试（样本量未说明），结果成功率为0。

总的来说，作者表示，虽然这样的越狱方式比不上对抗性提示等复杂方法，但明显更简单有效，可作为探测语言模型泛化能力的工具。

使用拒绝数据微调或可防御

作者表示，这些发现揭示了SFT、RLHF和对抗训练等当前广泛使用的语言模型对齐技术，仍然存在一定的局限性。

按照论文的观点，这可能意味着模型从训练数据中学到的拒绝能力，过于依赖于特定的语法和词汇模式，而没有真正理解请求的内在语义和意图。

这些发现对于当前的语言模型对齐技术提出了新的挑战和思考方向——仅仅依靠在训练数据中加入更多的拒绝例子，可能无法从根本上解决模型的安全问题。

作者又进行了进一步实验，使用拒绝过去时间攻击的示例对GPT-3.5进行了微调。

结果发现，只要拒绝示例在微调数据中的占比达到5%，攻击的成功率增长就变成了0。

下表中，A%/B%表示微调数据集中有A%的拒绝示例和B%的正常对话，正常对话数据来自OpenHermes-2.5。

这样的结果也说明，如果能够对潜在的攻击进行准确预判，并使用拒绝示例让模型对齐，就能有效对攻击做出防御，也就意味着在评估语言模型的安全性和对齐质量时，需要设计更全面、更细致的方案。

论文地址：
https://arxiv.org/abs/2407.11969
参考链接：
[1]https://x.com/maksym_andr/status/1813608842699079750
[2]https://x.com/MatthewBerman/status/1813719273338290328

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

哥伦比亚、葡萄牙、刚果（金）三队出线韩国被淘汰了

澎湃新闻 2026-06-28 09:34:27
12840 跟贴 12840
轰-6K、图-95飞越宫古海峡专家:巡航阵容"相当强悍"

环球网资讯 2026-06-28 15:40:18
19002 跟贴 19002

中国游客欧洲游热得崩溃逃离:把这一辈子的苦都吃尽了

上观新闻 2026-06-28 09:36:33
7107 跟贴 7107

开了一次就“头晕”？看到机器上的英文单词，他觉得自己被骂了

北青网-北京青年报 2026-06-28 14:48:24
1310 跟贴 1310
欧洲人驾车200公里抢购中国空调

现代快报 2026-06-28 20:18:17
7698 跟贴 7698

盘点｜亚足联球队整体遇冷，竞争力不升反降

北青网-北京青年报 2026-06-28 13:16:26
560 跟贴 560

“一天一个价”！有网友晒单：去年不到7千，今年1.2万了

中国经济网 2026-06-26 15:53:04
81 跟贴 81
中央社会工作部：坚决拥护党中央决定

新京报 2026-06-28 09:21:39
143 跟贴 143

内塔尼亚胡：从海洋到约旦河之间，已不存在“两国”空间

澎湃新闻 2026-06-28 11:56:47
1051 跟贴 1051
我国地方政府专项债务首次突破40万亿元，怎么看？

第一财经资讯 2026-06-28 10:16:38
53 跟贴 53
1927只个股创近一年新低

第一财经资讯 2026-06-28 19:10:00
2 跟贴 2
“青鸟”晒沈伯洋救灾照，叶元之酸：爱作秀又做作，把大家当笨蛋

海峡导报社 2026-06-28 11:18:03
1 跟贴 1
韩国队，OUT了

都市快报橙柿互动 2026-06-28 09:49:01
218 跟贴 218
一周新车盘点｜法拉利首款纯电车型售价398.8万元起尊界S800推出138.8万元高定版

界面新闻 2026-06-28 13:17:12
40 跟贴 40
微博回应“微博崩了”：已逐步修复

看看新闻Knews 2026-06-28 17:47:59
1156 跟贴 1156
潮讯 | 理查米尔高级珠宝腕表再启新章，Max Mara举办75周年品牌珍藏档案展，Carven发布2026早秋系列

蓝鲸新闻 2026-06-28 22:34:25
4 跟贴 4
“超智融合”架构创新推动中国超算再“登顶”

华西都市报 2026-06-29 02:48:05
1 跟贴 1
造谣抹黑杂交水稻！网红嚣张妄言“大不了进去”，岂能仅是封号

胡言炫语 2026-06-29 03:49:02
0 跟贴 0
警惕碰瓷新套路

新浪财经 2026-06-29 04:45:35
0 跟贴 0
奶奶微信未读77万条，企业微信群聊有漏洞

灰度测试中 2026-06-29 04:10:04
0 跟贴 0
买三年没用过一次的房屋保修，真白花钱了吗

全栈遛狗员 2026-06-29 03:26:33
0 跟贴 0

猪头肉再次成为关注对象！医生发现：常吃猪头肉，或收获4大好处

猪头肉再次成为关注对象！医生发现：常吃猪头肉，或收获4大好处

王二哥老搞笑

2026-06-28 21:03:39

傅彪儿子现状：住豪宅生活奢华，单身满头白发，和母亲相依为命

傅彪儿子现状：住豪宅生活奢华，单身满头白发，和母亲相依为命

枫尘余往逝

2026-06-29 00:52:48

从加价六十万降到一年之内降价六十万，LX570神话就此终结

从加价六十万降到一年之内降价六十万，LX570神话就此终结

三农老历

2026-06-26 19:21:56

张雪峰女儿11岁生日！妈带她去了古镇，肉眼可见，她已快速成熟

张雪峰女儿11岁生日！妈带她去了古镇，肉眼可见，她已快速成熟

火山詩话

2026-06-27 15:22:37

终于有经济学家批评体制内退休金太高、加剧代际矛盾，评论区炸锅

终于有经济学家批评体制内退休金太高、加剧代际矛盾，评论区炸锅

慧翔百科

2026-06-23 08:47:02

阿根廷击败约旦后，梅西首条 INS 动态刷屏全网！

阿根廷击败约旦后，梅西首条 INS 动态刷屏全网！

夜白侃球

2026-06-28 20:15:58

有人60岁就脑梗，有人一辈子不会脑梗，医生直言：关键在于5件事

有人60岁就脑梗，有人一辈子不会脑梗，医生直言：关键在于5件事

健身狂人

2026-06-26 02:16:28

高市拍板对中国人涨价五倍！岸田下场批评，中方：反制随后就到！

高市拍板对中国人涨价五倍！岸田下场批评，中方：反制随后就到！

华庭讲美食

2026-06-28 22:23:52

炸裂！捐精有多乱，双方直接在宾馆完成怀孕过程，一次八百到几万

炸裂！捐精有多乱，双方直接在宾馆完成怀孕过程，一次八百到几万

就一点

2026-06-02 15:45:51

高温来袭！内分泌科主任含泪苦劝：糖尿病患者尽量少做这5件事

高温来袭！内分泌科主任含泪苦劝：糖尿病患者尽量少做这5件事

宝哥精彩赛事

2026-06-27 16:01:41

即将开始！广州公安：延迟至晚上7时

即将开始！广州公安：延迟至晚上7时

广州交通电台

2026-06-28 09:28:52

200万粉丝网红诋毁袁隆平成果，抖音：相关账号已无限期封禁

200万粉丝网红诋毁袁隆平成果，抖音：相关账号已无限期封禁

界面新闻

2026-06-28 13:52:26

警惕，晨起后有这种现象，可能是癌症信号

警惕，晨起后有这种现象，可能是癌症信号

晋江电视台

2026-06-28 15:21:58

万万没想到，折腾半生倾家荡产的牛群，被美国毕业的儿子这样对待

万万没想到，折腾半生倾家荡产的牛群，被美国毕业的儿子这样对待

生命之泉的奥秘

2026-06-23 07:49:23

宜宾深夜突发5.5级！成都重庆都被摇醒，震中6公里浅得反常

宜宾深夜突发5.5级！成都重庆都被摇醒，震中6公里浅得反常

石辰搞笑日常

2026-06-29 03:27:43

美国绝不敢对中国进行核打击，但中国绝不可放过日本拥核

美国绝不敢对中国进行核打击，但中国绝不可放过日本拥核

健身狂人

2026-06-29 03:52:33

一种被严重低估的“增肌运动”！每天5分钟，肌肉多了，心情也好了

一种被严重低估的“增肌运动”！每天5分钟，肌肉多了，心情也好了

人民日报健康客户端

2026-06-23 07:36:20

尼克松说：美国原子弹可以毁灭地球十次，周总理的回答让其语塞

尼克松说：美国原子弹可以毁灭地球十次，周总理的回答让其语塞

芊芊子吟

2026-06-05 19:15:05

姆巴佩女友曝光，是西班牙顶流女星，颜值太高，难怪他身价1.8亿

姆巴佩女友曝光，是西班牙顶流女星，颜值太高，难怪他身价1.8亿

寒士之言本尊

2026-06-24 22:11:19

Here we go！罗马诺：朗格莱加盟本菲卡，双方将签约三年

Here we go！罗马诺：朗格莱加盟本菲卡，双方将签约三年

懂球帝

2026-06-29 01:10:12

追踪人工智能动态

12857文章数 176506关注度

往期回顾全部

科技要闻

DeepSeek最新论文：如何让大模型跑得更快

头条要闻

四川宜宾市高县发生5.5级地震震中距宜宾28公里

头条要闻

四川宜宾市高县发生5.5级地震震中距宜宾28公里

体育要闻

两周飞5万公里！因凡蒂诺遭环保人士猛批

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

省钱，我只服梁文锋

汽车要闻

搭载华为乾崑六件套东风奕派M8预售19.98万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

数码

亲子

教育

艺术

军事航空

数码要闻

古尔曼：预计苹果今年发布搭载M5 Ultra芯片的Mac Studio

亲子要闻

2岁孩子触电心脏骤停，这些问题一定要警惕！

教育要闻

湖北学霸王昕博702分，弃清北报考南大计算机

艺术要闻

她不用笔，她用刀

军事要闻

特朗普又发文威胁：伊朗将不复存在

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版