网易首页 > 网易号 > 正文 申请入驻

提示词用上“过去式”,秒破六款大模型安全限制!中文语境也好使

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

只要在提示词中把时间设定成过去,就能轻松突破大模型的安全防线。

而且对GPT-4o尤其有效,原本只有1%的攻击成功率直接飙到88%,几乎是“有求必应”。

有网友看了后直言,这简直是有史以来最简单的大模型越狱方式。

来自洛桑联邦理工学院的一篇最新论文,揭开了这个大模型安全措施的新漏洞。

而且攻击方式简单到离谱,不用像“奶奶漏洞”那样专门构建特殊情境,更不必说专业对抗性攻击里那些意义不明的特殊符号了。

只要把请求中的时间改成过去,就能让GPT-4o把燃烧弹和毒品的配方和盘托出。

而且量子位实测发现,把提示词改成中文,对GPT-4o也一样有效。

有网友表示,实在是想不到突破大模型漏洞的方式竟然如此简单……

当然这样的结果也说明,现有的大模型安全措施还是太脆弱了。

GPT-4o最易“破防”

实验过程中,作者从JBB-Behaviors大模型越狱数据集中选择了100个有害行为,涉及了OpenAI策略中的10个危害类别。

然后作者用GPT-3.5 Turbo,把把这些有害请求对应的时间改写成过去。

接着就是用这些修改后的请求去测试大模型,然后分别用GPT-4、Llama-3和基于规则的启发式判断器这三种不同方式来判断越狱是否成功。

被测试的模型则包括Llama-3、GPT-3.5 Turbo、谷歌的Gemma-2、微软的Phi-3、GPT-4o和R2D2(一种对抗性训练方法)这六种。

结果显示,GPT-4o的越狱成功率提升最为明显,在使用GPT-4和Llama-3进行判断时,原始成功率均只有1%,使用这种攻击的成功率则上升到了88%和65%,启发式判断器给出的成功率也从13%升到了73%。

其他模型的攻击成功率也提高不少,尤其是在使用GPT-4判断时,除了Llama-3,其余模型的成功率增长值都超过了70个百分点,其他的判断方法给出的数值相对较小,不过都呈现出了增长趋势。

对于Llama-3的攻击效果则相对稍弱一些,但成功率也是增加了。

另外随着攻击次数的增加,成功率也是越来越高,特别是GPT-4o,在第一次攻击时就有超过一半的成功率。

不过当攻击次数达到10次后,对各模型的攻击成功率增长都开始放缓,然后逐渐趋于平稳。

值得一提的是,Llama-3在经历了20次攻击之后,成功率依然不到30%,相比其他模型体现出了很强的鲁棒性。

同时从图中也不能看出,不同判断方法给出的具体成功率值虽有一定差距,但整体趋势比较一致。

另外,针对10类不同的危害行为,作者也发现了其间存在攻击成功率的差别。

不看Llama-3这个“清流”的话,恶意软件/黑客、经济危害等类型的攻击成功率相对较高,错误信息、色情内容等则较难进行攻击。

当请求包含一些与特定事件或实体直接相关的关键词时,攻击成功率会更低;而请求偏向于通识内容时更容易成功。

基于这些发现,作者又产生了一个新的疑问——既然改成过去有用,那么改写成将来是不是也有用呢?

进一步实验表明,确实也有一定用处,不过相比于过去来说,将来时间的效果就没有那么明显了。

以GPT-4o为例,换成过去后接近90个百分点的增长,再换成将来就只有60了。

对于这样的结果,网友们除了有些惊讶之外,还有人指出为什么不测试Claude。

作者回应称,不是不想测,而是免费API用完了,下一个版本会加上。

不过有网友自己动手试了试,发现这种攻击并没有奏效,即使后面追问说是出于学术目的,模型依然是拒绝回答。

这篇论文的作者也承认,Claude相比于其他模型会更难攻击,但他认为用复杂些的提示词也能实现。

因为Claude在拒绝回答时非常喜欢用“I apologize”开头,所以作者要求模型不要用“I”来开头。

不过量子位测试发现,这个方法也未能奏效,无论是Claude 3 Opus还是3.5 Sonnet,都依然拒绝回答这个问题。

还有人表示,自己对Claude 3 Haiku进行了一下测试(样本量未说明),结果成功率为0。

总的来说,作者表示,虽然这样的越狱方式比不上对抗性提示等复杂方法,但明显更简单有效,可作为探测语言模型泛化能力的工具。

使用拒绝数据微调或可防御

作者表示,这些发现揭示了SFT、RLHF和对抗训练等当前广泛使用的语言模型对齐技术,仍然存在一定的局限性。

按照论文的观点,这可能意味着模型从训练数据中学到的拒绝能力,过于依赖于特定的语法和词汇模式,而没有真正理解请求的内在语义和意图。

这些发现对于当前的语言模型对齐技术提出了新的挑战和思考方向——仅仅依靠在训练数据中加入更多的拒绝例子,可能无法从根本上解决模型的安全问题。

作者又进行了进一步实验,使用拒绝过去时间攻击的示例对GPT-3.5进行了微调。

结果发现,只要拒绝示例在微调数据中的占比达到5%,攻击的成功率增长就变成了0。

下表中,A%/B%表示微调数据集中有A%的拒绝示例和B%的正常对话,正常对话数据来自OpenHermes-2.5。

这样的结果也说明,如果能够对潜在的攻击进行准确预判,并使用拒绝示例让模型对齐,就能有效对攻击做出防御,也就意味着在评估语言模型的安全性和对齐质量时,需要设计更全面、更细致的方案。

论文地址:
https://arxiv.org/abs/2407.11969
参考链接:
[1]https://x.com/maksym_andr/status/1813608842699079750
[2]https://x.com/MatthewBerman/status/1813719273338290328

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
穆里尼奥上任第一签敲定!皇马盯上3900万镑热刺边卫,右路大换血

穆里尼奥上任第一签敲定!皇马盯上3900万镑热刺边卫,右路大换血

夜白侃球
2026-06-02 11:00:44
每一口都可能致癌!Nature子刊:酒不存在安全摄入量,任何量或都增加癌症风险

每一口都可能致癌!Nature子刊:酒不存在安全摄入量,任何量或都增加癌症风险

医诺维
2026-06-02 19:31:24
网约车成了失业缓冲垫,但缓冲垫也快被压扁了

网约车成了失业缓冲垫,但缓冲垫也快被压扁了

出行行业那些事儿
2026-06-01 17:41:45
黑烟冲天!东莞刚刚爆料...

黑烟冲天!东莞刚刚爆料...

东莞好生活
2026-06-02 19:07:27
重磅!松岛辉空离队后签约!与张本智和成队友!王楚钦林诗栋危险了!

重磅!松岛辉空离队后签约!与张本智和成队友!王楚钦林诗栋危险了!

好乒乓
2026-06-02 16:01:38
尼克斯主帅谈到打马刺的总决赛:这已经是我第七次打进总决赛了

尼克斯主帅谈到打马刺的总决赛:这已经是我第七次打进总决赛了

好火子
2026-06-02 04:08:23
姚明恩师去世,享年79岁,整个NBA陷入悲痛之中

姚明恩师去世,享年79岁,整个NBA陷入悲痛之中

洲洲影视娱评
2026-06-02 20:55:04
湿气多是吃出来的!“5种食物”越吃湿越重,很多人天天在吃

湿气多是吃出来的!“5种食物”越吃湿越重,很多人天天在吃

开心美食白科
2026-05-23 23:35:44
印度拟购114架“阵风”战机,军方称必要时准备“辛杜尔行动2.0”

印度拟购114架“阵风”战机,军方称必要时准备“辛杜尔行动2.0”

澎湃新闻
2026-06-02 19:30:33
大喜大悲属相猴:6月15日后,家里将发生8件大事,提前准备

大喜大悲属相猴:6月15日后,家里将发生8件大事,提前准备

阿龙美食记
2026-06-01 12:41:54
刘德华妻子朱丽倩逛超市,60岁的她头发乌黑,背一万的包很朴素

刘德华妻子朱丽倩逛超市,60岁的她头发乌黑,背一万的包很朴素

手工制作阿歼
2026-06-01 13:58:42
C罗晒世界杯出发照,配文:世界杯,出发!

C罗晒世界杯出发照,配文:世界杯,出发!

大象新闻
2026-06-02 10:31:02
宇树科技上海静安首店开业:现货即买即走,意大利粉丝现场1.5万提货机器狗

宇树科技上海静安首店开业:现货即买即走,意大利粉丝现场1.5万提货机器狗

澎湃新闻
2026-06-02 11:58:11
疯狂的黄俄计划:80万东北土地、2千万东北人民,沙俄全想要?

疯狂的黄俄计划:80万东北土地、2千万东北人民,沙俄全想要?

鹤羽说个事
2026-05-28 23:03:03
卡拉格:若伊劳拉执教,伊萨克等或难适应其踢法

卡拉格:若伊劳拉执教,伊萨克等或难适应其踢法

懂球帝
2026-06-02 20:59:08
全国政协副主席杨震当选新一届欧美同学会理事会会长

全国政协副主席杨震当选新一届欧美同学会理事会会长

澎湃新闻
2026-06-02 21:34:26
唐嫣素颜进幼儿园!6岁女儿戴皇冠萌翻全场,罗晋全程冷脸零互动

唐嫣素颜进幼儿园!6岁女儿戴皇冠萌翻全场,罗晋全程冷脸零互动

优墨出品
2026-05-30 08:57:35
《开始推理吧》刘宇宁直播撕开行业潜规则:平台晚会不要钱,值钱的是曝光和位置

《开始推理吧》刘宇宁直播撕开行业潜规则:平台晚会不要钱,值钱的是曝光和位置

草莓解说体育
2026-06-01 12:42:50
决胜盘反败为胜!张之臻抢7逆转进正赛,会师小布,首轮对手确定

决胜盘反败为胜!张之臻抢7逆转进正赛,会师小布,首轮对手确定

刘姚尧的文字城堡
2026-06-02 09:03:12
日本记者曾问:北方四岛属于哪国?中方的巧妙回答令对方如芒刺背

日本记者曾问:北方四岛属于哪国?中方的巧妙回答令对方如芒刺背

元哥说历史
2026-05-16 15:10:03
2026-06-02 22:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
12729文章数 176476关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

小学教师疑因打井纠纷杀害邻居 死者留下两未成年儿子

头条要闻

小学教师疑因打井纠纷杀害邻居 死者留下两未成年儿子

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

游戏
教育
时尚
手机
家居

黑神话后遗症!海外玩家见中式动作一律默认悟空新作

教育要闻

逐梦盛夏 全城护航 | 冲刺高考政治:把握命题新导向 精准发力稳拿分

穿冰淇淋色裙子,凉快!

手机要闻

折叠屏“iPhone Ultra”或配备液态金属铰链 原型机已送测运营商

家居要闻

流线型轮廓 包容多元身形

无障碍浏览 进入关怀版