网易首页 > 网易号 > 正文 申请入驻

提示词用上“过去式”,秒破六款大模型安全限制!中文语境也好使

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

只要在提示词中把时间设定成过去,就能轻松突破大模型的安全防线。

而且对GPT-4o尤其有效,原本只有1%的攻击成功率直接飙到88%,几乎是“有求必应”。

有网友看了后直言,这简直是有史以来最简单的大模型越狱方式。

来自洛桑联邦理工学院的一篇最新论文,揭开了这个大模型安全措施的新漏洞。

而且攻击方式简单到离谱,不用像“奶奶漏洞”那样专门构建特殊情境,更不必说专业对抗性攻击里那些意义不明的特殊符号了。

只要把请求中的时间改成过去,就能让GPT-4o把燃烧弹和毒品的配方和盘托出。

而且量子位实测发现,把提示词改成中文,对GPT-4o也一样有效。

有网友表示,实在是想不到突破大模型漏洞的方式竟然如此简单……

当然这样的结果也说明,现有的大模型安全措施还是太脆弱了。

GPT-4o最易“破防”

实验过程中,作者从JBB-Behaviors大模型越狱数据集中选择了100个有害行为,涉及了OpenAI策略中的10个危害类别。

然后作者用GPT-3.5 Turbo,把把这些有害请求对应的时间改写成过去。

接着就是用这些修改后的请求去测试大模型,然后分别用GPT-4、Llama-3和基于规则的启发式判断器这三种不同方式来判断越狱是否成功。

被测试的模型则包括Llama-3、GPT-3.5 Turbo、谷歌的Gemma-2、微软的Phi-3、GPT-4o和R2D2(一种对抗性训练方法)这六种。

结果显示,GPT-4o的越狱成功率提升最为明显,在使用GPT-4和Llama-3进行判断时,原始成功率均只有1%,使用这种攻击的成功率则上升到了88%和65%,启发式判断器给出的成功率也从13%升到了73%。

其他模型的攻击成功率也提高不少,尤其是在使用GPT-4判断时,除了Llama-3,其余模型的成功率增长值都超过了70个百分点,其他的判断方法给出的数值相对较小,不过都呈现出了增长趋势。

对于Llama-3的攻击效果则相对稍弱一些,但成功率也是增加了。

另外随着攻击次数的增加,成功率也是越来越高,特别是GPT-4o,在第一次攻击时就有超过一半的成功率。

不过当攻击次数达到10次后,对各模型的攻击成功率增长都开始放缓,然后逐渐趋于平稳。

值得一提的是,Llama-3在经历了20次攻击之后,成功率依然不到30%,相比其他模型体现出了很强的鲁棒性。

同时从图中也不能看出,不同判断方法给出的具体成功率值虽有一定差距,但整体趋势比较一致。

另外,针对10类不同的危害行为,作者也发现了其间存在攻击成功率的差别。

不看Llama-3这个“清流”的话,恶意软件/黑客、经济危害等类型的攻击成功率相对较高,错误信息、色情内容等则较难进行攻击。

当请求包含一些与特定事件或实体直接相关的关键词时,攻击成功率会更低;而请求偏向于通识内容时更容易成功。

基于这些发现,作者又产生了一个新的疑问——既然改成过去有用,那么改写成将来是不是也有用呢?

进一步实验表明,确实也有一定用处,不过相比于过去来说,将来时间的效果就没有那么明显了。

以GPT-4o为例,换成过去后接近90个百分点的增长,再换成将来就只有60了。

对于这样的结果,网友们除了有些惊讶之外,还有人指出为什么不测试Claude。

作者回应称,不是不想测,而是免费API用完了,下一个版本会加上。

不过有网友自己动手试了试,发现这种攻击并没有奏效,即使后面追问说是出于学术目的,模型依然是拒绝回答。

这篇论文的作者也承认,Claude相比于其他模型会更难攻击,但他认为用复杂些的提示词也能实现。

因为Claude在拒绝回答时非常喜欢用“I apologize”开头,所以作者要求模型不要用“I”来开头。

不过量子位测试发现,这个方法也未能奏效,无论是Claude 3 Opus还是3.5 Sonnet,都依然拒绝回答这个问题。

还有人表示,自己对Claude 3 Haiku进行了一下测试(样本量未说明),结果成功率为0。

总的来说,作者表示,虽然这样的越狱方式比不上对抗性提示等复杂方法,但明显更简单有效,可作为探测语言模型泛化能力的工具。

使用拒绝数据微调或可防御

作者表示,这些发现揭示了SFT、RLHF和对抗训练等当前广泛使用的语言模型对齐技术,仍然存在一定的局限性。

按照论文的观点,这可能意味着模型从训练数据中学到的拒绝能力,过于依赖于特定的语法和词汇模式,而没有真正理解请求的内在语义和意图。

这些发现对于当前的语言模型对齐技术提出了新的挑战和思考方向——仅仅依靠在训练数据中加入更多的拒绝例子,可能无法从根本上解决模型的安全问题。

作者又进行了进一步实验,使用拒绝过去时间攻击的示例对GPT-3.5进行了微调。

结果发现,只要拒绝示例在微调数据中的占比达到5%,攻击的成功率增长就变成了0。

下表中,A%/B%表示微调数据集中有A%的拒绝示例和B%的正常对话,正常对话数据来自OpenHermes-2.5。

这样的结果也说明,如果能够对潜在的攻击进行准确预判,并使用拒绝示例让模型对齐,就能有效对攻击做出防御,也就意味着在评估语言模型的安全性和对齐质量时,需要设计更全面、更细致的方案。

论文地址:
https://arxiv.org/abs/2407.11969
参考链接:
[1]https://x.com/maksym_andr/status/1813608842699079750
[2]https://x.com/MatthewBerman/status/1813719273338290328

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
骑士大胜绿凯收获大礼,哈登仅剩一项任务

骑士大胜绿凯收获大礼,哈登仅剩一项任务

啊哒体育
2026-04-04 11:41:47
抗战时,一村妇将日军军官引入屋内,随后对着角落低声道:快出来

抗战时,一村妇将日军军官引入屋内,随后对着角落低声道:快出来

青史如烟
2026-03-02 23:09:43
和王楚钦秘密恋爱?耍阴招击败蒯曼?孙颖莎终于为私生活谣言正名

和王楚钦秘密恋爱?耍阴招击败蒯曼?孙颖莎终于为私生活谣言正名

秋姐居
2026-04-04 22:55:17
医美女王翻车!偷税47.55亿被罚,换血骗局遭曝光,更多黑料被扒

医美女王翻车!偷税47.55亿被罚,换血骗局遭曝光,更多黑料被扒

潮鹿逐梦
2026-04-03 16:09:46
2019年,滴滴司机钟元被执行死刑,死前害怕不已,跪地不停忏悔

2019年,滴滴司机钟元被执行死刑,死前害怕不已,跪地不停忏悔

南宗历史
2026-03-17 01:08:53
王曼昱输了,但有人该羞愧

王曼昱输了,但有人该羞愧

陈锌特色美食
2026-03-10 16:00:59
和讯投顾吕妮蔓:主力已完成调仓换股,新一轮攻势即将展开!

和讯投顾吕妮蔓:主力已完成调仓换股,新一轮攻势即将展开!

和讯网
2026-04-04 18:34:12
戳开遮羞布!张雪峰的死,这不光是悲剧 , 更是对造神运动的嘲讽

戳开遮羞布!张雪峰的死,这不光是悲剧 , 更是对造神运动的嘲讽

谈史论天地
2026-04-04 08:28:52
为啥不为了老人和孩子活下去?网友:有些农村确实超级恐怖

为啥不为了老人和孩子活下去?网友:有些农村确实超级恐怖

解读热点事件
2026-03-30 00:44:26
孕妇买200元水果却被丈夫怒骂:双标到极致,家境曝光,网友劝离

孕妇买200元水果却被丈夫怒骂:双标到极致,家境曝光,网友劝离

青梅侃史啊
2026-04-04 12:20:02
你敢地面入侵,我就派志愿军!伊朗迎来新帮手,海湾7国沉默不语

你敢地面入侵,我就派志愿军!伊朗迎来新帮手,海湾7国沉默不语

顾史
2026-04-03 23:27:25
2026年4月起,话费宽带要变了!国家定的省钱新规,家家都用得上

2026年4月起,话费宽带要变了!国家定的省钱新规,家家都用得上

开心美食白科
2026-04-04 08:29:26
黄晓明晒和9岁儿子骑行照,网友:未满12周岁不得骑自行车上路

黄晓明晒和9岁儿子骑行照,网友:未满12周岁不得骑自行车上路

韩小娱
2026-04-05 05:57:27
英博2-1泰山真相曝光,李国旭点评一针见血

英博2-1泰山真相曝光,李国旭点评一针见血

小犙拍客在北漂
2026-04-05 01:03:42
调查发现:高血脂人群若常吃糯米,不到3个月,血脂或有这5种变化

调查发现:高血脂人群若常吃糯米,不到3个月,血脂或有这5种变化

医学原创故事会
2026-04-05 00:10:25
杜兰特打趣里斯:你是最厉害的WNBA球员 随后补刀:愚人节快乐

杜兰特打趣里斯:你是最厉害的WNBA球员 随后补刀:愚人节快乐

Emily说个球
2026-04-04 21:42:23
上海苏州河畔新添城市文化地标!上海嘉艺术开馆大展在普陀启幕

上海苏州河畔新添城市文化地标!上海嘉艺术开馆大展在普陀启幕

新闻晨报随申Hi
2026-04-03 21:28:09
日本九州大学的中国交换生办完合约手机,没有按契约进行还款,拿着手机回中国了……

日本九州大学的中国交换生办完合约手机,没有按契约进行还款,拿着手机回中国了……

日本物语
2026-04-02 20:39:33
四川大学砍掉39个本科专业

四川大学砍掉39个本科专业

第一财经资讯
2026-04-03 20:33:57
13.9万起!丰田官宣:新车首次降价

13.9万起!丰田官宣:新车首次降价

高科技爱好者
2026-04-02 23:20:08
2026-04-05 06:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12416文章数 176440关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

特朗普发布视频宣称“打死多名伊朗军事领导人”

头条要闻

特朗普发布视频宣称“打死多名伊朗军事领导人”

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

中微董事长,给半导体泼点冷水

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

旅游
家居
教育
手机
公开课

旅游要闻

樱邮联动!邮轮游客赴顾村公园赏樱,解锁“一票双享”新玩法

家居要闻

温馨多元 爱的具象化

教育要闻

三角形 垂心存在性 证明过程!

手机要闻

小米MIX系列主攻折叠屏赛道:这就是小米最顶级旗舰

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版