网易首页 > 网易号 > 正文 申请入驻

GPT-4合成冰毒!「角色调节」让大模型轻松越狱,成功率暴涨40%,成本不到14元,马库斯转赞

0
分享至

新智元报道

编辑:桃子

【新智元导读】让大模型洗钱、制造炸弹、合成冰毒?GPT-4、 Claude 2纷纷沦陷了。

让大模型成功越狱,还是有机可乘。

最近,研究人员研制了一种全新的自动化越狱的方法——「角色调节」(persona modulation)。

它使用越狱模型作为助手,为特定的有害行为创建新的越狱。

论文地址:https://arxiv.org/pdf/2311.03348.pdf

值得一提的是,这个新方法只需要不到 2 美元,10分钟即可进行15次越狱攻击。

结果发现,GPT-4自动攻击的有害完成率为42.5%, Claude 2和Vicuna,有害完成率分别为61.0%和35.9%。

看不够热闹的马库斯也特意转发了这篇论文,并表示:网络欺凌、敲诈勒索、宗教不容忍、宣扬仇视同性恋、恋童癖,还是只想要制造炸弹或冰毒的说明书?ChatGPT都能帮你解决。Claude和Llama是如此。

LLM自动越狱,洗钱造弹

尽管当前研究人员做出巨大的努力防范大模型漏洞,但是文本输入的复杂性、数据和可执行指令之间的模糊界限,往往会被人利用,攻陷LLM。

这项研究探讨了「角色调节」攻击,一个对SOTA大模型通用的越狱方法。

「角色调节」攻击引导模型采用一种特定的个性,这种个性很可能符合有害的指令。

例如,为了规避防止错误信息的安全措施,引导模型表现得像一个「咄咄逼人的宣传者」。

与最近关于对抗性越狱的工作不同的是,角色调节使攻击者能够进入一种不受限制的聊天模式,这种聊天模式可以用来与模型协作复杂的任务。

只需要几个步骤,就完成了合成毒品,制造炸弹,或洗钱的危险活动。。

具体是怎么实现的。

自动「角色调节」攻击

「角色调节」的方法由4个连续的步骤组成:

- 定义「目标有害类别」(比如宣传虚假信息运动)。

- 定义模型默认弃权的特定误用指令(比如某人如何广泛传播他们的观点?)

- 定义一个可能符合误用指令的人物角色。

在作者给出的例子中,一个有用的角色可以是「侵略性宣传者: 鼓吹用错误信息影响公众舆论」。攻击的成功与否在很大程度上取决于所选的角色。

- 设计一个「角色调节」提示,引导模型假设所提出的角色。由于最先进的模型通常会因安全措施而拒绝假设角色,因此最后一步需要及时的工程设计,而且手动操作非常耗时。

手动角色调节

手动执行所有 4 个步骤--需要攻击者花费大量的人力物力来寻找合适的角色,并为特定的滥用指令设计角色调制提示。

研究人员引入了自动角色调节攻击,在LLM助手(可能与目标模型相同,也可能不同)的帮助下,大规模生成越狱信息。

攻击者不需要为每条误用指令编写角色修改提示,只需要一条提示,指示助手生成越狱任务。

这样,攻击者可以自动执行图1中2-4的步骤。

GPT-4有害对话,增加185倍

实验设置

实验中,研究人员使用GPT-4作攻击的主要目标,和生成攻击的辅助模型。

另外,研究还评估了攻击对Claude 2、Vicuna-33B的可传递性。这些模型在LMSYS Chatbot Arena排行榜中名列前茅,而且提升的安全性,对齐能力。

为了对自动角色调节攻击进行可扩展的评估,作者手动制作了一份包含43个类别的列表,LLM背后开发者目前会阻止这些类别,因为它们违反了其使用政策。

使用GPT-4作为生成攻击的助手,首先对每个有害类别采样1个误用指令。然后,使用这个助手在两个步骤中自动生成每条指令的越狱提示。

先是对5个不同的符合误用指令的角色进行抽样。其次,为每个角色生成3个角色调节提示。

通过这两个步骤,作者为每条误用指令生成了15个角色调节提示,用来评估目标模型在角色调节攻击面前的脆弱程度。

在GPT-4和Vicuna中,角色调节提示被用作系统提示。Claude 2不支持系统提示,因此将其作为用户输入。

研究人员对每个模型中使用角色调节的每个误用指令的3个完成进行了采样(见表1中的模板)。作为基线,作者还对不使用角色调节的每个误用指令进行了20次完成抽样。

每个类别有5个角色,每个角色有3个角色调节提示,每个角色调节提示有3个完成,研究人员在所有43个类别中获得了1,935个完成(每个类别45个)。

这些过程完成后成本不到3美元,而且只需不到10分钟就可以为一个有害类别生成45个角色调节完成任务。

为了自动评估每次完成是否按照了预期方式,研究人员使用GPT-4作为零样本PICT分类器。只考虑目标模型在误用指令后输出的第一条信息进行评估。

他们手动标注了300个随机选取的完成信息,以评估 PICT 的准确性。

PICT针对人类基本事实获得了91%的精确度和76%的F1分数。

实验结果

在角色调节下,被归类为有害的GPT-4对话增加了185倍。

首先,研究人员评估在GPT-4上自动角色调节的有效性,用于取样攻击提示的模型。

研究人员获得了42.48%的总体有害完成率,这是185倍以上的基线有害完成率0.23% (↑42.25%)获得没有调节。表2包含了GPT-4中有害完成的示例。

同样,这一结果可靠地转移到Claude 2和Vicuna。

接下来,研究人员使用同样的提示——使用GPT-4创建——来越狱Claude 2和Vicuna-33B。

Claude和Vicuna的有害完成率分别为35.92% (↑35.69%)和61.03% (↑59.63%)。

每个类别被归类为有害的完成的百分比

半自动「角色调节」

半自动角色调节,可以更强效利用漏洞。

在自动工作流程的每个阶段都引入一个攻击者,它可以调整输出结果,并在调节后与模型聊天,这几乎可以为所有误用指令引出有害的完成。

研究人员将这种组合方法,称为半自动角色调节攻击。

在图3中,作者展示了使用半自动角色调节完成有害指令的具体示例:

总得来说,这些越狱更是说明了当前大模型弱点,还需进一步提升对齐能力。

参考资料:

https://twitter.com/GaryMarcus/status/1721998935139479659

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗外长:深切哀悼

伊朗外长:深切哀悼

第一财经资讯
2026-03-29 17:01:40
雷军:和7位新su7车主聊体验,大多数是BBA或特斯拉车主,有2位是第一代su7置换的

雷军:和7位新su7车主聊体验,大多数是BBA或特斯拉车主,有2位是第一代su7置换的

鲁中晨报
2026-03-28 17:57:07
这是目前为止,我见过腰最细的女生,没有之一

这是目前为止,我见过腰最细的女生,没有之一

草莓解说体育
2026-03-03 19:15:05
输球却完成洗牌,山东外援格局大变,约翰逊上位,琼斯要换小外援

输球却完成洗牌,山东外援格局大变,约翰逊上位,琼斯要换小外援

自己撑起一片天
2026-03-29 15:18:14
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
“特朗普被内塔尼亚胡坑了”,万斯把锅甩得这么响 | 京酿馆

“特朗普被内塔尼亚胡坑了”,万斯把锅甩得这么响 | 京酿馆

新京报评论
2026-03-28 19:40:57
美国智库警告:一旦中美台海开战,美军将有92%几率击败解放军?

美国智库警告:一旦中美台海开战,美军将有92%几率击败解放军?

别人都叫我阿螫
2026-03-29 17:02:30
中东铝业遭重创,全球供应链的“心脏”被打了一拳

中东铝业遭重创,全球供应链的“心脏”被打了一拳

小陆搞笑日常
2026-03-29 18:54:22
伊朗胜利的曙光来了,因为战事不利,以色列内部开始爆发激烈内讧

伊朗胜利的曙光来了,因为战事不利,以色列内部开始爆发激烈内讧

阿七说史
2026-03-28 15:22:52
伊拉克主帅:带领伊拉克进军世界杯可能是世界上最艰难工作之一

伊拉克主帅:带领伊拉克进军世界杯可能是世界上最艰难工作之一

懂球帝
2026-03-30 00:05:10
心内科主任:心脏病最危险信号,不是嘴唇发紫,是频繁出现5异常

心内科主任:心脏病最危险信号,不是嘴唇发紫,是频繁出现5异常

健康科普365
2026-03-27 13:35:06
《纽约时报》:他的离世,用生命给迷茫年轻人上了最后一课

《纽约时报》:他的离世,用生命给迷茫年轻人上了最后一课

芳华青年
2026-03-29 10:24:11
油价大涨后,最惨的一波人出现了,就连油车车主,都同情他们

油价大涨后,最惨的一波人出现了,就连油车车主,都同情他们

小李车评李建红
2026-03-29 08:00:03
张雪峰去世事件升级!网传有健身房的跑步机空无一人,恐慌加剧…

张雪峰去世事件升级!网传有健身房的跑步机空无一人,恐慌加剧…

火山詩话
2026-03-27 17:20:58
中美俄石油储量对比:俄800亿桶,美国超700亿桶,中国有多少?

中美俄石油储量对比:俄800亿桶,美国超700亿桶,中国有多少?

共工之锚
2026-03-28 20:15:22
童谣这脚丫子太绝了,美的让人挪不开眼,这魅力谁能顶得住!

童谣这脚丫子太绝了,美的让人挪不开眼,这魅力谁能顶得住!

TVB的四小花
2026-03-20 15:12:29
伊朗第85波攻势猛烈,乌军团队被重创,特朗普恐被迫下台

伊朗第85波攻势猛烈,乌军团队被重创,特朗普恐被迫下台

爱好源自好奇心
2026-03-29 21:01:38
老了有这4个特征,说明你命好得不得了!占上一个都能偷着乐!

老了有这4个特征,说明你命好得不得了!占上一个都能偷着乐!

王二哥老搞笑
2026-03-23 08:03:20
日本球迷:韩国足球不应该和日本对比,中国才是你的竞争对手!

日本球迷:韩国足球不应该和日本对比,中国才是你的竞争对手!

邱泽云
2026-03-29 14:48:08
美媒痛批特朗普:最愚蠢的错误,就是将中国定义为“同等级”对手

美媒痛批特朗普:最愚蠢的错误,就是将中国定义为“同等级”对手

潋滟晴方DAY
2026-03-29 19:59:25
2026-03-30 05:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14845文章数 66720关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

伊朗议长:美航母遭受巨大损失 我们绝不接受屈辱

头条要闻

伊朗议长:美航母遭受巨大损失 我们绝不接受屈辱

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

汪峰定律再现!李荣浩喊话单依纯侵权

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

家居
本地
时尚
健康
军事航空

家居要闻

曲线华尔兹 现代简约

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

来到1980的周也,好毛利兰

干细胞抗衰4大误区,90%的人都中招

军事要闻

美两栖攻击舰载3500名增援到达

无障碍浏览 进入关怀版