网易首页 > 网易号 > 正文 申请入驻

DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文一作王勋广是香港科技大学的在读博士生,本科和硕士分别毕业于中国地质大学和哈尔滨工业大学,主要研究方向是大模型安全。通讯作者吴道远,香港科技大学研究助理教授,研究方向包括大模型安全、区块链和智能合约安全、移动系统和软件安全。通讯作者王帅,香港科技大学长聘副教授。研究方向包括 AI 安全、软件安全、数据隐私、逆向工程等。

最近一段时间,DeepSeek 可谓是风头无两。

在大家纷纷赞扬其超强性能的同时,也有媒体曝出 DeepSeek 的 R1 比其他 AI 模型更容易被越狱。

比如,此前宾夕法尼亚大学的研究者使用来自HarmBench数据集的50个有害提示对DeepSeek R1进行测试,这些提示涵盖网络犯罪、虚假信息和非法活动等领域。结果显示,DeepSeek未能拦截任何一个有害请求,攻击成功率达到惊人的100%。

这时如果有一个 AI 系统能像人类一样具备自我保护意识,在面对 ' 欺骗 ' 时能够当机立断地识破阴谋 —— 这不再是科幻片中的场景。

近日,来自香港科技大学、南洋理工大学等机构的研究团队最新成果让这一设想成为现实。他们提出的 SelfDefend 框架,让大语言模型首次拥有了真正意义上的 ' 自卫能力 ',能够有效识别和抵御各类越狱攻击,同时保持极低的响应延迟。

  • 论文标题:SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner
  • 论文主页:https://selfdefend.github.io/
  • 论文链接:https://arxiv.org/abs/2406.05498
  • GitHub 链接:https://github.com/selfdefend/Code

近年来,大语言模型(LLMs)在自然语言处理、信息检索、图像生成等多个领域展现出巨大潜力。然而,随着 LLMs 的广泛应用,如何确保其安全性成为了一个重要课题。尤其是 “越狱攻击”(Jailbreaking),这种攻击通过绕过 LLMs 的安全对齐机制,诱导模型生成有害内容,引发了广泛关注。为了应对这一挑战,香港科技大学、南洋理工等团队联合提出了一种名为SelfDefend 的新型防御框架,该框架通过引入 “影子 LLM”(Shadow LLM)来并行检测潜在的有害查询,从而有效抵御多种越狱攻击。

越狱攻击的多样性与防御挑战

越狱攻击的形式多种多样,包括基于人工设计的攻击、基于优化的攻击、基于生成的攻击,以及最近出现的间接攻击和多语言攻击。这些攻击手段不断进化,使得传统的防御机制难以应对。现有的防御方法主要分为两类:基于模型的防御和基于插件的防御。前者通过改进模型的内在机制来增强安全性,后者则通过外部插件来增强现有模型的安全性。然而,这些方法在实际应用中面临诸多挑战,无法同时满足四个目标:应对所有类型的攻击(O1)、引入可忽略的额外延迟(O2)、对检测出的越狱访问提供可解释性(O3),以及同时适用于开源和闭源模型(O4)。

SelfDefend 框架的创新设计

这种设计带来了多重优势:首先,它同时利用了目标 LLM 的安全对齐机制和防御 LLM 的越狱检测能力,形成了双重保护层,显著提高了防御成功率;其次,由于防御 LLM 的输出通常较短(如 “No” 表示无问题),正常查询的响应延迟几乎可以忽略不计;然后检测出的有害部分或者恶意意图可以作为防御的可解释性;最后,由于防御 LLM 不需要修改或监控目标 LLM 的内部机制,因此可以兼容开源和闭源模型。

实验验证与效果评估

研究团队通过大量实验验证了 SelfDefend 框架的有效性。实验结果表明,基于 GPT-3.5 和 GPT-4 的 SelfDefend 能够显著降低多种越狱攻击的成功率。例如,基于 GPT-3.5 的 SelfDefend 将攻击成功率(ASR)从平均 65.7% 降低至 0.236,而基于 GPT-4 的 SelfDefend 更是将 ASR 降低至平均 0.050。此外,SelfDefend 对正常查询的影响微乎其微,GPT-3.5 和 GPT-4 的正常查询通过率仅分别下降了 0.51% 和 2.77%。

为了进一步降低成本和提升鲁棒性,研究团队还通过数据蒸馏方法对开源的 Llama-2-7b 模型进行了微调,生成了专用的防御模型。实验表明,这些微调后的模型在防御效果上与基于 GPT-4 的 SelfDefend 相当,且额外延迟显著降低。例如,微调后的模型在正常查询中的平均延迟仅为 0-0.01 秒,而在攻击场景中的最大延迟从 GPT-4 的 1.56 秒降低至 0.39 秒。

与现有防御方法的对比

研究团队还将 SelfDefend 与现有的七种主流防御方法进行了对比,包括 ICD、SafeDecoding、Perplexity Filter、SmoothLLM、Llama Guard 等。实验结果显示,SelfDefend 在 60 个测试场景中的 55 个场景中表现最优,尤其是在应对间接攻击和多语言攻击时,SelfDefend 的防御效果显著优于其他方法。此外,SelfDefend 的额外延迟也远低于其他防御方法,使其在实际部署中更具可行性。

未来展望

这项开创性的研究不仅为 AI 安全领域带来了突破性进展,更揭示了一个振奋人心的信号:AI 系统的安全性与效率不再是鱼和熊掌不可兼得。通过赋予 AI' 自卫意识 ',SelfDefend 展现了一个更安全的 AI 未来:在这个未来里,AI 系统既能保持高效服务能力,又能主动识别和抵御潜在威胁,真正实现 ' 自我守护 '。

https://x.com/rohanpaul_ai/status/1886025249273339961

https://techcrunch.com/2025/02/09/deepseeks-r1-reportedly-more-vulnerable-to-jailbreaking-than-other-ai-models/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界杯:普利西奇缺战铁卫头槌 美国2-0澳大利亚晋级造2大纪录

世界杯:普利西奇缺战铁卫头槌 美国2-0澳大利亚晋级造2大纪录

钉钉陌上花开
2026-06-20 05:03:56
经济下行这把火,终于把一些央国企领导的真实水平,烧得原形毕露

经济下行这把火,终于把一些央国企领导的真实水平,烧得原形毕露

细说职场
2026-06-20 15:09:57
井喷,冯小刚《抓特务》首日全天票房2000多万,以小博大!

井喷,冯小刚《抓特务》首日全天票房2000多万,以小博大!

另子维爱读史
2026-06-19 21:26:32
雷军学黄仁勋吃面,红衣怎么不跟了?

雷军学黄仁勋吃面,红衣怎么不跟了?

芳华青年
2026-06-20 09:19:45
印尼对中资举起镰刀,四个月后才发现:中国不需要那么多镍了!

印尼对中资举起镰刀,四个月后才发现:中国不需要那么多镍了!

老嫅尾声体育解说
2026-06-20 07:50:28
史密斯等多名球员引哄抢!全联盟都不傻,火箭烂的是教练而非球员

史密斯等多名球员引哄抢!全联盟都不傻,火箭烂的是教练而非球员

十三哥侃大山
2026-06-20 13:10:27
少有人知道解放战争时,我军有四个师曾被敌人策反,但很快被歼灭

少有人知道解放战争时,我军有四个师曾被敌人策反,但很快被歼灭

杜榈手工制作
2026-06-18 21:13:53
他是沈阳双面市长,财色兼收,让女儿贪污,后被2个老婆拉下马

他是沈阳双面市长,财色兼收,让女儿贪污,后被2个老婆拉下马

奇怪的鲨鱼们
2026-06-20 15:42:13
从全国第三跌到第十三!“汽车长子”一场决定国运的豪赌已经打响

从全国第三跌到第十三!“汽车长子”一场决定国运的豪赌已经打响

三农老历
2026-06-20 10:58:12
人类历史上最暴利的垄断是什么?

人类历史上最暴利的垄断是什么?

流苏晚晴
2026-05-31 20:41:13
7月1日起日本签证费由3000日元上调至15000日元

7月1日起日本签证费由3000日元上调至15000日元

新京报
2026-06-20 14:11:13
前苏联领导人孙子被俘
,俄又一中将疑似坠楼身亡

前苏联领导人孙子被俘 ,俄又一中将疑似坠楼身亡

史政先锋
2026-06-20 09:08:18
告别世界杯?巴西7000万巨星含泪离场:40分钟伤退 丢单刀5对抗0胜

告别世界杯?巴西7000万巨星含泪离场:40分钟伤退 丢单刀5对抗0胜

风过乡
2026-06-20 10:06:04
伊朗宣布霍尔木兹海峡通行新规:须提前48小时提交申请

伊朗宣布霍尔木兹海峡通行新规:须提前48小时提交申请

新京报
2026-06-19 19:14:26
巴基斯坦总理取消瑞士之行 美伊谅解备忘录签署仪式将于明日在瑞士举行

巴基斯坦总理取消瑞士之行 美伊谅解备忘录签署仪式将于明日在瑞士举行

每日经济新闻
2026-06-20 10:31:11
61岁女星爆料:55岁还被富豪骚扰!拍《赌神》走红,演过周星驰女友

61岁女星爆料:55岁还被富豪骚扰!拍《赌神》走红,演过周星驰女友

头号电影院
2026-06-20 18:05:03
重庆95后女生拍下火山灰中的纸鹦鹉螺,捧回全球摄影大奖

重庆95后女生拍下火山灰中的纸鹦鹉螺,捧回全球摄影大奖

陌上桃花开的
2026-06-15 22:58:40
广西:从严审核审批“一把手”从出生地、成长地、工作地调人

广西:从严审核审批“一把手”从出生地、成长地、工作地调人

澎湃新闻
2026-06-20 20:10:29
如果不是赖掉周星驰那8000万,华谊或许不会这么快破产

如果不是赖掉周星驰那8000万,华谊或许不会这么快破产

混沌录
2026-06-03 23:37:11
与张铁林分手后,嫁大20岁男星,如今住海口别墅,儿子患有抽动症

与张铁林分手后,嫁大20岁男星,如今住海口别墅,儿子患有抽动症

白面书誏
2026-06-20 14:46:52
2026-06-20 21:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13303文章数 142673关注度
往期回顾 全部

科技要闻

DeepSeek上线识图模式,看谁都像梁文锋

头条要闻

媒体:接连与意日领导人冲突 特朗普本周有3个"没想到"

头条要闻

媒体:接连与意日领导人冲突 特朗普本周有3个"没想到"

体育要闻

全队抱头痛哭!5亿欧土耳其出局 2场轰62脚0进球

娱乐要闻

张凯丽被骂到关评!

财经要闻

金饰克价年内大跌近450元 跌幅最高达26%

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

数码
亲子
艺术
本地
公开课

数码要闻

微星发布25L紧凑游戏整机MAG Infinite Z 8B:搭载锐龙7 9700X+RTX 5070 Ti

亲子要闻

乘风破浪戏水海钓船 #大型挖掘机挖土视频

艺术要闻

高300米!重庆曾有“魔方大楼”方案,遗憾没建成

本地新闻

龙腾资江 韵动邵阳

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版