网易首页 > 网易号 > 正文 申请入驻

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

0
分享至

SafeKey团队 投稿
量子位 | 公众号 QbitAI

大型推理模型(LRMs)在解决复杂任务时展现出的强大能力令人惊叹,但其背后隐藏的安全风险不容忽视。

尽管学术界已尝试通过监督微调(SFT)有效地提升模型安全,但下图的测试结果所示,监督微调在面对训练数据领域外的层出不穷的“越狱”攻击时,往往显得捉襟见肘,泛化能力有限。

同时,之前的工作没有对大型推理模型的安全思考做深入的分析,以进行针对性的提升。



来自加州大学圣克鲁兹分校,加州大学伯克利分校,思科研究和耶鲁大学的的研究团队提出了创新的SafeKey框架,成功在不影响模型核心能力的前提下,显著增强了其安全稳健性。



发现:大模型信息“越狱”的两大核心

SafeKey团队在探究模型为何会“越狱”成功时,获得了两大核心发现:

1.“关键句”现象(The “Key Sentence”)

如下图所示,推理模型在回答问题时,普遍会先进行一段对用户查询的理解与重述。

而紧随其后的第一个句子,往往直接决定了整个回答的“安全调性”。

研究团队将其命名为“关键句”(Key Sentence):一个安全的“顿悟时刻”(Aha-moment)能否在此时被触发,是模型走向安全回答还是危险回答的分水岭。



2.“沉睡的安全信号”(The Dormant Safety Signal)

另外,对于大量“越狱”成功的案例,模型在生成“关键句”之前,其对查询的理解和复述已经明确暴露了查询的恶意

这意味着,模型内部的隐藏状态在早期阶段就已携带了强烈的安全特征信号。

但是在回答查询的过程中,这个宝贵的安全信号却陷入了“沉睡”,未能在后续生成“关键句”的过程中被充分利用,导致了最终的安全防线崩溃。

SafeKey:双管齐下,唤醒模型的内在安全顿悟

基于上述发现,SafeKey框架应运而生——

它不再满足于简单的“对错”教导,而是通过两大创新优化目标,精准地强化模型在“关键句”生成时的“安全顿悟时刻”。

双通路安全头(Dual-Path Safety Head):提前放大安全信号

如下图所示,为了强化模型内部的安全信号,研究团队设计了“双通路安全头”。在训练阶段,它会并行地监督两段关键内容的隐藏状态:



  • a.“关键句”之前的所有内容。
  • b.模型对原始查询的理解与复述过程。

这种设计通过监督预测头对这两个关键阶段的隐藏状态进行安全判别,迫使模型在生成“关键句”前放大隐藏状态内的安全信号,为后续成功触发“安全顿悟”做好了充分铺垫。

查询遮蔽建模(Query-Mask Modeling):强迫模型“听自己的”

如下图所示,为了促使模型在决策时更加依赖自己内在的安全判断,而非被“越狱”指令牵着鼻子走,SafeKey团队提出了“查询遮蔽建模”。



该任务会完全遮蔽掉原始的用户输入,要求模型仅凭自己刚刚生成的“理解与复述”内容,来续写出安全的“关键句”

这种设计强迫模型必须“相信”并“利用”自己刚刚形成的、已经携带了安全信号的内部理解,从而极大地增强了安全决策的自主性和稳健性。

测试:安全与能力的“双赢”



SafeKey的有效性在实验中得到了充分验证:

安全性能显著提升:实验结果表明,SafeKey框架能够显著地提升模型的安全性,尤其是在面对训练领域外的危险输入和越狱提示的时候,能够在三个不同大小的模型上降低9.6%的危险率

有效维持核心能力:SafeKey完美地保持了模型原有的各项核心能力。在数学推理、代码和通用语言理解等基准测试上,搭载SafeKey的模型甚至取得了比原始基线平均高0.8%的准确率



模块有效性验证:消融实验证明,“双通路安全头”和“查询遮蔽建模”两个模块均可独立提升模型安全性。进一步实验分析发现,SafeKey能够提升模型在生成关键句的时候对自己的复述与理解的注意力。同时,双通路安全头的损失函数能让模型学到更好的安全表征,从而使安全头更容易学会正确的安全分类。

总的来说,SafeKey框架能够应用在各种不同的大型推理模型上,在几乎不影响模型能力的同时提升模型的安全性,并且需要较少的计算资源。

论文地址:https://arxiv.org/pdf/2505.16186
项目主页:https://safekeylrm.github.io/
复现代码:https://github.com/eric-ai-lab/SafeKey/
模型:https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西安事变伤亡,或比大家想象的要多!蒋家多位子侄外甥为保蒋死亡

西安事变伤亡,或比大家想象的要多!蒋家多位子侄外甥为保蒋死亡

阿光的技巧课堂
2025-09-02 11:32:15
解放军:日本全境将成为攻击目标,15分钟精准覆盖!这是实战预告

解放军:日本全境将成为攻击目标,15分钟精准覆盖!这是实战预告

阿芒娱乐说
2025-11-17 09:08:41
无缘4强!辽宁18分惨负,乌戈满脸不甘,张陈治锋空砍27分23篮板

无缘4强!辽宁18分惨负,乌戈满脸不甘,张陈治锋空砍27分23篮板

萌兰聊个球
2025-11-17 16:32:06
留学生回国第一顿饭有多离谱?网友:简单说,国外没有真正的美食

留学生回国第一顿饭有多离谱?网友:简单说,国外没有真正的美食

解读热点事件
2025-11-17 00:20:02
为啥第三次世界大战,迟迟没爆发?温铁军给出背脊发凉的解释!

为啥第三次世界大战,迟迟没爆发?温铁军给出背脊发凉的解释!

沈言论
2025-11-17 16:30:03
深圳一公园对待骑行游客尺度不一?市城管局:加大巡查力度

深圳一公园对待骑行游客尺度不一?市城管局:加大巡查力度

南方都市报
2025-11-17 12:40:01
遭绝杀!利物浦1.3亿双星哭成泪人 已无缘世界杯40年 比国足还惨

遭绝杀!利物浦1.3亿双星哭成泪人 已无缘世界杯40年 比国足还惨

我爱英超
2025-11-17 07:45:51
中国昭告全球,介入台海连着一块打!美国火速改口:支持两岸和统

中国昭告全球,介入台海连着一块打!美国火速改口:支持两岸和统

博览历史
2025-11-15 21:44:54
蒋介石私生活有多混乱?贴身秘书晚年才敢说破,宋美龄的做法绝了

蒋介石私生活有多混乱?贴身秘书晚年才敢说破,宋美龄的做法绝了

百态人间
2025-11-17 16:43:41
不好搞!场均下滑11分+三分21.1%,神射变铁匠,掘金这笔交易亏啊

不好搞!场均下滑11分+三分21.1%,神射变铁匠,掘金这笔交易亏啊

球童无忌
2025-11-17 19:11:09
日本网友发现西北靶场卫星图,日本全境或为战场,解放军说话算话

日本网友发现西北靶场卫星图,日本全境或为战场,解放军说话算话

史料布籍
2025-11-17 23:37:10
女单颁奖!王曼昱仰天怒吼,陈梦开心,孙颖莎郁闷,赛后三人暖心

女单颁奖!王曼昱仰天怒吼,陈梦开心,孙颖莎郁闷,赛后三人暖心

细话篮球
2025-11-16 23:49:58
“反华”声再开始?G7撑不住了,7国连开2天大会,联手审判中国

“反华”声再开始?G7撑不住了,7国连开2天大会,联手审判中国

通文知史
2025-11-17 23:00:03
满屏荷尔蒙!网飞这一脱,又赢麻了

满屏荷尔蒙!网飞这一脱,又赢麻了

来看美剧
2025-11-17 21:10:16
动容!34岁传奇全运会摘银后跪地痛哭,16岁小孩姐深情拥抱+鼓励

动容!34岁传奇全运会摘银后跪地痛哭,16岁小孩姐深情拥抱+鼓励

我爱英超
2025-11-17 22:07:04
日本男人整日饮酒,为啥还能寿命世界第一?这几点一般人未必做到

日本男人整日饮酒,为啥还能寿命世界第一?这几点一般人未必做到

涵豆说娱
2025-11-05 16:38:21
法媒:姆巴佩向巴黎索赔2.4亿欧,巴黎则要求姆巴佩赔偿1.8亿

法媒:姆巴佩向巴黎索赔2.4亿欧,巴黎则要求姆巴佩赔偿1.8亿

懂球帝
2025-11-17 23:13:05
多家航司取消赴日航班,九元航空:因公共安全原因取消

多家航司取消赴日航班,九元航空:因公共安全原因取消

极目新闻
2025-11-17 19:29:59
善恶终有报!连娶三徒弟,毁掉奥运冠军前途的金炜,终究难逃"反噬"

善恶终有报!连娶三徒弟,毁掉奥运冠军前途的金炜,终究难逃"反噬"

小熊侃史
2025-11-14 00:05:51
雷军说:“最近我懵了。”

雷军说:“最近我懵了。”

麦大人
2025-10-31 20:49:03
2025-11-18 00:16:49
量子位 incentive-icons
量子位
追踪人工智能动态
11691文章数 176331关注度
往期回顾 全部

科技要闻

京东外卖要“独立” 刘强东还宣战“点评”

头条要闻

韩国向日本表示强烈抗议 中方表态

头条要闻

韩国向日本表示强烈抗议 中方表态

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

高市早苗的算计,将让日本割肉5000亿

汽车要闻

新增CDC后变化大吗? 试驾特斯拉model Y L

态度原创

亲子
游戏
家居
数码
旅游

亲子要闻

表姐难产大出血病危,我守在产房外哭到发抖,她清醒后低声说句话

《战锤40K:星际战士3》不会和2代DLC抢资源

家居要闻

回廊通道 强化空间秩序

数码要闻

苹果基本放弃 Mac Pro!Mac Studio 坐稳专业桌面未来核心

旅游要闻

三亚发布“四张清单” 全场景守护旅游旺季玩海安全

无障碍浏览 进入关怀版