网易首页 > 网易号 > 正文 申请入驻

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

0
分享至

SafeKey团队 投稿
量子位 | 公众号 QbitAI

大型推理模型(LRMs)在解决复杂任务时展现出的强大能力令人惊叹,但其背后隐藏的安全风险不容忽视。

尽管学术界已尝试通过监督微调(SFT)有效地提升模型安全,但下图的测试结果所示,监督微调在面对训练数据领域外的层出不穷的“越狱”攻击时,往往显得捉襟见肘,泛化能力有限。

同时,之前的工作没有对大型推理模型的安全思考做深入的分析,以进行针对性的提升。



来自加州大学圣克鲁兹分校,加州大学伯克利分校,思科研究和耶鲁大学的的研究团队提出了创新的SafeKey框架,成功在不影响模型核心能力的前提下,显著增强了其安全稳健性。



发现:大模型信息“越狱”的两大核心

SafeKey团队在探究模型为何会“越狱”成功时,获得了两大核心发现:

1.“关键句”现象(The “Key Sentence”)

如下图所示,推理模型在回答问题时,普遍会先进行一段对用户查询的理解与重述。

而紧随其后的第一个句子,往往直接决定了整个回答的“安全调性”。

研究团队将其命名为“关键句”(Key Sentence):一个安全的“顿悟时刻”(Aha-moment)能否在此时被触发,是模型走向安全回答还是危险回答的分水岭。



2.“沉睡的安全信号”(The Dormant Safety Signal)

另外,对于大量“越狱”成功的案例,模型在生成“关键句”之前,其对查询的理解和复述已经明确暴露了查询的恶意

这意味着,模型内部的隐藏状态在早期阶段就已携带了强烈的安全特征信号。

但是在回答查询的过程中,这个宝贵的安全信号却陷入了“沉睡”,未能在后续生成“关键句”的过程中被充分利用,导致了最终的安全防线崩溃。

SafeKey:双管齐下,唤醒模型的内在安全顿悟

基于上述发现,SafeKey框架应运而生——

它不再满足于简单的“对错”教导,而是通过两大创新优化目标,精准地强化模型在“关键句”生成时的“安全顿悟时刻”。

双通路安全头(Dual-Path Safety Head):提前放大安全信号

如下图所示,为了强化模型内部的安全信号,研究团队设计了“双通路安全头”。在训练阶段,它会并行地监督两段关键内容的隐藏状态:



  • a.“关键句”之前的所有内容。
  • b.模型对原始查询的理解与复述过程。

这种设计通过监督预测头对这两个关键阶段的隐藏状态进行安全判别,迫使模型在生成“关键句”前放大隐藏状态内的安全信号,为后续成功触发“安全顿悟”做好了充分铺垫。

查询遮蔽建模(Query-Mask Modeling):强迫模型“听自己的”

如下图所示,为了促使模型在决策时更加依赖自己内在的安全判断,而非被“越狱”指令牵着鼻子走,SafeKey团队提出了“查询遮蔽建模”。



该任务会完全遮蔽掉原始的用户输入,要求模型仅凭自己刚刚生成的“理解与复述”内容,来续写出安全的“关键句”

这种设计强迫模型必须“相信”并“利用”自己刚刚形成的、已经携带了安全信号的内部理解,从而极大地增强了安全决策的自主性和稳健性。

测试:安全与能力的“双赢”



SafeKey的有效性在实验中得到了充分验证:

安全性能显著提升:实验结果表明,SafeKey框架能够显著地提升模型的安全性,尤其是在面对训练领域外的危险输入和越狱提示的时候,能够在三个不同大小的模型上降低9.6%的危险率

有效维持核心能力:SafeKey完美地保持了模型原有的各项核心能力。在数学推理、代码和通用语言理解等基准测试上,搭载SafeKey的模型甚至取得了比原始基线平均高0.8%的准确率



模块有效性验证:消融实验证明,“双通路安全头”和“查询遮蔽建模”两个模块均可独立提升模型安全性。进一步实验分析发现,SafeKey能够提升模型在生成关键句的时候对自己的复述与理解的注意力。同时,双通路安全头的损失函数能让模型学到更好的安全表征,从而使安全头更容易学会正确的安全分类。

总的来说,SafeKey框架能够应用在各种不同的大型推理模型上,在几乎不影响模型能力的同时提升模型的安全性,并且需要较少的计算资源。

论文地址:https://arxiv.org/pdf/2505.16186
项目主页:https://safekeylrm.github.io/
复现代码:https://github.com/eric-ai-lab/SafeKey/
模型:https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京市公安局副局长董亦军突发疾病去世,中央政法委发文号召学习

北京市公安局副局长董亦军突发疾病去世,中央政法委发文号召学习

澎湃新闻
2025-11-15 10:34:28
男子200米仰泳:徐嘉余夺冠,收获个人全运会的第15枚金牌

男子200米仰泳:徐嘉余夺冠,收获个人全运会的第15枚金牌

懂球帝
2025-11-15 20:15:07
“玉兰油女神”的彪悍情史

“玉兰油女神”的彪悍情史

素衣读史
2025-11-07 15:43:03
63岁阿姨说:和再婚老伴同居后才懂得,男人老了还要找老伴的原因

63岁阿姨说:和再婚老伴同居后才懂得,男人老了还要找老伴的原因

烙任情感
2025-11-15 07:54:27
18岁中国少年一战封神!英伟达市值蒸发4万亿,他才是幕后操控者

18岁中国少年一战封神!英伟达市值蒸发4万亿,他才是幕后操控者

阿器谈史
2025-11-15 18:59:53
任贤齐回湖北祖宅,生图下头发花白挺着大肚腩,无保镖护送接地气

任贤齐回湖北祖宅,生图下头发花白挺着大肚腩,无保镖护送接地气

素衣读史
2025-11-14 15:21:03
骑士逆转灰熊!米切尔30+5末节大爆发,莫兰特伤退,韦德全队第一

骑士逆转灰熊!米切尔30+5末节大爆发,莫兰特伤退,韦德全队第一

鱼崖大话篮球
2025-11-16 08:43:54
当陈松伶和小李琳同框,才发现女人到中年,幸不幸福都写在脸上

当陈松伶和小李琳同框,才发现女人到中年,幸不幸福都写在脸上

喵喵娱乐团
2025-11-14 16:05:23
喝了3次鸽子汤,才算懂得食补的快乐!鲜到舔碗,做法超简单!

喝了3次鸽子汤,才算懂得食补的快乐!鲜到舔碗,做法超简单!

江江食研社
2025-11-15 07:30:05
日本机票大涨,三大航司免费退改签!这是航空公司与国人间的默契

日本机票大涨,三大航司免费退改签!这是航空公司与国人间的默契

垛垛糖
2025-11-15 22:16:27
26胜7负!樊振东回应4-2逆转王楚钦:他现在是国乒的绝对领军人物

26胜7负!樊振东回应4-2逆转王楚钦:他现在是国乒的绝对领军人物

风过乡
2025-11-15 14:36:33
中日一旦爆发世仇之战,以日本如今的实力,能不能和解放军匹敌?

中日一旦爆发世仇之战,以日本如今的实力,能不能和解放军匹敌?

起喜电影
2025-11-16 02:44:27
全线崩溃!比特币、黄金、科技股无一幸免!

全线崩溃!比特币、黄金、科技股无一幸免!

米筐投资
2025-11-15 07:09:03
曾医生回原单位上班,视频拍摄者已曝光,事发原因是为了副院长

曾医生回原单位上班,视频拍摄者已曝光,事发原因是为了副院长

平老师666
2025-11-13 20:51:40
曝2大离婚瓜!国民男星夫妻反目分居2年,钟嘉欣7年抱仨遭骗婚

曝2大离婚瓜!国民男星夫妻反目分居2年,钟嘉欣7年抱仨遭骗婚

萧佉影视解说
2025-11-15 16:51:53
高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

寻墨阁
2025-11-12 21:14:07
深度 | 这,才是驯服日本的唯一方法!

深度 | 这,才是驯服日本的唯一方法!

宇视天下
2025-11-13 22:36:36
加图索:9-0难以想象;哈兰德独一无二;卡拉菲奥里、托纳利缺阵

加图索:9-0难以想象;哈兰德独一无二;卡拉菲奥里、托纳利缺阵

懂球帝
2025-11-15 23:05:05
率队完成大爆冷!广东女篮主帅郑薇:没有人相信我们能拿到冠军

率队完成大爆冷!广东女篮主帅郑薇:没有人相信我们能拿到冠军

狼叔评论
2025-11-16 01:14:03
楼继伟称房地产将持续低迷,需提高财政赤字支持房地产转型

楼继伟称房地产将持续低迷,需提高财政赤字支持房地产转型

风向观察
2025-11-15 14:32:21
2025-11-16 09:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
11682文章数 176330关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

日本外相:高市早苗的发言未违反国际法 没有必要收回

头条要闻

日本外相:高市早苗的发言未违反国际法 没有必要收回

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

家居
游戏
教育
艺术
军事航空

家居要闻

现代简逸 寻找生活的光

《星绘友晴天》试玩报告:呼朋引伴、上天入地"/> 主站 商城 论坛 自运营 登录 注册 《星绘友晴天》试玩报告:呼朋引伴、上天入地 廉颇 2025-11...

教育要闻

孩子自我设限的3大原因,如何破解?

艺术要闻

她从教师岗位退休,却在画布上开始了第二次人生!

军事要闻

解密福建舰电磁弹射背后的硬核支撑

无障碍浏览 进入关怀版