网易首页 > 网易号 > 正文 申请入驻

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

0
分享至

SafeKey团队 投稿
量子位 | 公众号 QbitAI

大型推理模型(LRMs)在解决复杂任务时展现出的强大能力令人惊叹,但其背后隐藏的安全风险不容忽视。

尽管学术界已尝试通过监督微调(SFT)有效地提升模型安全,但下图的测试结果所示,监督微调在面对训练数据领域外的层出不穷的“越狱”攻击时,往往显得捉襟见肘,泛化能力有限。

同时,之前的工作没有对大型推理模型的安全思考做深入的分析,以进行针对性的提升。



来自加州大学圣克鲁兹分校,加州大学伯克利分校,思科研究和耶鲁大学的的研究团队提出了创新的SafeKey框架,成功在不影响模型核心能力的前提下,显著增强了其安全稳健性。



发现:大模型信息“越狱”的两大核心

SafeKey团队在探究模型为何会“越狱”成功时,获得了两大核心发现:

1.“关键句”现象(The “Key Sentence”)

如下图所示,推理模型在回答问题时,普遍会先进行一段对用户查询的理解与重述。

而紧随其后的第一个句子,往往直接决定了整个回答的“安全调性”。

研究团队将其命名为“关键句”(Key Sentence):一个安全的“顿悟时刻”(Aha-moment)能否在此时被触发,是模型走向安全回答还是危险回答的分水岭。



2.“沉睡的安全信号”(The Dormant Safety Signal)

另外,对于大量“越狱”成功的案例,模型在生成“关键句”之前,其对查询的理解和复述已经明确暴露了查询的恶意

这意味着,模型内部的隐藏状态在早期阶段就已携带了强烈的安全特征信号。

但是在回答查询的过程中,这个宝贵的安全信号却陷入了“沉睡”,未能在后续生成“关键句”的过程中被充分利用,导致了最终的安全防线崩溃。

SafeKey:双管齐下,唤醒模型的内在安全顿悟

基于上述发现,SafeKey框架应运而生——

它不再满足于简单的“对错”教导,而是通过两大创新优化目标,精准地强化模型在“关键句”生成时的“安全顿悟时刻”。

双通路安全头(Dual-Path Safety Head):提前放大安全信号

如下图所示,为了强化模型内部的安全信号,研究团队设计了“双通路安全头”。在训练阶段,它会并行地监督两段关键内容的隐藏状态:



  • a.“关键句”之前的所有内容。
  • b.模型对原始查询的理解与复述过程。

这种设计通过监督预测头对这两个关键阶段的隐藏状态进行安全判别,迫使模型在生成“关键句”前放大隐藏状态内的安全信号,为后续成功触发“安全顿悟”做好了充分铺垫。

查询遮蔽建模(Query-Mask Modeling):强迫模型“听自己的”

如下图所示,为了促使模型在决策时更加依赖自己内在的安全判断,而非被“越狱”指令牵着鼻子走,SafeKey团队提出了“查询遮蔽建模”。



该任务会完全遮蔽掉原始的用户输入,要求模型仅凭自己刚刚生成的“理解与复述”内容,来续写出安全的“关键句”

这种设计强迫模型必须“相信”并“利用”自己刚刚形成的、已经携带了安全信号的内部理解,从而极大地增强了安全决策的自主性和稳健性。

测试:安全与能力的“双赢”



SafeKey的有效性在实验中得到了充分验证:

安全性能显著提升:实验结果表明,SafeKey框架能够显著地提升模型的安全性,尤其是在面对训练领域外的危险输入和越狱提示的时候,能够在三个不同大小的模型上降低9.6%的危险率

有效维持核心能力:SafeKey完美地保持了模型原有的各项核心能力。在数学推理、代码和通用语言理解等基准测试上,搭载SafeKey的模型甚至取得了比原始基线平均高0.8%的准确率



模块有效性验证:消融实验证明,“双通路安全头”和“查询遮蔽建模”两个模块均可独立提升模型安全性。进一步实验分析发现,SafeKey能够提升模型在生成关键句的时候对自己的复述与理解的注意力。同时,双通路安全头的损失函数能让模型学到更好的安全表征,从而使安全头更容易学会正确的安全分类。

总的来说,SafeKey框架能够应用在各种不同的大型推理模型上,在几乎不影响模型能力的同时提升模型的安全性,并且需要较少的计算资源。

论文地址:https://arxiv.org/pdf/2505.16186
项目主页:https://safekeylrm.github.io/
复现代码:https://github.com/eric-ai-lab/SafeKey/
模型:https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华为新技术将对标英伟达,大幅提升AI算力利用率

华为新技术将对标英伟达,大幅提升AI算力利用率

观察者网
2025-11-16 14:31:24
等你下课,高市早苗:中日贸易额是美日的1.4倍,占日本GDP的7.7%

等你下课,高市早苗:中日贸易额是美日的1.4倍,占日本GDP的7.7%

子业一说财经
2025-11-16 17:45:16
苹果将自2026年起改为春秋两季发布iPhone

苹果将自2026年起改为春秋两季发布iPhone

新浪财经
2025-11-16 23:31:38
南部战区新闻发言人发表谈话

南部战区新闻发言人发表谈话

界面新闻
2025-11-16 11:29:53
日本若是与中国对战?日专家:与中国发生冲突,最长只能坚持一周

日本若是与中国对战?日专家:与中国发生冲突,最长只能坚持一周

通文知史
2025-10-28 21:00:06
惨案诞生!世界第5踢疯了,双人戴帽,C罗缺阵也没有关系

惨案诞生!世界第5踢疯了,双人戴帽,C罗缺阵也没有关系

足球狗说
2025-11-16 23:57:25
联合国官员否认哈马斯在10.7的性暴力,引发以色列强烈反击

联合国官员否认哈马斯在10.7的性暴力,引发以色列强烈反击

桂系007
2025-11-16 23:17:12
1982 年高材生王佐良娶瘫痪的张海迪,40 年后,才知他是人间清醒

1982 年高材生王佐良娶瘫痪的张海迪,40 年后,才知他是人间清醒

墨印斋
2025-11-15 16:42:56
采购吃回扣是怎样暴露的?看完惊呆,原来自己穷是因为胆太小啊!

采购吃回扣是怎样暴露的?看完惊呆,原来自己穷是因为胆太小啊!

夜深爱杂谈
2025-11-08 20:27:12
死的绝望!摇滚女歌手阿珍离世。长得漂亮!座椅挤压,肋骨断裂。

死的绝望!摇滚女歌手阿珍离世。长得漂亮!座椅挤压,肋骨断裂。

叨叨话影
2025-11-16 12:45:45
A股:股民朋友做好准备!明天(11月17日)的市场会这样走

A股:股民朋友做好准备!明天(11月17日)的市场会这样走

风风顺
2025-11-17 00:05:10
赵丽颖户外散步被偶遇,网友吐槽身材五五分,和我们普通人差不多

赵丽颖户外散步被偶遇,网友吐槽身材五五分,和我们普通人差不多

草莓解说体育
2025-11-16 01:07:59
康师傅高价面溃败,没人买了,半年少卖11亿

康师傅高价面溃败,没人买了,半年少卖11亿

流苏晚晴
2025-11-16 20:05:41
山西“狗伤人血案”聪明的女人凭一句话救全家,郭家却因蠢酿悲剧

山西“狗伤人血案”聪明的女人凭一句话救全家,郭家却因蠢酿悲剧

观察鉴娱
2025-11-16 17:19:28
1890元机票改签费24400元?多方回应

1890元机票改签费24400元?多方回应

大象新闻
2025-11-16 16:02:03
全运会奖牌榜:广东队34金领跑反超山东3金,福建河南冲击前五

全运会奖牌榜:广东队34金领跑反超山东3金,福建河南冲击前五

烧体坛
2025-11-16 23:55:10
舒淇自曝想生小孩但没能如愿,否认冯德伦是丁克,曾停工一年备孕

舒淇自曝想生小孩但没能如愿,否认冯德伦是丁克,曾停工一年备孕

乡野小珥
2025-11-16 14:26:32
毛泽东和蒋介石书法对比:性格刚好相反、果然字如其人

毛泽东和蒋介石书法对比:性格刚好相反、果然字如其人

中国艺术家
2025-11-07 05:25:04
159亿票房换不来尊重?哪吒用空椅抗议偏见

159亿票房换不来尊重?哪吒用空椅抗议偏见

小椰的奶奶
2025-11-16 14:25:55
30岁的梁启超强行与17岁的王桂荃行房后,却连看都不看她一眼

30岁的梁启超强行与17岁的王桂荃行房后,却连看都不看她一眼

忠于法纪
2025-11-13 08:49:42
2025-11-17 02:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
11687文章数 176331关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

中国公民需谨慎前往日本 四大原因披露

头条要闻

中国公民需谨慎前往日本 四大原因披露

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

时尚
数码
家居
旅游
艺术

秋天怎么穿出时尚感?避开老气的着装方式,美得自然又大方

数码要闻

华为鸿蒙HarmonyOS 6.0.0.112版本首曝,支持电脑投平板

家居要闻

现代简逸 寻找生活的光

旅游要闻

浙江绍兴:一泓文脉润古城

艺术要闻

这些获奖摄影作品,简直让人目不暇接!

无障碍浏览 进入关怀版