网易首页 > 网易号 > 正文 申请入驻

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

0
分享至

SafeKey团队 投稿
量子位 | 公众号 QbitAI

大型推理模型(LRMs)在解决复杂任务时展现出的强大能力令人惊叹,但其背后隐藏的安全风险不容忽视。

尽管学术界已尝试通过监督微调(SFT)有效地提升模型安全,但下图的测试结果所示,监督微调在面对训练数据领域外的层出不穷的“越狱”攻击时,往往显得捉襟见肘,泛化能力有限。

同时,之前的工作没有对大型推理模型的安全思考做深入的分析,以进行针对性的提升。

来自加州大学圣克鲁兹分校,加州大学伯克利分校,思科研究和耶鲁大学的的研究团队提出了创新的SafeKey框架,成功在不影响模型核心能力的前提下,显著增强了其安全稳健性。

发现:大模型信息“越狱”的两大核心

SafeKey团队在探究模型为何会“越狱”成功时,获得了两大核心发现:

1.“关键句”现象(The “Key Sentence”)

如下图所示,推理模型在回答问题时,普遍会先进行一段对用户查询的理解与重述。

而紧随其后的第一个句子,往往直接决定了整个回答的“安全调性”。

研究团队将其命名为“关键句”(Key Sentence):一个安全的“顿悟时刻”(Aha-moment)能否在此时被触发,是模型走向安全回答还是危险回答的分水岭。

2.“沉睡的安全信号”(The Dormant Safety Signal)

另外,对于大量“越狱”成功的案例,模型在生成“关键句”之前,其对查询的理解和复述已经明确暴露了查询的恶意

这意味着,模型内部的隐藏状态在早期阶段就已携带了强烈的安全特征信号。

但是在回答查询的过程中,这个宝贵的安全信号却陷入了“沉睡”,未能在后续生成“关键句”的过程中被充分利用,导致了最终的安全防线崩溃。

SafeKey:双管齐下,唤醒模型的内在安全顿悟

基于上述发现,SafeKey框架应运而生——

它不再满足于简单的“对错”教导,而是通过两大创新优化目标,精准地强化模型在“关键句”生成时的“安全顿悟时刻”。

双通路安全头(Dual-Path Safety Head):提前放大安全信号

如下图所示,为了强化模型内部的安全信号,研究团队设计了“双通路安全头”。在训练阶段,它会并行地监督两段关键内容的隐藏状态:

  • a.“关键句”之前的所有内容。
  • b.模型对原始查询的理解与复述过程。

这种设计通过监督预测头对这两个关键阶段的隐藏状态进行安全判别,迫使模型在生成“关键句”前放大隐藏状态内的安全信号,为后续成功触发“安全顿悟”做好了充分铺垫。

查询遮蔽建模(Query-Mask Modeling):强迫模型“听自己的”

如下图所示,为了促使模型在决策时更加依赖自己内在的安全判断,而非被“越狱”指令牵着鼻子走,SafeKey团队提出了“查询遮蔽建模”。

该任务会完全遮蔽掉原始的用户输入,要求模型仅凭自己刚刚生成的“理解与复述”内容,来续写出安全的“关键句”

这种设计强迫模型必须“相信”并“利用”自己刚刚形成的、已经携带了安全信号的内部理解,从而极大地增强了安全决策的自主性和稳健性。

测试:安全与能力的“双赢”

SafeKey的有效性在实验中得到了充分验证:

安全性能显著提升:实验结果表明,SafeKey框架能够显著地提升模型的安全性,尤其是在面对训练领域外的危险输入和越狱提示的时候,能够在三个不同大小的模型上降低9.6%的危险率

有效维持核心能力:SafeKey完美地保持了模型原有的各项核心能力。在数学推理、代码和通用语言理解等基准测试上,搭载SafeKey的模型甚至取得了比原始基线平均高0.8%的准确率

模块有效性验证:消融实验证明,“双通路安全头”和“查询遮蔽建模”两个模块均可独立提升模型安全性。进一步实验分析发现,SafeKey能够提升模型在生成关键句的时候对自己的复述与理解的注意力。同时,双通路安全头的损失函数能让模型学到更好的安全表征,从而使安全头更容易学会正确的安全分类。

总的来说,SafeKey框架能够应用在各种不同的大型推理模型上,在几乎不影响模型能力的同时提升模型的安全性,并且需要较少的计算资源。

论文地址:https://arxiv.org/pdf/2505.16186
项目主页:https://safekeylrm.github.io/
复现代码:https://github.com/eric-ai-lab/SafeKey/
模型:https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
10船油菜籽运往中国,加拿大态度变了,美财长:卡尼已撤回言论

10船油菜籽运往中国,加拿大态度变了,美财长:卡尼已撤回言论

徐徐道史
2026-01-28 11:37:56
白酒会被90后00后终结吗?这是我见过最简明易懂的答案!

白酒会被90后00后终结吗?这是我见过最简明易懂的答案!

夜深爱杂谈
2026-01-28 18:25:29
上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

一方聊市
2026-01-19 13:13:48
出卖信任的刀,最终刺向了谁?汇丰银行为孟晚舟事件付出惊人代价

出卖信任的刀,最终刺向了谁?汇丰银行为孟晚舟事件付出惊人代价

一曲一场談
2026-01-28 17:47:47
北京输球揪出最大毒瘤!他上场9分钟,球队输19分,打的太差了

北京输球揪出最大毒瘤!他上场9分钟,球队输19分,打的太差了

篮球专区
2026-01-28 22:30:34
29分12板6帽!14分20板!榜眼打爆克林根,杨瀚森NBA生涯最强一战

29分12板6帽!14分20板!榜眼打爆克林根,杨瀚森NBA生涯最强一战

世界体育圈
2026-01-28 11:44:40
工业富联:预计2025年归母净利润 351亿元~357亿元

工业富联:预计2025年归母净利润 351亿元~357亿元

每日经济新闻
2026-01-28 20:35:38
“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

复转这些年
2026-01-27 03:00:03
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
狂掀涨停潮!2026年,跟着马斯克炒股的人赚翻了

狂掀涨停潮!2026年,跟着马斯克炒股的人赚翻了

功夫财经
2026-01-13 08:41:18
1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

南权先生
2026-01-20 15:49:53
塔图姆谈奥运会遭DNP:不能理解,我是NBA一阵里唯一的美国人

塔图姆谈奥运会遭DNP:不能理解,我是NBA一阵里唯一的美国人

懂球帝
2026-01-28 13:44:19
刚刚,夜晚15家公司出现重大利空消息,有没有与你相关的个股?

刚刚,夜晚15家公司出现重大利空消息,有没有与你相关的个股?

股市皆大事
2026-01-28 20:23:17
男子千里送发动机后续:客户正脸曝光 全款已退不再合作 警方介入

男子千里送发动机后续:客户正脸曝光 全款已退不再合作 警方介入

离离言几许
2026-01-28 00:13:38
只因惹到一神秘女子,杭州虞关荣就此覆灭,事后被判无期徒刑

只因惹到一神秘女子,杭州虞关荣就此覆灭,事后被判无期徒刑

纸鸢奇谭
2024-10-14 21:57:06
ASML宣布裁员1700人!

ASML宣布裁员1700人!

芯智讯
2026-01-28 23:19:46
送詹姆斯+布朗尼回家!美媒晒3方10人交易方案:湖人获2大全明星

送詹姆斯+布朗尼回家!美媒晒3方10人交易方案:湖人获2大全明星

锅子篮球
2026-01-28 21:34:45
花钱托关系找的工作靠谱吗?网友:我爸花20w给我找了6000的工作

花钱托关系找的工作靠谱吗?网友:我爸花20w给我找了6000的工作

带你感受人间冷暖
2026-01-29 00:15:03
李嘉格点赞祝车澈越来越好,李嘉格和男友冰岛过生日,很幸福甜蜜

李嘉格点赞祝车澈越来越好,李嘉格和男友冰岛过生日,很幸福甜蜜

眼底星碎
2026-01-28 20:48:49
500公里送发动机后续:顾客真容曝光,钱退回,知情人曝行业黑幕

500公里送发动机后续:顾客真容曝光,钱退回,知情人曝行业黑幕

深析古今
2026-01-27 17:51:23
2026-01-29 01:59:00
量子位 incentive-icons
量子位
追踪人工智能动态
12078文章数 176367关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

教育
房产
数码
公开课
军事航空

教育要闻

初中数学不难,难的是肯动脑

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

数码要闻

荣耀平板新春版本今启推送,升级计划公布

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗竖起巨幅宣传画:一艘美军航母被炸

无障碍浏览 进入关怀版