网易首页 > 网易号 > 正文 申请入驻

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

0
分享至

SafeKey团队 投稿
量子位 | 公众号 QbitAI

大型推理模型(LRMs)在解决复杂任务时展现出的强大能力令人惊叹,但其背后隐藏的安全风险不容忽视。

尽管学术界已尝试通过监督微调(SFT)有效地提升模型安全,但下图的测试结果所示,监督微调在面对训练数据领域外的层出不穷的“越狱”攻击时,往往显得捉襟见肘,泛化能力有限。

同时,之前的工作没有对大型推理模型的安全思考做深入的分析,以进行针对性的提升。



来自加州大学圣克鲁兹分校,加州大学伯克利分校,思科研究和耶鲁大学的的研究团队提出了创新的SafeKey框架,成功在不影响模型核心能力的前提下,显著增强了其安全稳健性。



发现:大模型信息“越狱”的两大核心

SafeKey团队在探究模型为何会“越狱”成功时,获得了两大核心发现:

1.“关键句”现象(The “Key Sentence”)

如下图所示,推理模型在回答问题时,普遍会先进行一段对用户查询的理解与重述。

而紧随其后的第一个句子,往往直接决定了整个回答的“安全调性”。

研究团队将其命名为“关键句”(Key Sentence):一个安全的“顿悟时刻”(Aha-moment)能否在此时被触发,是模型走向安全回答还是危险回答的分水岭。



2.“沉睡的安全信号”(The Dormant Safety Signal)

另外,对于大量“越狱”成功的案例,模型在生成“关键句”之前,其对查询的理解和复述已经明确暴露了查询的恶意

这意味着,模型内部的隐藏状态在早期阶段就已携带了强烈的安全特征信号。

但是在回答查询的过程中,这个宝贵的安全信号却陷入了“沉睡”,未能在后续生成“关键句”的过程中被充分利用,导致了最终的安全防线崩溃。

SafeKey:双管齐下,唤醒模型的内在安全顿悟

基于上述发现,SafeKey框架应运而生——

它不再满足于简单的“对错”教导,而是通过两大创新优化目标,精准地强化模型在“关键句”生成时的“安全顿悟时刻”。

双通路安全头(Dual-Path Safety Head):提前放大安全信号

如下图所示,为了强化模型内部的安全信号,研究团队设计了“双通路安全头”。在训练阶段,它会并行地监督两段关键内容的隐藏状态:



  • a.“关键句”之前的所有内容。
  • b.模型对原始查询的理解与复述过程。

这种设计通过监督预测头对这两个关键阶段的隐藏状态进行安全判别,迫使模型在生成“关键句”前放大隐藏状态内的安全信号,为后续成功触发“安全顿悟”做好了充分铺垫。

查询遮蔽建模(Query-Mask Modeling):强迫模型“听自己的”

如下图所示,为了促使模型在决策时更加依赖自己内在的安全判断,而非被“越狱”指令牵着鼻子走,SafeKey团队提出了“查询遮蔽建模”。



该任务会完全遮蔽掉原始的用户输入,要求模型仅凭自己刚刚生成的“理解与复述”内容,来续写出安全的“关键句”

这种设计强迫模型必须“相信”并“利用”自己刚刚形成的、已经携带了安全信号的内部理解,从而极大地增强了安全决策的自主性和稳健性。

测试:安全与能力的“双赢”



SafeKey的有效性在实验中得到了充分验证:

安全性能显著提升:实验结果表明,SafeKey框架能够显著地提升模型的安全性,尤其是在面对训练领域外的危险输入和越狱提示的时候,能够在三个不同大小的模型上降低9.6%的危险率

有效维持核心能力:SafeKey完美地保持了模型原有的各项核心能力。在数学推理、代码和通用语言理解等基准测试上,搭载SafeKey的模型甚至取得了比原始基线平均高0.8%的准确率



模块有效性验证:消融实验证明,“双通路安全头”和“查询遮蔽建模”两个模块均可独立提升模型安全性。进一步实验分析发现,SafeKey能够提升模型在生成关键句的时候对自己的复述与理解的注意力。同时,双通路安全头的损失函数能让模型学到更好的安全表征,从而使安全头更容易学会正确的安全分类。

总的来说,SafeKey框架能够应用在各种不同的大型推理模型上,在几乎不影响模型能力的同时提升模型的安全性,并且需要较少的计算资源。

论文地址:https://arxiv.org/pdf/2505.16186
项目主页:https://safekeylrm.github.io/
复现代码:https://github.com/eric-ai-lab/SafeKey/
模型:https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
8个月内遭U22国足双杀,韩媒破防:震惊!韩国足球前所未有的耻辱

8个月内遭U22国足双杀,韩媒破防:震惊!韩国足球前所未有的耻辱

我爱英超
2025-11-15 22:09:56
小伙自驾西藏,遇徒步女学生搭车,同行2天后,才知自己躲过一劫

小伙自驾西藏,遇徒步女学生搭车,同行2天后,才知自己躲过一劫

五元讲堂
2025-10-16 14:41:16
19年秦汉为父亲孙元良站台,共青团下场批驳:民族败类,何足纪念

19年秦汉为父亲孙元良站台,共青团下场批驳:民族败类,何足纪念

浩渺青史
2025-11-14 20:13:30
2胜10负,主帅下课!鹈鹕没那么多耐心,这跟快船形成鲜明反差

2胜10负,主帅下课!鹈鹕没那么多耐心,这跟快船形成鲜明反差

移动挡拆
2025-11-16 00:00:32
83年,下岗职工花700块买下上海废旧水塔住,22年后拆迁时愣了

83年,下岗职工花700块买下上海废旧水塔住,22年后拆迁时愣了

温情邮局
2025-11-11 10:58:54
吴亦凡疑狱中绝食去世!家人也失联,目前未有正式回应

吴亦凡疑狱中绝食去世!家人也失联,目前未有正式回应

逍遥浪腾云
2025-11-13 10:36:38
2026届新秀有多强?NBA高管:弗拉格若明年参选可能跌至第6位

2026届新秀有多强?NBA高管:弗拉格若明年参选可能跌至第6位

罗说NBA
2025-11-15 07:20:01
当陈松伶和小李琳同框,才发现女人到中年,幸不幸福都写在脸上

当陈松伶和小李琳同框,才发现女人到中年,幸不幸福都写在脸上

喵喵娱乐团
2025-11-14 16:05:23
万亿巨头深夜公告!股东拟转让市值184亿元股票,押宝储能?

万亿巨头深夜公告!股东拟转让市值184亿元股票,押宝储能?

证券时报e公司
2025-11-15 09:34:55
遭到大量网暴后郭女士忍不住痛哭,砸玻璃的监控遭媒体曝光

遭到大量网暴后郭女士忍不住痛哭,砸玻璃的监控遭媒体曝光

映射生活的身影
2025-11-15 17:50:36
活塞能以10胜2负稳坐东部第一,主教练比克斯塔夫居功至伟

活塞能以10胜2负稳坐东部第一,主教练比克斯塔夫居功至伟

大眼瞄世界
2025-11-15 07:33:01
赵露思原经纪公司银河酷娱发布最新声明

赵露思原经纪公司银河酷娱发布最新声明

鲁中晨报
2025-11-14 22:15:02
具俊晔成瓮中之鳖!遗产背后虽有高人指点,但还是棋差一招

具俊晔成瓮中之鳖!遗产背后虽有高人指点,但还是棋差一招

TVB的四小花
2025-11-16 00:08:32
荒诞!杨兰兰拒绝认罪,场外竟有“超级粉丝”高喊支持杨小姐

荒诞!杨兰兰拒绝认罪,场外竟有“超级粉丝”高喊支持杨小姐

吃瓜局
2025-11-15 15:56:23
世界前十!广州足协副主席:7.3万人专业足球场明年就能用!

世界前十!广州足协副主席:7.3万人专业足球场明年就能用!

邱泽云
2025-11-15 17:31:16
81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

揽星河的笔记
2025-11-12 12:36:17
00后沪漂女孩发文:将永远维护上海人!

00后沪漂女孩发文:将永远维护上海人!

看看新闻Knews
2025-11-15 19:44:16
库里挑衅马刺主场2万球迷!霸气微笑让他们大声点,随后绝杀比赛

库里挑衅马刺主场2万球迷!霸气微笑让他们大声点,随后绝杀比赛

嘴炮体坛
2025-11-15 23:59:38
做好准备!即将反击!A股下周要爆了!

做好准备!即将反击!A股下周要爆了!

龙行天下虎
2025-11-15 20:39:07
拿500万!全场6中1,只得2分,坑惨四川,球迷:她是混高薪的混子

拿500万!全场6中1,只得2分,坑惨四川,球迷:她是混高薪的混子

南海浪花
2025-11-15 21:51:19
2025-11-16 01:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
11682文章数 176330关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

中方愤怒升级24小时内2次"奉示约见" 高市又有新动作

头条要闻

中方愤怒升级24小时内2次"奉示约见" 高市又有新动作

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

教育
健康
房产
手机
游戏

教育要闻

天塌了啊:英国大学又开始搞大裁员了!

血液科专家揭秘白血病七大误区

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

手机要闻

iPhone Air开启eSIM时代:国内厂商纷纷跟进

解说杯:打野远胜前职业,GBS战胜RHPA,晋级决赛

无障碍浏览 进入关怀版