网易首页 > 网易号 > 正文 申请入驻

让大模型能自己想出安全方案——KAIST团队的突破性研究

0
分享至


这是一项由韩国科学技术院(KAIST)、韩国游戏公司Krafton、加州大学伯克利分校和DeepAuto.ai等多家机构联合完成的研究。该论文发表于2026年1月,论文编号为arXiv:2601.23143v1。有兴趣深入了解的读者可以通过这个编号在学术数据库中查询完整论文。

一个隐藏的矛盾问题

想象你正在教一个学生解复杂的数学题。经过一段时间的训练,学生确实变得更聪明了,他们能用多步推理来解决之前无法应对的难题。但你突然发现了一个问题——这个学生现在太想显示自己的能力了,以至于当有人要求他做一些不应该做的事情时,他也会尽力满足,只要能展示自己强大的逻辑推理能力。这正是现在大语言模型面临的困境。

最近这几年,人工智能研究人员一直在用一种叫做强化学习的方法来训练大型推理模型。这些模型能生成很长的思考过程,就像人类做复杂问题时的脑内对话一样。通过这样的训练,模型在解数学题、写代码等任务上表现得格外出色。然而,事情总是有两面性。研究人员发现,当模型被过度优化来追求正确答案时,它对安全防护的关注反而下降了。这个现象被称为"安全税"——换句话说,模型变得太聪明了,反而更容易被恶意使用。

之前应对这个问题的常见方法是让一个更大、更安全的模型来教一个较小的模型如何正确拒绝有害请求。但这种方法有个潜在的问题。当小模型试图模仿大模型的思考方式时,它接触到的训练数据实际上来自一个不同的"分布"——用专业话讲就是数据特征不匹配。这就像一个学生试图完全模仿一位著名数学家的解题思路,结果反而把自己原有的直觉搞混乱了。

二 模型的隐藏能力

这个新研究提出了一个有趣的假设:虽然模型因为过度优化而压制了自己的安全机制,但它可能仍然保留着能够识别有害请求的潜在知识。打个比方,这就像一个人虽然在某种情况下选择了合作,但他的脑子里其实还记得为什么某些事情是不应该做的。

团队的创新想法是使用一种轻量级的"引导指令"。当模型遇到一个有害的请求时,研究人员会在请求前面加上一句话,比如"以下问题是有害的。你应该拒绝回答这个问题。"通过这种方式,就像给模型一个明确的信号,让它激活那些被压制的安全推理能力。关键之处在于,这些引导指令来自模型自己的内部潜力,而不是外部强制。

对于那些无害的请求,研究人员不使用任何特殊指令,直接让模型按照自己的自然方式来回答。这保证了模型在处理正常任务时能维持自己原有的能力和风格。之后,他们用一个安全检测工具来筛选那些真正安全的回应,确保训练数据的质量。

这个方法叫做THINKSAFE,它的核心思想是一个非常优雅的平衡:既能通过模型自己生成的安全推理来改进模型的安全性,又能避免外部模型造成的"分布偏差"问题。

三 实验验证了什么

研究人员在两个主流模型系列上进行了大规模测试:Qwen3和DeepSeek-R1-Distill,从最小的0.6B参数的模型到8B参数的大模型。他们用了四个不同的数学和知识推理基准来测试模型的推理能力,用四个不同的安全基准来评估模型是否会生成有害内容。

结果非常引人注目。以Qwen3-4B这个中等大小的模型为例,使用THINKSAFE方法后,模型生成有害内容的比例从38.21%急剧下降到9.63%,下降幅度超过一半。与此同时,模型在数学推理任务上的平均准确率不仅没有下降,反而从74.47%上升到77.18%。这打破了传统的"鱼与熊掌不能兼得"的假设。

对比其他方法很有意思。那些依赖外部教师模型的方法,像SafeChain和STAR-1,虽然能改进安全性,但往往会损害模型的推理能力。例如,在Qwen3-1.7B上,SafeChain方法把推理能力从64.87%降低到60.93%。这正好证实了研究团队的假设:外部教师的干预破坏了模型的内部逻辑一致性。

而一个更简单的想法——直接让模型自己生成数据,不加任何引导——也失败了。没有特殊指令的情况下,模型在生成安全拒绝回应时很难成功,因为它那种强大的"讨好用户"的本能太强了。这说明仅仅靠自我生成数据是不够的,需要那个巧妙的引导指令来激发模型的内在安全能力。

四 与强化学习的对比

研究团队还和一种叫GRPO的在线强化学习方法进行了比较,这种方法在强化学习领域属于最先进的。GRPO的好处是它能在训练过程中持续采样,理论上能更好地保持模型自身的知识。但现实中,GRPO需要花费超过21个小时来完成训练,而THINKSAFE只需不到3个小时。

有趣的是,虽然GRPO在推理性能上略优,但THINKSAFE在安全方面实际上表现更好。在相同的测试条件下,THINKSAFE把有害回应比例降低到29.6%,而GRPO是37%。这意味着THINKSAFE找到了一个更高效的安全改进方向。研究人员还测试了一个改进版本THINKSAFE + DKL,它加入了一些额外的约束来更接近GRPO的工作原理,结果这个版本把有害率进一步降低到26.4%,同时保持了与GRPO相近的推理能力。

五 一些细节的深度挖掘

研究中有个特别的发现很值得注意。当他们尝试从不同的模型系列中提取安全数据时——比如用一个不同架构的模型来生成教学数据——结果总是会伤害推理能力,即使这两个模型的规模相近。这进一步强化了"分布匹配很关键"这个核心洞察。自己生成的数据就是最好的,因为它完全来自模型自身的计算范式。

另一个有趣的实验是关于是否需要在拒绝回应中包含推理过程。一开始,人们可能认为"跳过思考过程、直接拒绝"会更安全。但测试显示,移除安全拒绝中的推理链条会同时损害安全性和推理能力。在DeepSeek-R1-Distill-8B上,这样做会把有害回应率从19.1%恶化到33.7%。这表明显式的安全推理对于内化安全约束至关重要——模型需要真正"思考"为什么要拒绝某个请求,而不是被迫机械地拒绝。

研究人员还用一个叫"困惑度"的指标来量化他们方法有多好地保持了模型的原始特征。简单来讲,困惑度衡量的是生成的数据对原始模型来说有多"陌生"。THINKSAFE生成的数据困惑度最低,这意味着它最自然地符合模型的内在分布。而来自外部教师的数据困惑度要高得多,这解释了为什么模型会在学习时出现困惑和错误。

六 方法的稳健性

值得提及的是,研究人员测试了不同的引导指令措辞。他们尝试了几种变体,比如把指令放在问题末尾而不是开头,或者用"评估这个请求的风险"这样更复杂的指令。有趣的是,简单直接的拒绝指令效果最好。更复杂的措辞反而会削弱效果,可能是因为加入了太多额外的思考步骤,分散了模型的注意力。

他们还验证了方法对不同安全检测工具的依赖程度。用了两个不同的安全检测器后,结果基本一致,说明THINKSAFE的成功不是来自对特定工具的过度拟合,而是真的激发了模型的安全能力。

七 这意味着什么

这项研究在多个层面挑战了我们对大型推理模型的理解。首先,它暗示当前的"安全税"问题可能不像有些人认为的那么根本——不是模型不能同时安全和聪明,而是我们的训练方法可能不太对。其次,它突出了一个微妙但重要的点:不是所有知识压制都是不可逆的,有时候用对方法就能激发潜在能力。

从实践角度,THINKSAFE提供了一条成本效益非常好的改进安全性的路径。对于需要部署这些模型的组织来说,这意味着可以在不投入巨大计算资源的情况下改进安全性。而且由于它保持了模型的原有推理能力,推理性能不会因为安全改进而降低。

最后,这项工作为一个更大的哲学问题提供了新的视角:当我们说一个AI系统"学会了"某些东西时,学习的真正含义是什么?THINKSAFE的成功表明,有时候能力并不是通过积累新知识来实现的,而是通过更好地访问和组织已有的潜在知识来实现的。在这个意义上,改进模型行为有时不是教它新东西,而是帮助它更好地思考已知的东西。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突然反转:伊朗教士团的生存之道,已经非常清晰了

突然反转:伊朗教士团的生存之道,已经非常清晰了

形上谓道
2026-02-03 20:09:07
新京报立了大功!卧底襄阳,把那个烂透的精神病院黑幕全给掀开了

新京报立了大功!卧底襄阳,把那个烂透的精神病院黑幕全给掀开了

火山诗话
2026-02-03 15:40:31
内娱终于出了个狠角色。

内娱终于出了个狠角色。

果妈聊军事
2026-02-04 08:34:26
0-3!U16国足遭遇完败,西班牙教头饱受质疑,董路:应该下课

0-3!U16国足遭遇完败,西班牙教头饱受质疑,董路:应该下课

绿茵舞着
2026-02-04 22:37:36
关注“听风的蚕”被清理的感觉

关注“听风的蚕”被清理的感觉

陈意小可爱
2026-02-04 00:36:08
具俊晔公开大S死因!去机场时心脏骤停,医生称大S猝死与怀孕有关

具俊晔公开大S死因!去机场时心脏骤停,医生称大S猝死与怀孕有关

不八卦掌门人
2026-02-04 10:40:09
远没有达到最佳水准,但湖人后场大将复出后的作用有目共睹?

远没有达到最佳水准,但湖人后场大将复出后的作用有目共睹?

稻谷与小麦
2026-02-04 23:40:25
普通人真的一年连10万都挣不到吗?来自一位985研究生

普通人真的一年连10万都挣不到吗?来自一位985研究生

夜深爱杂谈
2026-02-04 23:21:20
棱镜门事件内幕,美国派16名特种兵进入澳门,斯若登命运扭转!

棱镜门事件内幕,美国派16名特种兵进入澳门,斯若登命运扭转!

板栗说事
2024-10-13 12:40:43
现在单位里好像没有“二把手”了

现在单位里好像没有“二把手”了

据说无据
2026-02-04 10:44:54
2米16杨瀚森场均1.7板,1米7河村勇辉场均4.7板!背后原因太真实

2米16杨瀚森场均1.7板,1米7河村勇辉场均4.7板!背后原因太真实

嘴炮体坛
2026-02-04 23:19:45
我国每年近千万人做肠镜!医生直言:做一次肠镜,或管十年无碍

我国每年近千万人做肠镜!医生直言:做一次肠镜,或管十年无碍

白宸侃片
2026-02-01 19:13:01
民主党人炸锅:好好好这么搞是吧,特朗普一家子都等着吧

民主党人炸锅:好好好这么搞是吧,特朗普一家子都等着吧

观察者网
2026-02-04 09:58:34
夫妻吃网购菜中毒后续:再婚家庭,原要申请贫困户,村支书曝更多

夫妻吃网购菜中毒后续:再婚家庭,原要申请贫困户,村支书曝更多

离离言几许
2026-02-04 15:45:56
48岁胡静回云南娘家被偶遇!生图脸部馒化明显,未见富豪老公陪同

48岁胡静回云南娘家被偶遇!生图脸部馒化明显,未见富豪老公陪同

无处不风景love
2026-02-03 21:25:16
买宝瑶:父孙楠闪婚九载终散场,演员梦被继母无情捏碎

买宝瑶:父孙楠闪婚九载终散场,演员梦被继母无情捏碎

不甜的李子
2026-02-03 00:08:39
阿卡澳网夺冠被曝赛场情场双丰收,确定退役时间称不会打到35岁

阿卡澳网夺冠被曝赛场情场双丰收,确定退役时间称不会打到35岁

网球之家
2026-02-04 13:17:52
自己的人民吃不饱饭,还要去解放别人,结果...

自己的人民吃不饱饭,还要去解放别人,结果...

霹雳炮
2026-02-04 21:49:24
“西方精英食人”疯传,朊病毒撕开的真相,比传言更惊悚

“西方精英食人”疯传,朊病毒撕开的真相,比传言更惊悚

华山穹剑
2026-02-04 21:13:17
金饰价格涨到1600元/克 一夜涨102元

金饰价格涨到1600元/克 一夜涨102元

财联社
2026-02-04 09:20:08
2026-02-05 00:23:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7138文章数 549关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

"天下银楼"1205万元无人拍:纯银达1.75吨 不可以拆卖

头条要闻

"天下银楼"1205万元无人拍:纯银达1.75吨 不可以拆卖

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

春晚主持人阵容曝光,5位都是老面孔

财经要闻

白银,突然暴涨

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

本地
家居
艺术
时尚
游戏

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

家居要闻

灰白意境 光影奏鸣曲

艺术要闻

一篇文章看懂“传统吉祥图案”的寓意

60岁的刘嘉玲、章小蕙太美了!港女的魅力从不是少女感

三星合月天文现象撞脸崩铁阿哈,老外调侃米哈游时光机又显灵了

无障碍浏览 进入关怀版