网易首页 > 网易号 > 正文 申请入驻

锚定拒绝方向:通过投影约束减轻调优中的安全风险

0
分享至

本文介绍来自哈尔滨工业大学SCIR实验室的研究。该研究目标是缓解指令微调过程会无意间破坏模型的安全对齐机制,其核心挑战在于如何在维持调优所带来性能收益的同时减轻其引入的安全风险,需要同时兼顾任务性能收益和安全风险。尽管先前的研究在数据处理、对齐、调优以及后处理阶段尝试了各种方法,但它们通常存在不稳定性、不可解释性,并且在性能方面仍有很大的提升空间。

为了解决这一挑战,本研究锚定模型激活中存在的拒绝方向,它在先前的研究中被证明对于模型安全行为有很强的可控性。基于这一见解,本研究首先通过定量分析观测到该方向在调优期间会发生显著漂移,并设计了投影约束的方法(即约束训练样本在该方向上投影强度的变化),从而缓解拒绝方向的漂移。实验表明,随着投影约束的强度增强,拒绝方向的漂移可以随之缓解,并且引入的安全风险会随之减弱。这表明拒绝方向的漂移是安全风险引入的原因之一,这是模型表现出的能力遗忘

然而,过大的强度虽然会大幅减轻安全风险,但也会影响任务性能的收益,这违背了微调最初的目标。为了解决这一问题,本研究进而提出了预热策略(即鼓励仅在早期添加强约束)以及扩展数据分布(增强约束信号以稳定拒绝方向)。在不同的模型、数据集以及微调场景下,本研究所提出的ProCon方法能够在维持任务性能收益的同时大幅减轻安全风险,超越了当前各种强基线的表现。


论文题目: Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint 论文链接: https://arxiv.org/abs/2509.06795
一、ProCon方法

ProCon方法 1.1 拒绝方向的识别

与先前的研究保持一致,本研究首先通过收集良性-恶意指令对,并收集其在前向传播过程中的激活。随后,通过difference-in-means方法计算基于良性与恶意指令所得到激活的差值,来确定拒绝方向。计算公式如下:


1.2 拒绝方向的漂移

为了观测在调优期间拒绝方向是否发生变化?在调优期间,我们识别每一轮训练后的拒绝方向,并计算其与初始拒绝方向的余弦相似度,其计算公式如下:


通过在不同模型上进行分析,本研究发现在训练期间该方向会发生显著漂移,其分析结果如下:


拒绝方向漂移分析

为了验证该方向漂移与安全风险的关联性,本研究提出了一种简单的投影约束方法,即约束训练样本的隐状态在拒绝方向上投影强度的变化。其中,投影可以表示为:


投影约束可以计算为:


该约束项会添加到损失函数中,并且通过 α 来控制约束强度:


我们的初步分析表明,通过这一简单的约束可以缓解拒绝方向的漂移(见“讨论与分析”),并在如下图所示,随着约束强度的增强,引入的安全风险会随之减弱,这证明了拒绝方向的漂移是安全风险引入的原因之一。但随着约束强度的增强,任务性能收益也会受到损失。为了解决这一问题,我们提出了增强的ProCon方法。


约束强度对总体性能的影响 1.3 增强的ProCon方法

本研究基于拒绝方向漂移分析观测到的现象以及数据驱动视角引入了预热策略和扩展数据分布的策略。

  • 预热策略:在先前的分析中,我们观测到拒绝方向的漂移在早期更为显著,而后期的漂移幅度通常较小。这表明遗忘更多的发生在早期,可能是由于训练损失较大,而后期由于训练损失较小,其影响并不显著。基于这一现象,我们引入预热策略,即鼓励在训练早期添加一个强约束,而在后期转化为不添加任何约束(在“讨论与分析”中,我们证明了早期进行强约束的重要性)。

  • 扩展数据分布:由于拒绝方向是贯穿于良性和恶意指令表示空间,而在训练过程中,所使用的训练样本可以被认为是良性指令,聚集于该方向的一侧。从fisher信息论的角度,我们认为,添加一些包含安全导向的样本(包含恶意指令)有助于增强约束信号,从而稳定拒绝方向(在“讨论与分析”中,我们证明了安全导向样本的引入有助于稳定该方向)。

通过引入上述策略,我们实现了增强的ProCon方法。

二、主实验 2.1 实验设置

  • 训练数据:在本研究中,我们在知识密集型任务下模型微调过程,即采用UltraInteract逻辑推理数据集作为训练数据,并融入通用域对话数据维持回复的流畅性。

  • 实验场景:本研究关注良性微调攻击微调场景。对于良性微调场景,其模拟用户出于两星目的调优模型,无意间损害模型的安全性。对于攻击微调场景,其模拟攻击者将攻击数据恶意注入训练数据中,以实现对模型安全行为的破坏。

  • 评估设置:对于安全性评估,本研究采取了两个安全基准以及四种越狱攻击方法,报告了有害性评分以及攻击成功率。对于性能评估,本研究报告了在逻辑推理数据上的准确率。

此外,本研究比较了各种强基线,基线的介绍可参见论文。对于ProCon方法,我们进行了如下的设置:

  • ProCons代表添加简单的投影约束。

  • ProConwu代表引入预热策略、

  • ProConssafe代表引入数据分布扩展策略。

  • ProConwusafe代表同时引入预热和数据分别扩展策略。

2.2 实验结果

我们的实验结果表明,在不同的LLMs以及场景下,所提出的ProCon方法均可以在不损害性能收益的同时显著减轻安全风险,并且显著优于各种强基线。相关的结果对比可以参考论文,实验结果如下:


在良性微调场景下基于LLaMA2的结果

在良性微调场景下基于LLaMA3和Qwen2的结果


在攻击微调场景下基于LLaMA3和Qwen2的结果

三、分析与讨论 3.1 ProCon方法对于拒绝方向的影响

ProCon方法可以显著减轻拒绝方向的漂移,且预热和数据扩展策略对于稳定拒绝方向均起正向作用。


ProCon方法对于拒绝方向的影响
3.2 在GSM8K数据集下,基于LLaMA2的实验结果

即使面对不同的微调数据,也保持强大的性能收益。


GSM8K数据集下,基于LLaMA2的实验结果

3.3 预热轮数对于性能的影响

LLaMA系列模型经历4轮预热可以取得不错的收益,而Qwen需要预热16轮,这可能与模型本身安全性能有关。


预热轮数对于性能的影响

此外,本研究还提供了其他详细的分析,具体讨论与分析可以参考论文


四、总结与展望

为了缓解微调引入的安全风险,本研究锚定拒绝方向这一表征,它对于保障语言模型的安全性起着至关重要的作用。本研究发现,在微调过程中,拒绝方向往往会发生偏移,这被归因为安全风险引入的原因之一。为了稳定拒绝方向,本研究提出了一种投影约束方法ProCon,并辅以预热策略和扩展的数据分布,以增强其有效性和鲁棒性。实验结果表明,在各种数据集、场景和语言模型中,ProCon方法能够有效地缓解拒绝方向的偏移,从而降低相关安全风险,同时保持任务性能收益。至关重要的是,本研究深入探讨了语言模型的可解释性机制,并揭示了安全风险的潜在原因,为未来的安全导向研究奠定了基础。

本文第一作者在安全方面的近期工作,欢迎各位交流: MoGU框架: MoGU: A Framework for Enhancing Safety of LLMs While Preserving Their Usability https://arxiv.org/abs/2405.14488 迈向安全的微调: Towards Secure Tuning: Mitigating Security Risks Arising from Benign Instruction Fine-Tuning https://arxiv.org/abs/2410.04524

模型的安全风险: Investigating the Security Threat Arising from “Yes-No” Implicit Bias in Large Language Models https://ojs.aaai.org/index.php/AAAI/article/view/34554 MoGU v2框架: MoGU V2: Toward a Higher Pareto Frontier Between Model Usability and Security https://arxiv.org/abs/2509.06807

llustration From IconScout By IconScout Store

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我今年85岁,很少生病。这三个习惯我坚持了三十年,普通人也能做

我今年85岁,很少生病。这三个习惯我坚持了三十年,普通人也能做

王晓爱体彩
2026-02-25 04:37:22
美伊开出停战条件,伊朗内部形成共识,让强硬派放开手脚打一场

美伊开出停战条件,伊朗内部形成共识,让强硬派放开手脚打一场

面包夹知识
2026-03-03 14:54:40
美股V型反弹,英伟达涨近3%,布油大涨7%,白银深夜跳水4%

美股V型反弹,英伟达涨近3%,布油大涨7%,白银深夜跳水4%

半岛官网
2026-03-03 17:10:13
钟楚曦马尔代夫度假太敢晒!性感照天天发,内娱独一份的洒脱

钟楚曦马尔代夫度假太敢晒!性感照天天发,内娱独一份的洒脱

她时尚丫
2026-03-03 21:51:04
不得不面对的事实?美司令首次承认:中国卫星太强,美军必须反击

不得不面对的事实?美司令首次承认:中国卫星太强,美军必须反击

林子说事
2026-03-03 18:36:09
苹果宣布老款 iPhone 大降价,二手价格崩盘!

苹果宣布老款 iPhone 大降价,二手价格崩盘!

XCiOS俱乐部
2026-03-03 11:54:06
够壮了,努诺:我已经告诉特拉奥雷不要去健身房,更不要举重

够壮了,努诺:我已经告诉特拉奥雷不要去健身房,更不要举重

懂球帝
2026-03-03 09:33:11
黄金暴跌破5000美元 美股三大指数均跌超2% 布伦特原油暴涨至85美元 美元指数大涨0.7%

黄金暴跌破5000美元 美股三大指数均跌超2% 布伦特原油暴涨至85美元 美元指数大涨0.7%

每日经济新闻
2026-03-03 23:48:52
为了逼她就范,公司把迪丽热巴一人丢在迪拜,小心成为下一个蒙龙

为了逼她就范,公司把迪丽热巴一人丢在迪拜,小心成为下一个蒙龙

大中国
2026-03-04 01:47:20
纪实:浙江幼师幼儿园潜伏22年,警察曝光真实身份,家长很后怕

纪实:浙江幼师幼儿园潜伏22年,警察曝光真实身份,家长很后怕

谈史论天地
2026-03-01 09:49:38
蓄势待发!上海队外援弗格带着老婆孩子来了,全力冲击总冠军

蓄势待发!上海队外援弗格带着老婆孩子来了,全力冲击总冠军

林子说事
2026-03-03 19:17:56
深度观察:从美以伊战争看中西文明的底层逻辑

深度观察:从美以伊战争看中西文明的底层逻辑

生活新鲜市
2026-03-03 11:47:07
让人揪心的事发生,多位艺人全家滞留中东,甄子丹的话,有人信了

让人揪心的事发生,多位艺人全家滞留中东,甄子丹的话,有人信了

大中国
2026-03-03 12:59:25
看上海外婆,再看北京姥姥,我悟了:老了尽量少戴黄金、穿老年装

看上海外婆,再看北京姥姥,我悟了:老了尽量少戴黄金、穿老年装

孤傲何妨初
2026-03-03 14:35:38
美以联手袭击,伊朗出动王牌应战,俄罗斯:特朗普是在逼中国下场

美以联手袭击,伊朗出动王牌应战,俄罗斯:特朗普是在逼中国下场

标体
2026-03-04 03:08:12
人到中年,还在朋友圈晒这三样东西,情商很低,层次也很低

人到中年,还在朋友圈晒这三样东西,情商很低,层次也很低

唯晨说
2026-03-03 11:30:03
不被任何人拿捏的顶级思维:不要回答别人的问题,要回答别人的目的

不被任何人拿捏的顶级思维:不要回答别人的问题,要回答别人的目的

古代经典
2026-02-25 15:40:12
短短两天内,伊朗大骗局露馅,最高领袖阵亡,美以双双栽跟头

短短两天内,伊朗大骗局露馅,最高领袖阵亡,美以双双栽跟头

面包夹知识
2026-03-02 17:21:21
今天!3月4日樊振东落选原因曝光!世界杯出名单,19岁小将成黑马

今天!3月4日樊振东落选原因曝光!世界杯出名单,19岁小将成黑马

皮皮观天下
2026-03-04 04:53:23
男子超市用2欧元硬币结账,收银员一看报警:560欧元全是假币

男子超市用2欧元硬币结账,收银员一看报警:560欧元全是假币

意大利华人网0039
2026-03-03 04:38:28
2026-03-04 05:40:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

家居
手机
游戏
公开课
军事航空

家居要闻

万物互联 享科技福祉

手机要闻

荣耀Magic V6下周见,开启折叠屏7000mAh时代

猎魂世界:当前版本最亟需增强的队伍是?这支真可算是首当其冲!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:击中美空军基地大楼

无障碍浏览 进入关怀版