锚定拒绝方向：通过投影约束减轻调优中的安全风险|漂移

锚定拒绝方向：通过投影约束减轻调优中的安全风险

2025-11-07 08:26:45　来源: 将门创投

北京举报

分享至

本文介绍来自哈尔滨工业大学SCIR实验室的研究。该研究目标是缓解指令微调过程会无意间破坏模型的安全对齐机制，其核心挑战在于如何在维持调优所带来性能收益的同时减轻其引入的安全风险，需要同时兼顾任务性能收益和安全风险。尽管先前的研究在数据处理、对齐、调优以及后处理阶段尝试了各种方法，但它们通常存在不稳定性、不可解释性，并且在性能方面仍有很大的提升空间。

为了解决这一挑战，本研究锚定模型激活中存在的拒绝方向，它在先前的研究中被证明对于模型安全行为有很强的可控性。基于这一见解，本研究首先通过定量分析观测到该方向在调优期间会发生显著漂移，并设计了投影约束的方法（即约束训练样本在该方向上投影强度的变化），从而缓解拒绝方向的漂移。实验表明，随着投影约束的强度增强，拒绝方向的漂移可以随之缓解，并且引入的安全风险会随之减弱。这表明拒绝方向的漂移是安全风险引入的原因之一，这是模型表现出的能力遗忘。

然而，过大的强度虽然会大幅减轻安全风险，但也会影响任务性能的收益，这违背了微调最初的目标。为了解决这一问题，本研究进而提出了预热策略（即鼓励仅在早期添加强约束）以及扩展数据分布（增强约束信号以稳定拒绝方向）。在不同的模型、数据集以及微调场景下，本研究所提出的ProCon方法能够在维持任务性能收益的同时大幅减轻安全风险，超越了当前各种强基线的表现。

论文题目： Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint 论文链接： https://arxiv.org/abs/2509.06795

一、ProCon方法

ProCon方法 1.1 拒绝方向的识别

与先前的研究保持一致，本研究首先通过收集良性-恶意指令对，并收集其在前向传播过程中的激活。随后，通过difference-in-means方法计算基于良性与恶意指令所得到激活的差值，来确定拒绝方向。计算公式如下：

1.2 拒绝方向的漂移

为了观测在调优期间拒绝方向是否发生变化？在调优期间，我们识别每一轮训练后的拒绝方向，并计算其与初始拒绝方向的余弦相似度，其计算公式如下：

通过在不同模型上进行分析，本研究发现在训练期间该方向会发生显著漂移，其分析结果如下：

拒绝方向漂移分析

为了验证该方向漂移与安全风险的关联性，本研究提出了一种简单的投影约束方法，即约束训练样本的隐状态在拒绝方向上投影强度的变化。其中，投影可以表示为：

投影约束可以计算为：

该约束项会添加到损失函数中，并且通过 α 来控制约束强度：

我们的初步分析表明，通过这一简单的约束可以缓解拒绝方向的漂移（见“讨论与分析”），并在如下图所示，随着约束强度的增强，引入的安全风险会随之减弱，这证明了拒绝方向的漂移是安全风险引入的原因之一。但随着约束强度的增强，任务性能收益也会受到损失。为了解决这一问题，我们提出了增强的ProCon方法。

约束强度对总体性能的影响 1.3 增强的ProCon方法

本研究基于拒绝方向漂移分析观测到的现象以及数据驱动视角引入了预热策略和扩展数据分布的策略。

预热策略：在先前的分析中，我们观测到拒绝方向的漂移在早期更为显著，而后期的漂移幅度通常较小。这表明遗忘更多的发生在早期，可能是由于训练损失较大，而后期由于训练损失较小，其影响并不显著。基于这一现象，我们引入预热策略，即鼓励在训练早期添加一个强约束，而在后期转化为不添加任何约束（在“讨论与分析”中，我们证明了早期进行强约束的重要性）。
扩展数据分布：由于拒绝方向是贯穿于良性和恶意指令表示空间，而在训练过程中，所使用的训练样本可以被认为是良性指令，聚集于该方向的一侧。从fisher信息论的角度，我们认为，添加一些包含安全导向的样本（包含恶意指令）有助于增强约束信号，从而稳定拒绝方向（在“讨论与分析”中，我们证明了安全导向样本的引入有助于稳定该方向）。

通过引入上述策略，我们实现了增强的ProCon方法。

二、主实验 2.1 实验设置

训练数据：在本研究中，我们在知识密集型任务下模型微调过程，即采用UltraInteract逻辑推理数据集作为训练数据，并融入通用域对话数据维持回复的流畅性。
实验场景：本研究关注良性微调和攻击微调场景。对于良性微调场景，其模拟用户出于两星目的调优模型，无意间损害模型的安全性。对于攻击微调场景，其模拟攻击者将攻击数据恶意注入训练数据中，以实现对模型安全行为的破坏。
评估设置：对于安全性评估，本研究采取了两个安全基准以及四种越狱攻击方法，报告了有害性评分以及攻击成功率。对于性能评估，本研究报告了在逻辑推理数据上的准确率。

此外，本研究比较了各种强基线，基线的介绍可参见论文。对于ProCon方法，我们进行了如下的设置：

ProCons代表添加简单的投影约束。
ProConwu代表引入预热策略、
ProConssafe代表引入数据分布扩展策略。
ProConwusafe代表同时引入预热和数据分别扩展策略。

2.2 实验结果

我们的实验结果表明，在不同的LLMs以及场景下，所提出的ProCon方法均可以在不损害性能收益的同时显著减轻安全风险，并且显著优于各种强基线。相关的结果对比可以参考论文，实验结果如下：

在良性微调场景下基于LLaMA2的结果

在良性微调场景下基于LLaMA3和Qwen2的结果

在攻击微调场景下基于LLaMA3和Qwen2的结果

三、分析与讨论 3.1 ProCon方法对于拒绝方向的影响

ProCon方法可以显著减轻拒绝方向的漂移，且预热和数据扩展策略对于稳定拒绝方向均起正向作用。

ProCon方法对于拒绝方向的影响
3.2 在GSM8K数据集下，基于LLaMA2的实验结果

即使面对不同的微调数据，也保持强大的性能收益。

GSM8K数据集下，基于LLaMA2的实验结果

3.3 预热轮数对于性能的影响

LLaMA系列模型经历4轮预热可以取得不错的收益，而Qwen需要预热16轮，这可能与模型本身安全性能有关。

预热轮数对于性能的影响

此外，本研究还提供了其他详细的分析，具体讨论与分析可以参考论文。

四、总结与展望

为了缓解微调引入的安全风险，本研究锚定拒绝方向这一表征，它对于保障语言模型的安全性起着至关重要的作用。本研究发现，在微调过程中，拒绝方向往往会发生偏移，这被归因为安全风险引入的原因之一。为了稳定拒绝方向，本研究提出了一种投影约束方法ProCon，并辅以预热策略和扩展的数据分布，以增强其有效性和鲁棒性。实验结果表明，在各种数据集、场景和语言模型中，ProCon方法能够有效地缓解拒绝方向的偏移，从而降低相关安全风险，同时保持任务性能收益。至关重要的是，本研究深入探讨了语言模型的可解释性机制，并揭示了安全风险的潜在原因，为未来的安全导向研究奠定了基础。

本文第一作者在安全方面的近期工作，欢迎各位交流： MoGU框架： MoGU: A Framework for Enhancing Safety of LLMs While Preserving Their Usability https://arxiv.org/abs/2405.14488 迈向安全的微调： Towards Secure Tuning: Mitigating Security Risks Arising from Benign Instruction Fine-Tuning https://arxiv.org/abs/2410.04524

模型的安全风险： Investigating the Security Threat Arising from “Yes-No” Implicit Bias in Large Language Models https://ojs.aaai.org/index.php/AAAI/article/view/34554 MoGU v2框架： MoGU V2: Toward a Higher Pareto Frontier Between Model Usability and Security https://arxiv.org/abs/2509.06807

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信（michelle333_）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.