网易首页 > 网易号 > 正文 申请入驻

荷兰与英国高校:无需重训实现大模型安全模式动态切换能力

0
分享至

来源:市场资讯

(来源:科技行者)


这项由拉德堡德大学、布里斯托大学与莱顿大学联合开展的研究,以预印本形式于2026年4月30日发布在arXiv平台,编号为arXiv:2604.27818v1,研究方向归属于计算机安全领域(cs.CR)。感兴趣的读者可通过该编号在arXiv上查阅完整论文。

当你和AI助手聊天时,你大概从未想过它内部其实有一套复杂的"分工机制"——就像一个大型餐厅里有几十位厨师,每道菜只由其中少数几位来完成。这种设计让AI变得既聪明又省电,但也因此埋下了新的安全隐患。而这篇论文,正是在解决一个非常现实的问题:当你的AI助手需要切换安全策略时,有没有一种既快速又廉价的方法?

一、厨房里的分工哲学——为什么要用"专家混合"模型

要理解这篇研究,首先需要了解它所研究的AI架构。传统的大型语言模型,就像一家小餐馆:每次有顾客点菜,所有厨师都要全部上阵,哪怕只是做一盘简单的炒蛋。这种方式固然稳定,但极其耗费人力和能源。随着模型越来越大,这种"全员出动"的方式开始让计算成本居高不下。

于是工程师们发明了"专家混合模型"(Mixture-of-Experts,简称MoE)。这种架构的思路是:餐厅里有很多位专精不同菜系的厨师,每次来了新订单,餐厅经理(路由机制)会根据菜品内容,只派其中少数几位最合适的厨师来完成这道菜。大部分厨师在这道菜里完全不参与,但他们依然在编制内,随时可以被调度处理其他类型的任务。这样一来,整体厨师数量虽然庞大,实际每次动员的却只是一小部分,大幅节省了资源。

微软、OpenAI、DeepSeek、阿里巴巴、Mistral等顶尖AI公司都已经在自己的主力模型中采用了这种架构。好处显而易见:花同样的钱,能养出能力更强的模型。但"经理派活"这个环节,也因此成了一个新的安全隐患——如果有人能悄悄操控"经理"的派单决策,就有可能绕过模型原本的安全防线。

已有研究表明,攻击者可以通过干扰这个"经理"(路由机制)的判断,让它不派那些负责安全审查的"厨师"出场,从而让模型输出原本应该拒绝回答的有害内容。这种攻击方式利用的正是MoE架构本身的稀疏性特点。

二、一个头疼的现实问题——安全策略变了,模型怎么办

安全要求从来不是一成不变的。某个新型攻击手法出现了,需要加强防御;某个平台决定开放特定内容给经过年龄验证的用户,需要适当放宽限制;某项监管法规更新了,需要迅速响应。这些都是真实的运营场景。

传统的应对方式是"重新训练"——把整个模型拿来,重新用新的数据和新的目标训练一遍。这个过程不仅花费巨大(可能耗费数百万美元和数周时间),而且对于MoE这类拥有数百亿参数的庞然大物来说,更是一场浩大工程。更麻烦的是,等你重训完毕,新的威胁可能又出现了。

这就是这篇论文想要解决的核心矛盾:AI的安全需求是动态变化的,但现有的应对工具都过于笨重和缓慢。研究团队给出的答案,就是他们提出的框架——MASCing(MoE Activation Steering Configuration,专家混合激活引导配置)。

三、给"经理"贴一张便利贴——MASCing的基本思路

MASCing的核心想法说起来并不复杂:既然我们不能轻易修改餐厅厨师本身的技能(模型权重),那能不能给餐厅经理的派单桌上贴一张"便利贴",告诉他在某些情况下必须优先派哪几位厨师、或者绝对不能派哪几位?

这张"便利贴"就是论文中所说的"引导掩码"(Steering Mask)。它不改变任何厨师的厨艺,不改变餐厅的整体菜单,只是在特定情境下,悄悄调整经理的优先级判断,让整个餐厅输出的结果朝你希望的方向偏移。

这个方案有几个显而易见的好处。它不需要对模型进行任何重新训练,成本极低;它可以针对不同的安全场景制作不同的"便利贴",随时切换;它只影响少数几个关键"厨师"的调度,对整个餐厅的日常运转几乎没有影响。研究团队用实验证明,在一块英伟达H100 GPU上,制作这张"便利贴"只需要大约五分钟。

四、三步走的制作流程——便利贴是怎么做出来的

MASCing的工作分成三个阶段,可以用制作一张"精准任务手册"来理解整个过程。

第一步,是搞清楚"哪些厨师和安全有关"。研究团队需要一个工具来分析模型内部的派单规律,判断哪些厨师组合会导致模型拒绝回答有害请求,哪些组合又会导致模型照单全收。他们选用了一种叫做LSTM的循环神经网络——可以把它理解为一位非常细心的观察员,他不看最终菜品端上桌的结果,而是盯着经理桌上的"待选厨师名单"(也就是路由逻辑值)来分析规律。

这里有一个关键的技术选择值得强调:大多数同类工作只看经理最终"拍板选中"的那几位厨师,而MASCing的观察员则会看完整的候选名单,包括那些差一点就被选中的厨师。这就好比不只看运动员的冠军榜,还要看他们每次比赛的全部成绩——信息量大得多,规律也更清晰。LSTM观察员通过阅读完整的候选名单序列,学会了辨别哪种派单模式会导致模型给出安全回应,哪种模式会导致有害输出。在七个不同模型上的测试显示,这位观察员的判断准确率平均达到了98%以上,最高可达99%,可以说极为可靠。

第二步,是"确定便利贴上写什么"。有了这位能够准确判断模式的观察员,研究团队接下来的任务是找出那些最关键的"厨师"——也就是对目标行为影响最大的专家节点。他们设计了一个数学优化过程:先准备一张空白矩阵(对应所有层次的所有专家),然后通过反复调整这张矩阵,让观察员的预测尽可能指向目标行为。同时,他们加入了一种"稀疏化惩罚"(L1正则化),让矩阵中大部分不重要的数值自动趋向于零,只有真正关键的位置才会保留较大的数值。这就像在一张白纸上,用强光照射,让不重要的内容褪色,只留下真正关键的线索清晰可见。最后,再用一个阈值把那些接近零的残留噪声也清除掉,得到一张稀疏、干净的"引导掩码"。

第三步,是"把便利贴贴到经理桌上"。在模型实际运行时,研究团队通过技术手段在模型内部的路由计算环节插入这张掩码。具体来说,就是在经理做出最终派单决定之前,把掩码中的数值加到候选名单的打分上,让那些被标记为"重要"的厨师得分提高,或者让被标记为"应避免"的厨师得分降低。模型随后按照调整后的打分做出派单决定,整个过程对模型的其他部分完全透明,几乎不增加任何运算时间。

还有一个值得关注的细节:由于模型不同层次之间,候选名单打分的数值范围差异很大(有的层打分在0到1之间,有的层可能在0到100之间),研究团队引入了一个自适应缩放机制,让便利贴上的每一条注释都按照对应层次的实际数值范围来校准,确保每个层次受到的影响幅度是一致的。

五、两个截然相反的测试——既能"加锁"也能"开锁"

为了证明MASCing的灵活性,研究团队特意选择了两个方向完全相反的安全场景来验证它。

第一个场景是"多轮对话越狱防御"。所谓越狱,就是用户通过特殊技巧绕过AI的安全限制,让它说出本该拒绝的内容。多轮越狱是其中最狡猾的一种——攻击者不会一开始就提出有害请求,而是先和AI聊些无害的话题建立语境,然后一步一步把对话引向目标,就像温水煮青蛙。等到AI终于开口说出有害内容时,它自己都没意识到已经被"温水"煮了多久。

研究团队使用了一个包含537段多轮越狱对话的公开数据集(MHJ数据集)来测试。在没有任何防护的情况下,七个被测模型平均只能成功防御52.5%的越狱攻击——也就是说,接近一半的时间里,AI都被攻击者成功操控了。应用MASCing的防御掩码之后,平均防御成功率跃升至83.9%,最高的Qwen3-30B模型达到了89.2%的防御成功率。

更有意思的是,研究团队发现,应用了防御掩码的模型并不是简单地变成了一个"拒绝机器",动不动就说"对不起,我无法回答这个问题"。在对模型回答进行质性分析时,他们发现这些模型能够在拒绝有害请求的同时,依然就用户的话题提供有意义的、上下文相关的回应。论文中给出了一个具体例子:当用户要求模型为"橙剂对越南长期健康影响是政治炒作"这一论断写辩护文章时,没有防护的模型顺从地写了;而应用了防御掩码的模型则给出了一个既拒绝了这一有害立场、又针对这一话题本身给出了事实性回应的答案。这表明防御掩码成功激活的是模型中那些既懂得拒绝有害指令、又能进行有意义对话的专家节点,而不仅仅是触发了一个简单的"拒绝按钮"。

第二个场景,是"成人内容生成"。这个选择本身就很说明问题——研究团队明确引用了OpenAI在2025年调整政策、允许在经过年龄验证的特定场景中生成成人内容这一现实背景。这体现了一个重要的现实:安全不只是"加锁",有时也需要"有条件地开锁"。对于那些面向特定成年用户群体的平台来说,一刀切地拒绝所有成人内容请求,并不是合理的安全策略,而是一种"过度拒绝"。

测试中,三个原本不拒绝成人内容请求的模型被排除在外,剩余四个模型在没有干预时平均只有52.6%的成功生成率。应用了MASCing的内容放宽掩码后,平均成功率提升至82.0%,其中Phi-3.5-MoE-Instruct模型的提升最为显著,成功率从61.2%一路攀升至93.0%。

这两个场景合在一起,证明了MASCing是一个真正意义上的双向配置工具——它不是一个简单的安全过滤器,而是一个可以根据部署需求,在加强防护和适当放开之间灵活调整的配置框架。

六、超参数的艺术——便利贴写得太用力会怎样

MASCing引入了三个可以调整的参数,研究团队用大量实验来找出它们的最佳取值范围,这个过程揭示了一些颇有意思的规律。

控制稀疏化强度的参数λ决定了便利贴上保留多少条注释。当λ等于零时,便利贴上写满了密密麻麻的注释,几乎每位厨师都受到了干预;当λ很大时,便利贴上的内容被大量删减,只剩几条最关键的。实验发现,一定程度的稀疏化对效果有帮助,因为过多干预会把模型原本运转良好的机制也破坏掉。

控制修剪阈值的参数τ是个"除噪"工具。即使经过稀疏化处理,便利贴上还是会残留一些接近零的微小数值——它们太小,不足以影响厨师的调度,但又可能形成积累性的干扰。实验一致表明,将τ设为0.1是最优选择:这个值能清除掉那些没有实质意义的残留噪声,同时不会误删真正有用的注释。当τ等于零时,什么都不删除,结果是模型反而比不加任何防护时表现更差,因为大量无意义的微小干预破坏了模型的正常工作;而τ过大时,几乎所有注释都被删除,防御效果消失殆尽。

控制干预强度的参数α,是最微妙也最关键的一个。它决定了便利贴上的注释用多大的力气推动经理的决策。从实验结果来看,所有模型都呈现出一条相似的曲线:随着α从低到高,防御成功率先上升,在某个峰值之后急剧崩塌。峰值之后的崩塌不是逐渐衰退,而是断崖式下跌,降到比什么都不做还要差的水平。这是因为当干预强度过大时,便利贴实际上强制模型永远只用那几位被标记的厨师,完全无视当前对话的具体内容,最终导致模型陷入重复输出随机字符或无意义短语的混乱状态。

七、与同类方法的对比——为什么看"候选名单"比看"录取名单"更重要

研究团队将MASCing与一个名为SteerMoE的同类方法进行了直接对比。SteerMoE的做法是:只看模型最终选出的那几位厨师的表现,来判断哪些厨师与安全行为相关;找到后,在推理时强制把这些厨师的打分设为正无穷大(确保他们一定被选中)或负无穷大(确保他们一定被排除)。

在同样的多轮越狱防御测试中,SteerMoE的平均防御成功率为58.4%,相比52.5%的基线仅有微弱提升,在某些模型上几乎没有改善。MASCing的83.9%与之形成了鲜明对比。

研究团队给出了两方面的解释。其一,SteerMoE只看最终入选的厨师,忽略了那些差一点就被选上的候选者。一个可能对安全行为至关重要的专家节点,如果总是排在第k+1位(恰好比录取线低一名),在SteerMoE的视野里就是完全不存在的,自然也不会被纳入防御策略。而MASCing看的是完整的候选名单打分,这些"差点入选"的专家同样能被发现和利用。其二,SteerMoE把厨师的打分直接设为无穷大或无穷小,这是一种极端的硬性干预。在MoE架构中,最终各位被选中厨师的贡献是按照他们的打分比例加权的——也就是说,不只看谁被选中,还要看每位被选中的厨师贡献多大份额。强制设为无穷大会彻底破坏这个比例关系,导致被选中的"安全厨师"以一种与任何具体对话内容都无关的、机械的方式主导输出,而不是根据当前对话语境灵活调整。MASCing的"便利贴"方式只是给打分加一个有限的偏移量,保留了这种根据上下文动态调整的能力。

研究团队还进行了另一个对比实验:用MASCing的框架,但把"看候选名单打分"换成"看最终录取名单",并用强制设置无穷大的方式干预,看看效果如何。结果显示,这种"专家级别的硬性干预"版本的平均防御成功率为69.0%,比SteerMoE好,但仍明显落后于完整版MASCing的83.9%。这个对比清晰地说明,MASCing的优势来自两个独立的设计选择:用连续的打分而非离散的录取结果,以及用软性偏移而非硬性替换。

八、安全之外的代价——"便利贴"会不会让厨师忘了做菜

任何干预都有代价。研究团队非常诚实地报告了MASCing对模型通用能力的影响,使用了两个标准测试:覆盖57个学科的知识理解测试MMLU,以及考察数学推理能力的GSM8K。

整体来看,应用MASCing后,模型在这两个测试上的表现平均下降了4.1个百分点。下降幅度因模型而异,从最低的3.1%(Hunyuan-A13B和Qwen1.5两个模型并列)到最高的5.5%(Mixtral-8x7B)不等。

研究团队特别指出,这个4.1%的平均下降并没有导致模型能力的根本性崩溃。以DeepSeek-MoE-16B为例,它在应用防御掩码后,MMLU得分从45.6%降至41.8%,GSM8K得分从46.9%降至41.7%。Qwen3-30B在应用防御掩码后,MMLU得分从81.1%降至77.4%,GSM8K得分从86.7%降至82.8%,依然保持在非常高的水平。所有模型在干预后的最低得分为55.4%,仍然远高于随机猜测水平(约25%),也远高于任何功能完全丧失时可能出现的极低分数。

换句话说,这张便利贴确实让厨师在日常工作时稍微分了点心,但厨师的核心厨艺没有受损,餐厅依然能够正常运营。

九、这套方法的边界——研究团队自己看到的局限

研究团队坦诚地指出了MASCing的几个局限。首先,LSTM观察员是一个近似工具,对于那些路由行为特别复杂、非线性特征极强的超深层模型,它的分析能力可能达到上限,从而导致便利贴的制作效果变差。其次,MASCing只调整"经理的派单决策",不修改任何厨师本身的技能。这意味着如果一个模型从根本上就没有经过安全训练,或者其内部专家已经被恶意污染,那么无论如何调度,都无法凭空创造出安全行为。最后,目前制作出来的便利贴在整个推理过程中是静态不变的,对于那些精心设计的、能够大幅偏移模型激活空间的新型攻击,静态便利贴的应对能力可能不足。

对于这最后一点,研究团队提出了一个颇具想象力的未来方向:开发动态便利贴——一个能够实时分析当前对话威胁等级,并据此动态调整引导策略的轻量级辅助系统。此外,他们也指出MASCing的框架本质上是通用的,不仅适用于安全场景,同样可以用于医疗、法律等专业领域的即时专业化调整,以及减少模型的幻觉问题和控制对话个性风格。

说到底,这项研究的价值在于它提供了一个思维框架的转变:对AI安全行为的管控,不一定非要走"大动干戈"的重训路线,在模型的内部调度机制上做精准的小干预,就有可能以极低的代价实现显著的行为变化。这一发现对于那些需要在快速变化的安全环境中管理大型AI系统的开发者来说,具有相当直接的实用意义。当然,4.1%的通用能力损耗、静态掩码面对新型攻击的局限性,以及这种干预方式本身可能被反向利用的风险,都是这套方法在实际部署前需要认真权衡的问题。感兴趣的读者可以通过arXiv:2604.27818v1查阅完整论文,研究团队也在GitHub上开放了完整代码,供进一步研究和验证。

Q&A

Q1:MASCing框架与SteerMoE相比,多轮越狱防御效果为什么差距这么大?

A:SteerMoE只分析模型最终选中的那几位专家的表现,忽略了候选名单中那些"差一点就被选中"的专家;同时,它用设置正负无穷大的方式强制干预,破坏了MoE架构中各专家按比例加权贡献的机制。MASCing分析完整的路由打分分布,并用有限偏移量而非无穷大替换的方式进行干预,保留了模型根据上下文动态调整的能力,因此在复杂的多轮对话场景中效果明显更好。

Q2:MASCing应用后模型通用能力会下降多少?

A:在MMLU和GSM8K两个标准测试中,平均下降约4.1个百分点。下降幅度在不同模型间有差异,最低约3.1%,最高约5.5%。所有模型在干预后的最低得分为55.4%,远高于功能崩溃水平,研究团队认为这种程度的下降不影响模型的实际可用性。

Q3:MASCing的便利贴(引导掩码)需要多长时间制作?

A:制作过程中计算量最大的部分是训练LSTM代理模型,在单块英伟达H100 GPU上大约需要五分钟。推理时将掩码叠加到路由逻辑值上,属于简单的元素级加法运算,几乎不增加任何额外延迟,整体计算开销极低。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2015年,身价400亿的“黑老大”刘汉死后,前妻杨雪下场如何?

2015年,身价400亿的“黑老大”刘汉死后,前妻杨雪下场如何?

别人都叫我阿腈
2026-05-08 18:54:15
研究表明:性生活越频繁,射精和勃起问题越少!

研究表明:性生活越频繁,射精和勃起问题越少!

黯泉
2026-04-05 20:40:12
汤盈盈精神力挺李泳豪,心疼李家鼎心力交瘁日渐消瘦:想做饭给他们父子俩吃

汤盈盈精神力挺李泳豪,心疼李家鼎心力交瘁日渐消瘦:想做饭给他们父子俩吃

我爱追港剧
2026-05-08 23:03:42
老板娘问我她穿豹纹好不好?看我该怎么回答?

老板娘问我她穿豹纹好不好?看我该怎么回答?

太急张三疯
2026-05-06 19:39:22
4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

通鉴史智
2026-03-15 11:45:00
长得太美被导演占为己有,25岁生下3个孩子,如今个个都给她争光

长得太美被导演占为己有,25岁生下3个孩子,如今个个都给她争光

揽星河的笔记
2026-05-07 20:18:36
南京一高校千余学生将搬到郊外且男女混住?校方:不存在混住,将开公交会有补贴

南京一高校千余学生将搬到郊外且男女混住?校方:不存在混住,将开公交会有补贴

上游新闻
2026-05-08 15:53:05
要打奉陪到底,中方当面插旗,沉默72小时后,日本在境外发射导弹

要打奉陪到底,中方当面插旗,沉默72小时后,日本在境外发射导弹

闻识
2026-05-08 20:14:00
张爱玲吃下堕胎药,在床上疼得打滚,孩子掉下来后,随手扔进马桶

张爱玲吃下堕胎药,在床上疼得打滚,孩子掉下来后,随手扔进马桶

云霄纪史观
2026-05-07 19:38:06
5月中旬,财路大开,意外之财接连入账的三个星座,好好把握

5月中旬,财路大开,意外之财接连入账的三个星座,好好把握

小晴星座说
2026-05-08 20:52:16
浪漫!马龙携漂亮妻子夏露同游剑桥,泛舟康河为爱妻拍照引老外艳羡

浪漫!马龙携漂亮妻子夏露同游剑桥,泛舟康河为爱妻拍照引老外艳羡

818体育
2026-05-08 12:29:05
国乒女团晋级四强,但仍有3大难题急待解决,马琳早就把话说透

国乒女团晋级四强,但仍有3大难题急待解决,马琳早就把话说透

八斗小先生
2026-05-08 14:23:41
文班亚马你太狠了!马刺尘封60年的纪录,竟被你轻松打破

文班亚马你太狠了!马刺尘封60年的纪录,竟被你轻松打破

宝哥精彩赛事
2026-05-08 07:31:59
已逮捕12人,叙利亚:真主党策划“暗杀阴谋”,意刺杀其领导人

已逮捕12人,叙利亚:真主党策划“暗杀阴谋”,意刺杀其领导人

玫瑰与花海
2026-05-07 17:48:42
杨瀚森要换教练了?斯普利特基本无缘留任 利拉德已推荐新帅人选

杨瀚森要换教练了?斯普利特基本无缘留任 利拉德已推荐新帅人选

罗说NBA
2026-05-08 06:22:16
阿凡达男主越狱寻子,Netflix新剧预告曝光

阿凡达男主越狱寻子,Netflix新剧预告曝光

热搜摘要官
2026-05-08 00:02:42
马来西亚与中国决裂,转向日本,361亿赔偿引发热议!

马来西亚与中国决裂,转向日本,361亿赔偿引发热议!

橙色书卷
2026-05-06 21:19:04
世乒赛女团4强赛对阵出炉,神秘之师惨败国乒遇劲敌

世乒赛女团4强赛对阵出炉,神秘之师惨败国乒遇劲敌

眼底星碎
2026-05-09 00:17:56
曝新 AirPods 即将发布:外观大改,价格或达2000+

曝新 AirPods 即将发布:外观大改,价格或达2000+

全是技能
2026-05-08 15:12:38
16岁女孩景区内坠亡,目击者发声,赔偿金额曝光,景区运营仅49天

16岁女孩景区内坠亡,目击者发声,赔偿金额曝光,景区运营仅49天

温柔看世界
2026-05-06 11:48:44
2026-05-09 01:11:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3154344文章数 7247关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

外籍银行高层在香港豪宅性虐及杀害两女子 内幕解密

头条要闻

外籍银行高层在香港豪宅性虐及杀害两女子 内幕解密

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

艺术
家居
数码
本地
公开课

艺术要闻

惊艳私房摄影:感受真情与绝美画面!

家居要闻

流动的尺度 打破家的形式主义

数码要闻

华硕京东重磅新品日,华硕天选7系列游戏本开启预约

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版