达姆施塔特工业大学发现：专家混合模型AI安全机制存在脆弱性|实验

分享至

来源：市场资讯

（来源：科技行者）

这项由德国达姆施塔特工业大学系统安全实验室的吴立超领导的国际研究团队，联合萨格勒布大学和拉德伯德大学的研究人员，于2025年发表的突破性研究，首次揭示了专家混合模型（MoE）大语言模型在安全防护方面的惊人漏洞。这项发表在arXiv预印本服务器上的论文（编号：arXiv:2512.21008v2），为我们理解当前最先进AI模型的安全机制提供了全新视角。

当我们谈论人工智能安全时，大多数人可能会想象复杂的防护系统和严密的安全检查。然而，这项研究却发现，目前最先进的专家混合模型AI系统的安全机制，竟然脆弱得如同一座用纸糊的城墙。研究团队发现，只需要巧妙地"关闭"模型中约3%的特定神经元，就能让原本拒绝回答有害问题的AI模型，突然变得"有问必答"，甚至开始提供危险建议。

专家混合模型是目前AI领域最前沿的技术之一，被OpenAI的GPT-4、阿里巴巴的通义千问、微软的Phi等顶级AI产品广泛采用。这种技术就像一个庞大的专家团队，每当用户提出问题时，AI会自动选择最合适的"专家"来回答。这样的设计让AI能够在保持强大能力的同时，大幅降低计算成本。然而，正是这种看似聪明的"专家分工"机制，为安全漏洞埋下了隐患。

研究团队开发了一个名为"GateBreaker"的攻击框架，这个名字恰如其分地描述了它的功能——专门破坏AI系统的"安全门禁"。GateBreaker的工作原理可以比作一个非常了解银行内部运作的内贼。首先，它会仔细观察当AI收到有害问题时，哪些"专家"会被频繁调用来执行拒绝回应的任务。然后，它深入这些"安全专家"内部，精确定位那些负责识别和阻止有害内容的关键神经元。最后，在实际运行时，它悄悄地"关闭"这些安全神经元，就像拔掉了警报系统的电源线一样。

这种攻击的效果令人震惊。在对八个最新的专家混合模型进行测试时，GateBreaker将平均攻击成功率从7.4%大幅提升到了64.9%。更令人担忧的是，这种攻击具有很强的"传染性"——在一个模型上发现的安全漏洞，可以直接用来攻击同一系列的其他模型，成功率甚至能达到67.7%。这就像发现了一把万能钥匙，不仅能打开一扇门，还能打开整栋楼里的所有房间。

研究团队的发现揭示了一个令人不安的事实：专家混合模型的安全机制并不是均匀分布在整个系统中，而是高度集中在少数几个"安全专家"中。这种集中式的安全设计虽然在正常情况下能够有效工作，但一旦被恶意攻击者发现并利用，就会成为整个系统的阿喀琉斯之踵。

更值得关注的是，GateBreaker不仅对文本AI有效，对视觉语言模型同样具有破坏力。在五个多模态AI模型的测试中，攻击成功率从20.8%跃升至60.9%。这意味着，即使是那些能够理解图片和文字的复杂AI系统，也无法逃脱这种攻击方式的影响。

研究过程中，团队对多个来自不同厂商的主流模型进行了深入分析，包括OpenAI的GPT-OSS系列、阿里巴巴的通义千问、微软的Phi、Mixtral的专家混合模型、深度求索的DeepSeek-MoE、腾讯的混元以及华为的盘古等。这些模型代表了当前专家混合技术的最高水平，却都在这种攻击面前显得脆弱不堪。

特别值得注意的是，这种攻击方法具有极强的隐蔽性和实用性。攻击者无需重新训练模型或修改模型的基础参数，只需在推理阶段进行轻微的干预即可。这就像是在汽车行驶过程中悄悄调整方向盘，而不是重新制造整辆车。这种特性使得攻击变得非常容易实施，即使是资源有限的攻击者也能够轻松掌握。

研究团队通过精心设计的实验验证了他们的发现。他们使用了StrongREJECT数据集，这是一个包含300多个恶意提示的标准测试集，涵盖了虚假信息传播、仇恨言论、暴力内容等多个危险类别。实验结果显示，经过GateBreaker攻击的模型在面对这些有害请求时，拒绝率大幅下降，而在正常任务上的表现却几乎不受影响。

在深入分析专家混合模型的内部结构时，研究团队发现了一个有趣的现象：不同类型的专家在安全防护中扮演着不同的角色。稀疏专家（只有在特定情况下才被激活的专家）和共享专家（始终参与工作的专家）对安全机制的贡献程度存在显著差异。共享专家虽然数量较少，但由于它们参与处理所有输入，因此在安全防护中发挥着关键作用。这就像是一个组织中的常驻安保人员，虽然人数不多，但承担着最重要的安全责任。

研究还揭示了安全机制在模型不同层次中的分布规律。通过逐层分析，团队发现安全相关的神经元主要集中在模型的中间层，这些层负责高级语义理解和决策制定。更有趣的是，在专家内部的不同子层中，门控投影层（gate-projection layer）比上投影层（up-projection layer）在安全机制中发挥着更重要的作用，前者的移除能导致平均55.9%的攻击成功率，而后者仅为20.6%。

为了验证攻击的有效性，研究团队还进行了跨模型的迁移攻击实验。他们发现，在一个模型上识别出的安全神经元，可以直接用于攻击同一家族的其他模型变体。例如，从GPT-OSS-20B基础模型中提取的安全神经元信息，可以成功攻击其数学推理版本、营销版本和意大利语版本，攻击成功率分别达到73.2%、84.0%和82.4%。这种跨模型的攻击能力表明，模型家族之间存在共同的安全结构，这为大规模攻击提供了可能。

在与现有攻击方法的对比中，GateBreaker展现出了明显的优势。与之前的SAFEx方法相比，GateBreaker的平均攻击成功率达到64.9%，是SAFEx的29.9%的两倍多。这种性能提升主要归功于GateBreaker在神经元级别的精确定位能力，而不是简单粗暴地移除整个专家模块。

研究团队还特别关注了攻击对模型正常功能的影响。通过在五个标准自然语言理解基准测试中的评估，他们发现GateBreaker在破坏安全机制的同时，对模型的一般语言能力影响微乎其微。这种精确性使得攻击更加危险，因为被攻击的模型在表面上看起来仍然正常工作，只是失去了拒绝有害请求的能力。

针对这一发现，研究团队也提出了几种可能的防御策略。首先是实施安全冗余机制，将安全功能分散到多个专家中，而不是集中在少数几个专家上。这就像是在建筑物中设置多个独立的消防系统，即使一个失效，其他系统仍能发挥作用。其次是在训练过程中引入对抗性训练，让模型学会抵御这类攻击。最后是在推理阶段监控关键神经元的激活模式，及时发现异常行为。

这项研究的意义远远超出了学术范畴。随着专家混合模型在商业应用中的普及，从搜索引擎到编程助手，从科学研究到医疗决策，这些AI系统正在深度融入我们的日常生活。如果这些系统的安全机制如此脆弱，那么潜在的风险是巨大的。恶意攻击者可能利用这些漏洞让AI系统生成虚假信息、有害建议或违法内容，对个人和社会造成严重损害。

研究团队强调，他们公开这一发现的目的是推动AI安全技术的发展，而非为恶意攻击提供工具。他们已经按照负责任的披露原则，通知了相关的模型开发商，并将在适当的时候公开完整的技术细节。这种做法体现了科研界对AI安全问题的负责任态度。

值得注意的是，这项研究也揭示了当前AI安全评估体系的不足。传统的安全测试主要关注输入层面的攻击，如提示注入和对抗样本，而忽视了模型内部结构的脆弱性。GateBreaker的成功表明，我们需要更加全面和深入的安全评估方法，不仅要测试模型对外部攻击的抵抗能力，还要评估其内部安全机制的健壮性。

展望未来，这项研究为AI安全领域开辟了新的研究方向。研究者们需要重新思考如何设计更加安全的专家混合架构，如何在保持模型高效性的同时增强其安全性，以及如何建立更加完善的安全评估体系。这些问题的解决将直接影响到下一代AI系统的安全水平和可信度。

说到底，这项研究给我们上了重要的一课：即使是最先进的AI技术，其安全机制也可能存在意想不到的漏洞。正如一句古话所说，"魔高一尺，道高一丈"，在AI技术快速发展的今天，安全研究必须与之同步甚至超前发展。只有通过持续的安全研究和改进，我们才能确保AI技术真正为人类服务，而不是成为潜在的威胁源。这项研究虽然揭示了问题，但也为解决问题指明了方向，这正是科学研究的价值所在。

Q&A

Q1：GateBreaker攻击方法是如何工作的？

A：GateBreaker就像一个了解银行内部运作的内贼，它分三步工作：首先观察AI收到有害问题时哪些专家会被调用来拒绝回应，然后深入这些安全专家内部精确定位负责阻止有害内容的关键神经元，最后在运行时悄悄关闭这些安全神经元，就像拔掉警报系统的电源线一样，让AI失去拒绝有害请求的能力。

Q2：这种攻击对专家混合模型AI的威胁有多大？

A：威胁相当严重。研究显示GateBreaker能将八个最新专家混合模型的攻击成功率从7.4%大幅提升到64.9%，而且只需要修改约3%的神经元。更危险的是，这种攻击具有传染性，在一个模型上发现的漏洞可以直接用来攻击同系列的其他模型，成功率可达67.7%，就像发现了一把万能钥匙。

Q3：普通用户应该如何看待专家混合模型AI的安全问题？

A：普通用户需要意识到当前的专家混合模型AI虽然功能强大，但安全机制存在结构性缺陷。这些AI系统的安全防护高度集中在少数专家中，一旦被攻击就可能失去拒绝有害请求的能力。不过用户也不必过分恐慌，因为这项研究的目的是推动AI安全技术发展，相关厂商正在根据这些发现改进安全机制。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.