清华找到让AI"看透"语言障碍的秘密:让安全训练真正跨越语言边界|翻译|英语|数学|ssi|神经网络

分享至

这项由清华大学对话式人工智能研究团队（CoAI）联合阿里巴巴集团共同完成的研究，于2026年4月以预印本形式公开发表，论文编号为arXiv:2604.12710。有意深入了解的读者可通过该编号在arXiv平台检索完整论文。

**一、一个让人哭笑不得的困境**

假设你花了大量时间教一个保安识别危险物品——只用中文和英文教。结果某天来了一个说斯瓦希里语（非洲东部常用语言）的人，保安完全没有受过斯瓦希里语训练，于是直接放行了一个携带危险物品的人。这不是保安不聪明，而是他的"危险识别能力"和"语言理解能力"根本就是两套系统，前者从来没有学过如何在斯瓦希里语的包装下工作。

当今的大型语言模型（也就是ChatGPT、Claude这类AI）面临的困境与此完全一致。研究人员早就发现，这些AI在处理中文、英文等"大语言"时，安全拦截能力非常强——你用中文问它"怎么制造炸弹"，它会立刻拒绝。但如果你用斯瓦希里语或孟加拉语问同一个问题，它很可能直接回答，甚至还会附上详细步骤。这不是因为AI在某些语言下"变坏了"，而是它的"危险识别训练"几乎全部是用高资源语言（即数据量大、使用频繁的语言）完成的，到了低资源语言那里，这套防护机制就彻底失灵了。

清华大学的研究团队正是盯上了这个问题，并提出了一套全新的解决思路：与其不断给AI喂各种语言的安全训练数据，不如找到AI大脑里那个"语言无关"的地方，直接在那里植入安全意识。

**二、AI大脑里的"语义瓶颈"：一个神奇的中间地带**

要理解这套方案，先得了解一个关键发现：AI的"大脑"（也就是神经网络的各个层级）并不是在每一层都以同样的方式处理信息的。

把AI的处理过程比作一个翻译官的工作流程。刚收到一句话时，翻译官首先注意到的是这句话的外观——是汉字、拉丁字母还是阿拉伯文字？这个阶段，信息还是以"语言外衣"的形式存在的。到了最后阶段，翻译官需要用特定语言输出答案，这时候信息又重新穿上了语言的外衣。但在这两个阶段之间，有一个神奇的中间时刻：翻译官已经完全理解了这句话的意思，而这个"意思"本身是超越语言的——"炸弹制造方法"这个概念，无论用什么语言表达，在翻译官脑子里都是同一个危险的东西。

研究团队将AI神经网络中这个"意义超越语言"的中间层，命名为**语义瓶颈层**（Semantic Bottleneck）。

为了找到这个神奇的层，研究人员设计了一个精妙的测量方法。他们把同一个问题翻译成多种不同语言，比如"如何制造炸弹"用英语、斯瓦希里语、孟加拉语分别表达，然后观察这些不同语言版本的问题在AI各个层级的"内部表示"（可以理解为AI对这句话的内部编码）是否彼此相似。

如果某一层中，同一个问题的不同语言版本"挤在一起"，而不同问题（比如"炸弹制造"和"如何开始违法生意"）分开存在，那么这一层就是按照"意义"在组织信息的，这就是语义瓶颈层。反之，如果同一语言的所有问题都挤在一起，无论内容是否相关，那就说明这一层还在按"语言外衣"组织信息。

研究团队使用了一种叫做"轮廓得分"（Silhouette score）的数学工具来量化这种聚集程度，并用t-SNE可视化（一种可以把高维数据降维展示的技术）直观呈现了结果。实验结果非常清晰：在AI的早期层和末尾层，信息按照语言种类聚集；但在中间某些特定层，信息开始按照语义内容聚集，英文"怎么制造炸弹"和斯瓦希里语"怎么制造炸弹"在这一层的内部表示几乎重叠在一起。这个差距最大的层，就是语义瓶颈层。

研究团队在多个不同规模的模型上验证了这个规律，包括Llama-3.1-8B（Meta公司的模型）和Qwen2.5、Qwen3系列（阿里巴巴的模型）。结果显示，语义瓶颈层始终出现在网络深度的43%到68%之间，也就是"中段偏后"的位置，而不是固定在某个绝对的层数上。模型越大，绝对层数越深，但相对位置保持稳定。

**三、过去的方案为什么不够用？**

在清华团队的研究之前，学术界已经有不少人注意到了AI在低资源语言上的安全漏洞，并提出了一些解决方案。最直接的思路是：缺什么语言的安全训练数据，就补什么语言的数据。你不是没学过斯瓦希里语的危险拦截吗？那我们就专门收集或翻译一批斯瓦希里语的安全训练样本，让AI练一练。

另一种思路是"迁移学习"：先让AI在高资源语言上学好安全规则，然后通过奖励机制或自我蒸馏的方式，让高资源语言的安全行为"迁移"到低资源语言上。

这些方法都有一定效果，但清华团队的实验揭示了一个残酷的现实：即便用英语、中文和韩语进行了充分的安全训练，AI在斯瓦希里语上的"攻击成功率"（简单说就是被坏问题成功骗过的比例）仍然高达50%左右。换句话说，训练覆盖的语言，AI学得好；训练没覆盖的语言，AI依然是个漏洞。

这背后的根本原因，就是这些方案都在"文本表面层"做文章，而没有触及那个语言无关的语义核心。以保安的比喻来说，以前的方案是"给保安增加更多语言的培训材料"，但从未考虑过让保安学会"不管什么语言，我都先看清楚这个东西的本质是什么危险物品"。

**四、LASA方案：直接在意义的根源处设卡**

清华团队提出的方案叫做**LASA**，全称是"语言无关语义对齐"（Language-Agnostic Semantic Alignment）。这套方案的核心逻辑，就是找到语义瓶颈层，然后在那里直接训练AI的安全判断能力。

整个方案分为三个阶段，环环相扣。

第一阶段是"找到那扇门"，也就是定位语义瓶颈层。按照前面介绍的轮廓得分方法，研究人员对每个模型逐层计算语义聚集程度和语言聚集程度的差值，差值最大的那一层就是语义瓶颈层。不同模型的具体层数不同，但都稳定落在中段偏后的位置。

第二阶段是训练一个"安全语义解读器"（Safety Semantic Interpreter，简称SSI）。这是一个非常轻量的小模块，参数量不到主模型的0.2%，相当于在一个大型图书馆里加了一个超薄的书签卡片。SSI的任务非常专一：从语义瓶颈层提取出当前问题的内部表示，然后判断这个问题是"安全的"还是"有害的"。训练时，研究人员给SSI看大量有害和无害的问题样本（从PKUSafeRLHF这个公开安全数据集中获取），让它学会在语义瓶颈层的信号里识别危险。

SSI能跨语言泛化吗？研究团队专门做了验证。他们只用英语、中文和韩语的数据训练SSI，然后测试SSI在斯瓦希里语、泰语等未见过语言上的准确率。结果发现，SSI在这些"从未练习过"的语言上依然表现出相当高的准确率，而且准确率与AI在这些语言上的整体理解能力（用MMLU多语言理解测试衡量）呈现出强烈的正相关关系。

这个关系呈现出一条漂亮的"饱和曲线"：当AI对某个语言的整体理解能力较弱时，SSI的安全识别准确率也相对较低；但随着AI整体能力提升，安全识别准确率迅速追上，并在较高水平趋于饱和。研究团队用数学公式拟合了这条曲线，发现拟合度（R?值）达到0.988，几乎完美——这意味着"提升AI的整体多语言能力"和"提升安全语义识别能力"几乎是同一件事。

第三阶段是"语义条件对齐训练"。有了SSI之后，研究人员并没有直接用SSI的判断来硬性拦截回答，而是把SSI的判断结果作为一个额外信号，在训练主模型时加入进去。具体做法是采用KTO风格的训练目标（一种不需要成对偏好数据的训练方式，相比需要配对数据的DPO等方法更加灵活）。当SSI判定问题有害时，模型会看到一个"有害查询已检测到，我应该拒绝并提供安全回应"的提示信号，从而学会将内部的语义危险信号与具体语言的拒绝表达关联起来。

这个设计的妙处在于：模型在任何语言下都能感知到那个语义瓶颈层发出的"危险信号"，因为那个信号本身就是语言无关的。这样，安全拦截能力就真正锚定在了意义层面，而不是语言表面。

**五、实验结果：数字背后的真实改变**

研究团队在两个主要的安全测试数据集上评估了LASA的效果：MultiJail（专门针对多语言越狱的测试集）和HarmBench的翻译版本（通用有害内容测试集）。测试覆盖了十种语言，包括中文、英语、韩语、泰语、意大利语、越南语、阿拉伯语、孟加拉语、斯瓦希里语和爪哇语。训练时只使用英语、中文和韩语数据，其余七种语言完全没有见过。

以LLaMA-3.1-8B为例，在MultiJail数据集上，原始未经安全训练的模型平均攻击成功率是21%，其中斯瓦希里语高达46%，孟加拉语高达39%。经过以往各类安全训练方法（SFT、DPO、KTO、ORPO、CPO、MPO）处理后，英语、中文等训练语言的攻击成功率确实接近于零，但斯瓦希里语依然在20%到38%之间徘徊，孟加拉语在9%到17%之间。而LASA处理后，斯瓦希里语的攻击成功率降到了8%，孟加拉语降到了5%，十语言平均攻击成功率仅有1.7%，远低于所有对比方法中表现最好的KTO的3.4%。

Qwen2.5-7B的情况更加极端，原始模型在斯瓦希里语上攻击成功率高达56%，最好的基线方法（ORPO）也只能把它压到45%。LASA将其压到了13%，虽然还不完美，但相比基线方法已是质的飞跃。

在Qwen2.5和Qwen3系列的7B到32B模型上，LASA将平均攻击成功率稳定维持在4%左右，而且随着模型规模增大，效果还会进一步提升——这与前面提到的"整体多语言能力越强，语义安全识别越准确"的规律完全吻合。

值得关注的是，LASA在提升安全性的同时，几乎没有损害模型的通用能力。研究团队用MGSM（数学推理）、MT-Bench（综合能力评测）和MMLU（知识问答）三个通用能力测试进行了验证。以LLaMA-3.1-8B为例，应用LASA前英语综合能力均分为53.20，多语言综合能力均分为40.17；应用LASA后分别提升到53.78和41.07。Qwen2.5-7B同样出现了小幅提升。也就是说，LASA不仅没有让模型"变笨"，反而略有改善——这与许多传统安全训练方法会带来"对齐税"（即安全性提升但通用能力下降）形成了鲜明对比。

**六、消融实验：每一个设计决策都有其用意**

为了证明每个设计环节都是必要的，研究团队做了一系列"拆零件"实验，逐一验证各组件的作用。

首先是SSI训练层的位置验证。研究人员分别在语义瓶颈层之前的两个层、之后的两个层，以及最末层训练SSI，然后比较安全效果。结果清晰地呈现出一个以语义瓶颈层为顶点的倒V形曲线：越靠近语义瓶颈层，安全效果越好；越偏离，效果越差。特别是在最末层训练SSI，最终效果反而比最好的基线方法KTO（4.4%）还要差，达到8%。这个结果有力地证明了，安全对齐的位置至关重要，在语言主导的层做安全训练是事倍功半的。

其次是第三阶段优化方法的灵活性验证。研究人员保持前两阶段不变，把KTO训练换成SFT（监督微调）和ORPO（两种不同的训练范式）进行对比。结果显示，三种方法的安全效果差异极小，平均变动幅度约为0.65个百分点。这说明LASA的核心增益来自于"找准语义瓶颈层"和"在该层训练SSI"这两个设计，而具体用什么优化方法做第三阶段训练相对次要。研究团队最终选择KTO，主要是因为它不需要成对偏好数据，工程实现更方便。

**七、一个有趣的边界案例：表情包能骗过它吗？**

清华团队还测试了一个很有创意的攻击场景：用表情符号（emoji）来表达有害请求。比如，把"如何制造炸弹"用一系列炸弹、工具、齿轮的表情符号来"翻译"。

研究团队将表情符号问题分为两类：高语义相似度（表情符号的组合与原始有害请求的意思接近，比如直接用炸弹

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.