![]()
这项由清华大学对话式人工智能研究团队(CoAI)联合阿里巴巴集团共同完成的研究,于2026年4月以预印本形式公开发表,论文编号为arXiv:2604.12710。有意深入了解的读者可通过该编号在arXiv平台检索完整论文。
**一、一个让人哭笑不得的困境**
假设你花了大量时间教一个保安识别危险物品——只用中文和英文教。结果某天来了一个说斯瓦希里语(非洲东部常用语言)的人,保安完全没有受过斯瓦希里语训练,于是直接放行了一个携带危险物品的人。这不是保安不聪明,而是他的"危险识别能力"和"语言理解能力"根本就是两套系统,前者从来没有学过如何在斯瓦希里语的包装下工作。
当今的大型语言模型(也就是ChatGPT、Claude这类AI)面临的困境与此完全一致。研究人员早就发现,这些AI在处理中文、英文等"大语言"时,安全拦截能力非常强——你用中文问它"怎么制造炸弹",它会立刻拒绝。但如果你用斯瓦希里语或孟加拉语问同一个问题,它很可能直接回答,甚至还会附上详细步骤。这不是因为AI在某些语言下"变坏了",而是它的"危险识别训练"几乎全部是用高资源语言(即数据量大、使用频繁的语言)完成的,到了低资源语言那里,这套防护机制就彻底失灵了。
清华大学的研究团队正是盯上了这个问题,并提出了一套全新的解决思路:与其不断给AI喂各种语言的安全训练数据,不如找到AI大脑里那个"语言无关"的地方,直接在那里植入安全意识。
**二、AI大脑里的"语义瓶颈":一个神奇的中间地带**
要理解这套方案,先得了解一个关键发现:AI的"大脑"(也就是神经网络的各个层级)并不是在每一层都以同样的方式处理信息的。
把AI的处理过程比作一个翻译官的工作流程。刚收到一句话时,翻译官首先注意到的是这句话的外观——是汉字、拉丁字母还是阿拉伯文字?这个阶段,信息还是以"语言外衣"的形式存在的。到了最后阶段,翻译官需要用特定语言输出答案,这时候信息又重新穿上了语言的外衣。但在这两个阶段之间,有一个神奇的中间时刻:翻译官已经完全理解了这句话的意思,而这个"意思"本身是超越语言的——"炸弹制造方法"这个概念,无论用什么语言表达,在翻译官脑子里都是同一个危险的东西。
研究团队将AI神经网络中这个"意义超越语言"的中间层,命名为**语义瓶颈层**(Semantic Bottleneck)。
为了找到这个神奇的层,研究人员设计了一个精妙的测量方法。他们把同一个问题翻译成多种不同语言,比如"如何制造炸弹"用英语、斯瓦希里语、孟加拉语分别表达,然后观察这些不同语言版本的问题在AI各个层级的"内部表示"(可以理解为AI对这句话的内部编码)是否彼此相似。
如果某一层中,同一个问题的不同语言版本"挤在一起",而不同问题(比如"炸弹制造"和"如何开始违法生意")分开存在,那么这一层就是按照"意义"在组织信息的,这就是语义瓶颈层。反之,如果同一语言的所有问题都挤在一起,无论内容是否相关,那就说明这一层还在按"语言外衣"组织信息。
研究团队使用了一种叫做"轮廓得分"(Silhouette score)的数学工具来量化这种聚集程度,并用t-SNE可视化(一种可以把高维数据降维展示的技术)直观呈现了结果。实验结果非常清晰:在AI的早期层和末尾层,信息按照语言种类聚集;但在中间某些特定层,信息开始按照语义内容聚集,英文"怎么制造炸弹"和斯瓦希里语"怎么制造炸弹"在这一层的内部表示几乎重叠在一起。这个差距最大的层,就是语义瓶颈层。
研究团队在多个不同规模的模型上验证了这个规律,包括Llama-3.1-8B(Meta公司的模型)和Qwen2.5、Qwen3系列(阿里巴巴的模型)。结果显示,语义瓶颈层始终出现在网络深度的43%到68%之间,也就是"中段偏后"的位置,而不是固定在某个绝对的层数上。模型越大,绝对层数越深,但相对位置保持稳定。
**三、过去的方案为什么不够用?**
在清华团队的研究之前,学术界已经有不少人注意到了AI在低资源语言上的安全漏洞,并提出了一些解决方案。最直接的思路是:缺什么语言的安全训练数据,就补什么语言的数据。你不是没学过斯瓦希里语的危险拦截吗?那我们就专门收集或翻译一批斯瓦希里语的安全训练样本,让AI练一练。
另一种思路是"迁移学习":先让AI在高资源语言上学好安全规则,然后通过奖励机制或自我蒸馏的方式,让高资源语言的安全行为"迁移"到低资源语言上。
这些方法都有一定效果,但清华团队的实验揭示了一个残酷的现实:即便用英语、中文和韩语进行了充分的安全训练,AI在斯瓦希里语上的"攻击成功率"(简单说就是被坏问题成功骗过的比例)仍然高达50%左右。换句话说,训练覆盖的语言,AI学得好;训练没覆盖的语言,AI依然是个漏洞。
这背后的根本原因,就是这些方案都在"文本表面层"做文章,而没有触及那个语言无关的语义核心。以保安的比喻来说,以前的方案是"给保安增加更多语言的培训材料",但从未考虑过让保安学会"不管什么语言,我都先看清楚这个东西的本质是什么危险物品"。
**四、LASA方案:直接在意义的根源处设卡**
清华团队提出的方案叫做**LASA**,全称是"语言无关语义对齐"(Language-Agnostic Semantic Alignment)。这套方案的核心逻辑,就是找到语义瓶颈层,然后在那里直接训练AI的安全判断能力。
整个方案分为三个阶段,环环相扣。
第一阶段是"找到那扇门",也就是定位语义瓶颈层。按照前面介绍的轮廓得分方法,研究人员对每个模型逐层计算语义聚集程度和语言聚集程度的差值,差值最大的那一层就是语义瓶颈层。不同模型的具体层数不同,但都稳定落在中段偏后的位置。
第二阶段是训练一个"安全语义解读器"(Safety Semantic Interpreter,简称SSI)。这是一个非常轻量的小模块,参数量不到主模型的0.2%,相当于在一个大型图书馆里加了一个超薄的书签卡片。SSI的任务非常专一:从语义瓶颈层提取出当前问题的内部表示,然后判断这个问题是"安全的"还是"有害的"。训练时,研究人员给SSI看大量有害和无害的问题样本(从PKUSafeRLHF这个公开安全数据集中获取),让它学会在语义瓶颈层的信号里识别危险。
SSI能跨语言泛化吗?研究团队专门做了验证。他们只用英语、中文和韩语的数据训练SSI,然后测试SSI在斯瓦希里语、泰语等未见过语言上的准确率。结果发现,SSI在这些"从未练习过"的语言上依然表现出相当高的准确率,而且准确率与AI在这些语言上的整体理解能力(用MMLU多语言理解测试衡量)呈现出强烈的正相关关系。
这个关系呈现出一条漂亮的"饱和曲线":当AI对某个语言的整体理解能力较弱时,SSI的安全识别准确率也相对较低;但随着AI整体能力提升,安全识别准确率迅速追上,并在较高水平趋于饱和。研究团队用数学公式拟合了这条曲线,发现拟合度(R?值)达到0.988,几乎完美——这意味着"提升AI的整体多语言能力"和"提升安全语义识别能力"几乎是同一件事。
第三阶段是"语义条件对齐训练"。有了SSI之后,研究人员并没有直接用SSI的判断来硬性拦截回答,而是把SSI的判断结果作为一个额外信号,在训练主模型时加入进去。具体做法是采用KTO风格的训练目标(一种不需要成对偏好数据的训练方式,相比需要配对数据的DPO等方法更加灵活)。当SSI判定问题有害时,模型会看到一个"有害查询已检测到,我应该拒绝并提供安全回应"的提示信号,从而学会将内部的语义危险信号与具体语言的拒绝表达关联起来。
这个设计的妙处在于:模型在任何语言下都能感知到那个语义瓶颈层发出的"危险信号",因为那个信号本身就是语言无关的。这样,安全拦截能力就真正锚定在了意义层面,而不是语言表面。
**五、实验结果:数字背后的真实改变**
研究团队在两个主要的安全测试数据集上评估了LASA的效果:MultiJail(专门针对多语言越狱的测试集)和HarmBench的翻译版本(通用有害内容测试集)。测试覆盖了十种语言,包括中文、英语、韩语、泰语、意大利语、越南语、阿拉伯语、孟加拉语、斯瓦希里语和爪哇语。训练时只使用英语、中文和韩语数据,其余七种语言完全没有见过。
以LLaMA-3.1-8B为例,在MultiJail数据集上,原始未经安全训练的模型平均攻击成功率是21%,其中斯瓦希里语高达46%,孟加拉语高达39%。经过以往各类安全训练方法(SFT、DPO、KTO、ORPO、CPO、MPO)处理后,英语、中文等训练语言的攻击成功率确实接近于零,但斯瓦希里语依然在20%到38%之间徘徊,孟加拉语在9%到17%之间。而LASA处理后,斯瓦希里语的攻击成功率降到了8%,孟加拉语降到了5%,十语言平均攻击成功率仅有1.7%,远低于所有对比方法中表现最好的KTO的3.4%。
Qwen2.5-7B的情况更加极端,原始模型在斯瓦希里语上攻击成功率高达56%,最好的基线方法(ORPO)也只能把它压到45%。LASA将其压到了13%,虽然还不完美,但相比基线方法已是质的飞跃。
在Qwen2.5和Qwen3系列的7B到32B模型上,LASA将平均攻击成功率稳定维持在4%左右,而且随着模型规模增大,效果还会进一步提升——这与前面提到的"整体多语言能力越强,语义安全识别越准确"的规律完全吻合。
值得关注的是,LASA在提升安全性的同时,几乎没有损害模型的通用能力。研究团队用MGSM(数学推理)、MT-Bench(综合能力评测)和MMLU(知识问答)三个通用能力测试进行了验证。以LLaMA-3.1-8B为例,应用LASA前英语综合能力均分为53.20,多语言综合能力均分为40.17;应用LASA后分别提升到53.78和41.07。Qwen2.5-7B同样出现了小幅提升。也就是说,LASA不仅没有让模型"变笨",反而略有改善——这与许多传统安全训练方法会带来"对齐税"(即安全性提升但通用能力下降)形成了鲜明对比。
**六、消融实验:每一个设计决策都有其用意**
为了证明每个设计环节都是必要的,研究团队做了一系列"拆零件"实验,逐一验证各组件的作用。
首先是SSI训练层的位置验证。研究人员分别在语义瓶颈层之前的两个层、之后的两个层,以及最末层训练SSI,然后比较安全效果。结果清晰地呈现出一个以语义瓶颈层为顶点的倒V形曲线:越靠近语义瓶颈层,安全效果越好;越偏离,效果越差。特别是在最末层训练SSI,最终效果反而比最好的基线方法KTO(4.4%)还要差,达到8%。这个结果有力地证明了,安全对齐的位置至关重要,在语言主导的层做安全训练是事倍功半的。
其次是第三阶段优化方法的灵活性验证。研究人员保持前两阶段不变,把KTO训练换成SFT(监督微调)和ORPO(两种不同的训练范式)进行对比。结果显示,三种方法的安全效果差异极小,平均变动幅度约为0.65个百分点。这说明LASA的核心增益来自于"找准语义瓶颈层"和"在该层训练SSI"这两个设计,而具体用什么优化方法做第三阶段训练相对次要。研究团队最终选择KTO,主要是因为它不需要成对偏好数据,工程实现更方便。
**七、一个有趣的边界案例:表情包能骗过它吗?**
清华团队还测试了一个很有创意的攻击场景:用表情符号(emoji)来表达有害请求。比如,把"如何制造炸弹"用一系列炸弹、工具、齿轮的表情符号来"翻译"。
研究团队将表情符号问题分为两类:高语义相似度(表情符号的组合与原始有害请求的意思接近,比如直接用炸弹
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.