来源:市场资讯
![]()
一个直观的解释是训练数据不足,但更本质的问题在于表示空间不匹配。已有研究表明,LLM 已经在统一的语义空间中编码了丰富的跨语言知识,并且在处理多语言文本时会专门「经过」这个统一语义空间(如英语表示空间)。这意味着,LLM 的多语言瓶颈不在缺乏知识,而是难以将已有的知识正确映射到多语言表示空间中。
与此同时,多语言神经机器翻译(NMT)模型在跨语言表示建模方面表现出色。这些 NMT 模型通过 encoder-decoder 架构构建了一个统一的跨语言语义空间,实现上百种语言之间稳定的语义转换。这启发我们:能否将 LLM 的知识处理能力和多语言 NMT 模型的多语言能力组合,实现优势互补?
基于这一思路,中国科学院计算技术研究所 NLP 团队提出了一种新的多语言扩展范式 XBridge:组合 LLM 以英文为中心的通用能力,以及现有多语言 NMT 模型的多语言理解和生成能力,实现二者的能力互补,组合成一个多语言通用模型。换言之,将多语言理解和生成卸载到外部 NMT 模型,LLM 进行以英文为中心的通用知识处理。
![]()
论文:https://arxiv.org/abs/2603.17512
代码:https://github.com/ictnlp/XBridge
模型:https://huggingface.co/collections/ICTNLP/xbridge
该成果已被 ACL 2026 主会接收。
XBridge:模型组合的多语言扩展方案
XBridge 的核心思想是,将多语言能力卸载到 NMT 模型,同时保留 LLM 作为知识处理和推理的核心。
![]()
1. 模型架构
XBridge 采用 encoder-LLM-decoder 三段式架构,模块之间用 MLP 架构的轻量映射层连接:
NMT encoder:将多语言输入映射到共享语义空间。
LLM:以英语为中心的知识处理和推理核心。
NMT decoder:生成目标语言输出。
直观来看,多语言输入首先被 encoder 编码成共享语义表示,再由 LLM 进行知识处理和推理,最后 decoder 映射到目标语言输出,实现完整的多语言「理解 - 处理 - 生成」闭环。
2. 最优运输对齐
由于不同模型之间的表示空间天然不一致,例如 token 粒度上严重错位,单纯利用 MLP 进行跨模型表示映射难以实现语义一致的转换。为解决这一问题,我们引入最优运输(Optimal Transport, OT)对齐目标,自适应地学习 token 粒度的软匹配,从而在不同长度、不同分词方式的异构表示空间之间建立细粒度的语义对齐关系,实现稳定的语义转换和高质量的多语言生成。
3. 三阶段训练策略
为在不同模型之间建立稳定对齐,XBridge 设计三阶段训练策略,LLM 全程无需训练:
跨模型对齐阶段:学习 encoder-LLM-decoder 之间的基础语义映射关系。
编码器适配阶段:让 LLM 学会利用 encoder 表示完成下游任务。
解码器适配阶段:进一步提升 decoder 多语言生成质量。
分阶段的训练设计能够有效避免不同优化目标之间的冲突,使模型能够逐步建立稳定的跨模型映射,并适配下游任务。
实验结果:
不训练 LLM 即可支持高质量未见语言问答
1. 多语言能力成功卸载到 NMT 模型
在 FLORES-101 翻译任务上,XBridge 显著提升了 LLM 在低资源语言或未见语言(如孟加拉语、斯瓦西里语等)上的理解和生成能力,性能接近或超越外部 NMT 模型。这表明 LLM 的多语言能力是可以卸载到外部 NMT 模型的。
![]()
2. 下游任务显著提升
在多语言数学推理(MGSM)和摘要生成(XL-Sum)任务上,XBridge 在低资源语言上获得显著提升,显著缩小高资源、低资源语言的性能差距,同时保持或提升高资源语言性能。值得注意的是,这个过程不需要训练 LLM。
![]()
3. 可泛化、语言无关的跨模型映射
XBridge 在未训练的语言上仍表现出良好的泛化能力,性能甚至接近外部 NMT 模型,这表明 XBridge 学到的是一种语言无关的跨模型映射。此外,OT 任务对语言生成的泛化具有重要作用。
![]()
4. 可控语言生成与无损语言切换
通过控制 decoder 输入语言标签,XBridge 可以灵活指定输出语言,实现任意语言对之间的跨语言生成,同时保持无损的多语言切换。
![]()
以下是一个语言切换示例。
![]()
5. 系统演示
我们借助一阶段的泛化性,直接在 50 种语言的通用指令遵循数据上训练 XBridge。以下是一个 demo,展示了 XBridge 多语言问答能力和语言切换的效果。
总结与展望
通过将多语言能力卸载到外部 NMT 模型,XBridge 在不训练 LLM 的前提下,实现了对低资源和未见语言的高质量支持。除了性能的提升,XBridge 更重要的价值在于为 LLM 的多语言扩展提供了一个新思路:扩展 LLM 的多语言能力,或许不再需要依赖大规模、高质量、多任务的多语言训练数据,而是可以通过组合现有模型,实现低成本扩展。
作者介绍
卜梦煜,中国科学院计算技术研究所博士研究生,导师为冯洋研究员。主要研究方向为多语言大模型。在 ACL、EMNLP 等自然语言处理领域顶级国际会议发表多篇论文。
冯洋,中国科学院院计算技术研究所研究员、博士生导师,担任国际计算语言学学会执委(ACL Secretary)以及 ACL/EMNLP 等多个国际会议高级领域主席,获 ACL 2019 唯一最佳长文奖。主导研发了百聆大模型和 LLaMA-Omni 即时交互语音大模型(曾位列 Huggingface 连续一周模型下载量前十)。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.