网易首页 > 网易号 > 正文 申请入驻

拿了30个冠军的腾讯翻译模型,实际表现又如何?

0
分享至



腾讯在Hugging Face上发布了一个专门用来翻译的模型,叫做Hunyuan-MT-7B。根据它的官方介绍,这个翻译模型在WMT25竞赛中,该模型在参与的31个语言类别中有30个获得了第一名。并且在同等规模模型中实现了行业领先的性能。

而Hunyuan-MT-7B的集成模型Hunyuan-MT-Chimera-7B,是业界首个开源翻译集成模型,将翻译质量提升至新高度。所谓集成模型,是指一种机器学习方法。它的核心思想是,不依赖单个模型进行预测或判断,而是将多个模型的预测结果结合起来,从而获得比任何一个单一模型都更好、更稳定的最终结果。

那么回到翻译这个事上来,Chimera的逻辑就是让MT-7B翻译系统生成多个不同的翻译候选版本,会分析这些候选版本,将它们各自的优点整合起来。最后,生成一个质量超越了任何一个单一候选版本的、更优的最终译文。

但是由于官网目前只有MT-7B这一种版本,因此本文只对该版本进行了测试。

01

这里我使用的都是很常见的英语台词,出自各种经典读物。



出自《罗密欧与朱丽叶》,原文通常被翻译为“姓名算得了什么?我们所称的玫瑰,换个名字还是一样芳香”



出自《双城记》,这个翻译的非常精准。



出自《了不起的盖茨比》,同样也翻译得非常精准。

接下来,提高难度,我开始用一些现代英语台词来测试模型的翻译效果。



这句话是《英雄联盟》戏命师 烬的选定语音,我于杀戮之中盛放,亦如黎明中的花朵。



这句话来自电影《蜘蛛侠》,通常我们翻译成“能力越大,责任越大”。

既然英语差不多没问题,就来试试日语和韩语。



这是《游戏王5D'S》红莲魔龙召唤台词,王者的鼓动,现在于此列成阵势!看着这天地鸣动的力量吧!同调召唤,吾之魂,红莲魔龙!日语中的鼓動(こどう)并非全部都是心跳的意思,也可以指脉动、律动、震动等等。

今ここに列をなす,要拆分出来理解。其中“今”代表此时此刻,“ここに”是在这里,指的是地点,“列をなす”是组成一列,而混元将其简单译作“此刻在此汇聚”并不是很合适。

在韩语方面,Hunyuan-MT-7B也表现得不错。



这是K/DA歌曲《POP STAR》中阿卡丽(田小娟)的第一句歌词,即便是英语和韩语混杂,MT-7B翻译得依然非常准确。



如果带着Emoji一起翻译,那么混元MT可能会出现吞字的情况。比如图中的许秀亏桑提圣经,混元没有翻译出마저201。마저 是 마법 저항력的缩写,마법是魔法,저항력是抵抗力,因此 마저201 的意思是魔法抗性是201。

02

从官方发布的技术报告来看,腾讯混元MT设计的目标是提供高质量的多语言互译能力,现阶段支持包括中文、英文、日文以及哈萨克语、维吾尔语、蒙古语、藏语等5种中国少数民族语言在内的33种语言之间的双向翻译。

混元MT的构建采用了一套完整的、系统化的训练框架,这个框架将模型的训练过程分解为几个前后衔接的阶段,旨在逐步提升模型的翻译能力。整个流程从未经特定任务训练的基础模型开始,通过一系列专门针对机器翻译的优化步骤,最终产出具备专业翻译能力的模型。

训练流程的第一个环节是通用预训练。这个阶段的目标是构建一个具备广泛知识和多语言基础理解能力的基座模型,即Hunyuan-7B-Base。在训练过程中,模型学习了包含中文、英文以及其他多种语言在内的数据,其中非中英文的多语言数据量达到了1.3万亿个tokens。



为了确保训练数据的质量和多样性,研发团队建立了一套数据质量评估体系。该体系从知识价值、真实性和写作风格三个维度对文本进行打分,并根据数据来源的特性,对不同维度的权重进行调整。比如翻译专业知识的网站,就会优先选择知识价值得分高的数据。

同时,为了保证内容覆盖面的均衡,还建立了学科、行业和内容主题三个层面的标签系统,用以调整不同领域数据的比例,并过滤掉低质量或不相关的内容。通过这一阶段的训练,Hunyuan-7B-Base模型在通用知识、逻辑推理、数学、编程和多语言能力上奠定了基础。

接下来的第二个环节是面向机器翻译的预训练。这个阶段在通用基座模型的基础上,加入了大量为翻译任务筛选的单语和双语语料,目的是使模型的能力向翻译领域倾斜和深化。单语数据主要来源于mC4和OSCAR等公开数据集,并经过了严格的清洗流程,包括语言识别、文档级别去重以及使用语言模型过滤掉高困惑度的低质量文本。

双语平行语料则来自OPUS和ParaCrawl等公开数据集,团队使用CometKiwi等无需参考译文的质量评估工具进行筛选,以保证句对的质量。为了确定不同来源数据的最佳混合比例,团队采用了一种名为RegMix的策略,通过在小规模模型上进行实验,找到能够使训练损失最小化的数据配比,并将其应用于正式的训练中。

此外,为了防止模型在学习新知识时遗忘通用预训练阶段学到的能力,训练数据中还包含了20%的原始预训练语料作为重放数据。

完成两个预训练阶段后,模型进入第三个环节,即后训练阶段。这一阶段通过监督微调(SFT)和强化学习(RL)等技术,将模型的翻译能力进行精细化调优和对齐。监督微调分为两个步骤。第一步使用约300万句对的平行语料,旨在增强模型的基础翻译能力和遵循指令的能力。

这些数据来自多个来源,包括Flores-200开发集、往年的WMT评测测试集、人工标注的中文与少数民族语言互译数据集,以及使用DeepSeek-V3-0324模型生成的合成数据。数据同样经过CometKiwi和GEMBA等质量评估指标的筛选。第二步则使用一个规模更小但质量更高的数据集(约26.8万句对)对模型进行进一步的精炼。这些数据经过了更严格的筛选过程,并对多轮评估中得分一致性较差的样本进行了人工校验。

监督微调之后是强化学习阶段。机器翻译任务的输出具有语义多样性,难以用简单的规则进行评估,这为强化学习的应用带来了挑战。为解决此问题,混元MT采用了GRPO算法,并设计了一个复合奖励函数。



该奖励函数包含三个部分:第一部分是质量感知奖励,使用与人类译员判断高度相关的XCOMET-XXL评分和基于DeepSeek-V3-0324模型的GEMBA框架评分,共同评估翻译的整体质量;第二部分是术语感知奖励,它利用词对齐工具提取源文和译文中的术语等关键信息,通过计算二者的重合率来奖励模型,促使模型更关注专业术语的准确翻译;第三部分是重复惩罚,用于检测和惩罚模型在训练后期可能出现的重复输出,以维持生成内容的多样性和训练的稳定性。

经过这一系列后训练流程,最终产出的模型即为Hunyuan-MT-7B。

03

在Hunyuan-MT-7B的基础上,系统还构建了Hunyuan-MT-Chimera-7B模型。该模型采用了一种弱到强的强化学习方法。正如前文所述,其核心思想是在推理时,首先生成多个不同的翻译候选结果,然后利用一个基于Hunyuan-MT-7B训练的融合模型,将这些候选结果的优点整合起来,生成一个质量超越任何单一候选结果的最终译文。

这个融合模型的训练同样使用强化学习,其奖励函数由XCOMET-XXL评分、DeepSeek-V3-0324评分和重复惩罚项构成。这种方法有效地利用了集成学习的优势,在不增加基础模型参数量的情况下,进一步提升了翻译的上限。

在性能表现上,混元MT系统在多个公开评测基准上进行了测试。结果显示,无论是在WMT24pp还是FLORES-200等通用翻译测试集上,7B参数规模的Hunyuan-MT-7B和Hunyuan-MT-Chimera-7B,其翻译质量均超过了现有的同等规模开源模型,也优于一些知名的商业翻译系统和参数量远大于它的通用大模型。

特别是在中文与少数民族语言互译这个方向上,混元MT的表现显著优于所有其他对比模型,这体现了其在低资源语言翻译方向上的针对性优化取得了成效。人工评测的结果也证实了这一点,在包含社交、邮件、购物、导航等多个生活场景的中英互译测试中,Hunyuan-MT-7B的翻译质量与Gemini-2.5-Pro、DeepSeek-V3-0324等顶尖的大型模型处于同一水平,表明通过面向翻译任务的系统性优化,中等规模的模型同样可以达到很高的翻译水准。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
民生调查|跑了上海20多家店,“卖不完”的面包去哪了?

民生调查|跑了上海20多家店,“卖不完”的面包去哪了?

上观新闻
2025-09-18 11:28:07
为什么明星吸毒没有满身针眼,骨瘦如柴,人不人鬼不鬼那样恐怖?

为什么明星吸毒没有满身针眼,骨瘦如柴,人不人鬼不鬼那样恐怖?

听李医生说
2025-09-16 09:09:09
香港突发黄金大劫案!10多名男子抢走65公斤黄金,价值超半个亿,西九龙重案组已跟进

香港突发黄金大劫案!10多名男子抢走65公斤黄金,价值超半个亿,西九龙重案组已跟进

极目新闻
2025-09-18 13:53:13
胖东来公布iPhone17购买规则:明天开售,不溢价先到先得 ,需现场开箱验机

胖东来公布iPhone17购买规则:明天开售,不溢价先到先得 ,需现场开箱验机

极目新闻
2025-09-18 08:45:08
全是预制菜的萨莉亚,为什么没人骂?网友:不敢骂,骂倒闭了、

全是预制菜的萨莉亚,为什么没人骂?网友:不敢骂,骂倒闭了、

狐狸先森讲升学规划
2025-09-17 21:25:02
最近,杭州业主掀起了一场暴动

最近,杭州业主掀起了一场暴动

大碗楼市
2025-09-17 08:06:43
重理工黑人留学生住女寝楼后续:校最高层介入,爆料女生公开道歉

重理工黑人留学生住女寝楼后续:校最高层介入,爆料女生公开道歉

奇思妙想草叶君
2025-09-16 21:36:54
谁能认出这是全红婵?长相+身材都变了,网友:不可能回到过去了

谁能认出这是全红婵?长相+身材都变了,网友:不可能回到过去了

念洲
2025-09-17 06:56:45
宋伊人风波后首发声,早年上调解节目被扒,父母也遭打假!

宋伊人风波后首发声,早年上调解节目被扒,父母也遭打假!

古希腊掌管月桂的神
2025-09-18 14:08:12
一家五口登机前30分钟狂吃11斤榴莲,当事人:这辈子都不想再听到榴莲两个字了

一家五口登机前30分钟狂吃11斤榴莲,当事人:这辈子都不想再听到榴莲两个字了

极目新闻
2025-09-17 21:07:50
有太多人不允许西贝倒下!

有太多人不允许西贝倒下!

茉莉聊聊天
2025-09-18 11:53:44
涉嫌严重违纪违法!陈军,任上被查

涉嫌严重违纪违法!陈军,任上被查

政知新媒体
2025-09-18 17:20:02
七个中国老板在南非奴役员工每天工作11小时,被判20年

七个中国老板在南非奴役员工每天工作11小时,被判20年

历史总在押韵
2025-09-17 22:46:36
山口百惠现状:背弯的很明显,房贷压力没有了,和丈夫依旧恩爱

山口百惠现状:背弯的很明显,房贷压力没有了,和丈夫依旧恩爱

白面书誏
2025-09-18 11:13:43
出生数据对不上了,骤降2成...

出生数据对不上了,骤降2成...

思哲与创富
2025-09-17 11:37:15
唏嘘!全红婵被体型反噬,博主:大概率半退役,陈芋汐未来天花板太高

唏嘘!全红婵被体型反噬,博主:大概率半退役,陈芋汐未来天花板太高

小椰的奶奶
2025-09-18 08:09:46
喝酒四巨头:不到两年全没,有的去世当天喝4瓶白酒,最小的才26

喝酒四巨头:不到两年全没,有的去世当天喝4瓶白酒,最小的才26

法老不说教
2025-09-18 14:46:46
冯唐再这么下去,就成华与华了

冯唐再这么下去,就成华与华了

关尔东
2025-09-18 17:00:08
吓死!事发昆明一小区,夫妻二人旅游回家,一开门就看到客厅爬满蛇

吓死!事发昆明一小区,夫妻二人旅游回家,一开门就看到客厅爬满蛇

生活魔术专家
2025-09-18 10:20:37
重新认识安克创新:追求极致的成长之路

重新认识安克创新:追求极致的成长之路

晚点LatePost
2025-09-16 22:44:33
2025-09-18 19:23:00
字母榜 incentive-icons
字母榜
让未来不止于大。
2037文章数 8018关注度
往期回顾 全部

科技要闻

DeepSeek称R1训练费200万,不依赖蒸馏对手

头条要闻

沪漂小伙带残障父母庆生 陌生人帮买单:我女儿听哭了

头条要闻

沪漂小伙带残障父母庆生 陌生人帮买单:我女儿听哭了

体育要闻

身高170的他,让196的博尔特坐不住了

娱乐要闻

最美央视才女,甩掉孙红雷嫁给张嘉益

财经要闻

起底多校“发臭午餐”供应商绿捷

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

本地
时尚
数码
教育
公开课

本地新闻

云游中国|谁懂!在天下第一关拍到史诗感大片

上年纪的女人,别总穿运动鞋和恨天高,这样穿鞋子得体又优雅

数码要闻

Nothing官方预热 CMF Headphone Pro头戴式耳机,本月末发布

教育要闻

长期过度夸奖孩子有什么危害?武大事件中的杨某某就是典型案例

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版