网易首页 > 网易号 > 正文 申请入驻

首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,Qwen擅长文化丨开源

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

AI替咱打工搞翻译,到底谁家最好用?

终于,有人来统一翻译江湖的标准了:首个应用型AI翻译测评榜单TransBench在OpenCompass上线

它由阿里国际AI Business团队联合上海人工智能实验室、北京语言大学共同发布。

与传统的翻译测评体系相比,TransBench增加了幻觉率、文化禁忌词、敬语规范等指标,专门针对大模型翻译最容易出错的关键问题进行实战考核。

比如:

  • 翻得挺溜但张口就编,这就得算“幻觉”;
  • 翻得准确却冒犯了当地文化,那也是“翻译事故”;
  • 甚至你在客服场景里少说一句“please”,都可能让用户不爽。

这是首次针对行业的细分领域构建评测数据和评测方法。这些指标均来自真实场景的使用反馈,由此来测评大模型是否符合大规模应用的标准。

目前,TransBench评测方法与数据集已全面开源,也已发布了首期测评结果。

欢迎各个AI翻译机构去打榜,一较高下~

GPT-4o稳坐“翻译AI天花板”

官网表示,TransBench数据集中涵盖中、英、法、日、韩、西班牙等多种语言。

此外,还在不断持续更新海量小语种。

TransBench评测体系中的数据集,根据“通用标准”“电商文化”“文化特性”三个大类,整理了不同的数据集。

目前,TransBench多语言翻译评测榜单首期已经出炉。

评测榜单从“综合得分”“通用标准”“电商文化”“文化特性”四个维度来给每个模型的翻译能力打分。

其中,综合得分是模型在评测数据集的三大维度的综合平均得分。为了保证数值可被平均,榜单对不同得分进行了数值缩放。

我们查看并整理了“英语翻译为其它语言”和“中文翻译为其它语言”两个榜单的模型能力。

英语翻译为其它语言

这个条件下,综合得分通用标准的得分前三,都分别是:

  • 第一:GPT-4o
  • 第二:DeepL Translate
  • 第三:GPT-4-Turbo

其中比较特别的是DeepL Translate,上个月底刚刚发布。

和前三名的另外两位不同,这是一个专门的机器翻译(MT,Machine Translation)模型,而不是通用大语言模型。

电商行业,DeepSeek-R1的翻译能力杀入榜单前三:

而在文化特性方面,Qwen系列一马当先。

Qwen2.5-0.5B-Instruct和Qwen2.5-1.5B-Instruct分别位居第一第二,同时第三名花落EuroLLM-1.7B-Instruct。

大家可能对EuroLLM-1.7B-Instruct相对陌生,它是由多个欧洲研究机构联合开发的开源多语言大模型,涵盖35种语言,旨在支持所有欧盟官方语言以及其他主要语言。

中文翻译为其它语言

同样,在中文翻译为其它语言这条赛道上,综合得分通用标准的排名相同:

  • 第一:GPT-4o
  • 第二:DeepSeek-V3
  • 第三:Claude-3.5-Sonnet

电商行业,拿下第一的是均值得分4.420的DeepSeek-V3。

紧随其后的才是Gemini-2.5-Pro和Claude-3.5-Sonnet。

最后一项文化特性,Qwen系列的表现同样出色。

榜单前三分别是Qwen2.5-0.5B-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-1.5B-Instruct。

三大维度打造翻译大模型实战考卷

随着AI大模型加速落地,翻译模型也进入“比谁更好用”的时代

相应的,业内也对大模型翻译效果有了更高的要求,比如要符合不同地区的文化特性、能体现不同行业的语言特色等。

但问题来了——怎么判断一个AI翻译模型到底好不好用?

传统的翻译测评维度,主要关注通用质量(如BLEU、COMET),难以反映真实使用场景中对语义准确性、文化合规性、用户体验的高要求。

并且,大模型时代的AI翻译往往面临幻觉等更多问题。

也就是说,传统的翻译测评维度在今天已经不适用了

为此,阿里国际AI Business团队联合上海人工智能实验室、北京语言大学一起,构建了更全面、最新的评测标准和规范TransBench。

它从三大维度,重新定义翻译测评:

第一,全面的通用标准

不仅包括通用质量,还新增幻觉率和鲁棒性评测。

第二,行业垂直标准

这是首次针对行业的细分领域构建评测数据和评测方法,数据均来自行业细分领域真实数据,并利用语言专家在应用中的标注数据训练面向行业的打分模型。

第三,跨文化特性标准

首次提出文化禁忌和敬语规范的评测数据和评测方法。

举个例子!

电商场景下的用户投诉,通常与敬语、禁忌语等相关。

这些翻译结果从字面意思看无误,但会直接影响到对话人的体验,应该被纳入到测评的范围中。

从阿里国际自研翻译大模型真实用户反馈中总结提炼

其实,早在去年10月,阿里国际的AI Business团队就发布了首个大规模商用的翻译大模型Marco MT,其效果赶超Google、DeepL等头部AI翻译工具。

截至目前,Marco MT的日均调用量为6亿次,是电商领域使用量最大的翻译大模型。

TransBench的测评体系,正是基于Marco MT在全球真实用户反馈中总结提炼而来

因此,构建TransBench这件事中有阿里国际的身影就很好理解了。

当然,除了有业界认可的领先技术外,业务需求也是其中原因之一。

阿里国际旗下有Aliexpress、Lazada、Alibaba.com、Trendyol及Daraz等电商业务,覆盖全球200多个国家和地区,多语言翻译是助力业务发展的重要一环。

根据公开信息,2023年3月,阿里国际成立了AI Business,基于全球化电商场景探索AI技术。

现在,阿里国际的所有电商平台均已广泛应用AI能力,已服务了超50万卖家,形成了以服务中小企业出海为核心,覆盖全球多元市场、多种电商模式的规模级AI应用。

目前,TransBench的测评方法进行了开源,评测结果也将持续更新。

BTW:

最近启动的2026届校招中,阿里国际放出的岗位,80%是AI岗位,包括AI算法、研发、AI产品经理等。

有兴趣的同学欢迎投递~

测评网址:

https://transbench.com/#/?lang=zh-cn

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“望月鳝剧毒,误食必死”,望月鳝比毒蛇还要毒?什么是望月鳝?你们有遇到过吗?

“望月鳝剧毒,误食必死”,望月鳝比毒蛇还要毒?什么是望月鳝?你们有遇到过吗?

农夫也疯狂
2026-04-26 11:01:20
张天爱太丰满了,真空穿挂脖裙都兜不住好身材,我感慨资本会选人

张天爱太丰满了,真空穿挂脖裙都兜不住好身材,我感慨资本会选人

动物奇奇怪怪
2026-04-27 13:11:08
革命卫队圣城旅指挥官:“抵抗之弧”比以往任何时候都更强更团结

革命卫队圣城旅指挥官:“抵抗之弧”比以往任何时候都更强更团结

我叫汤姆
2026-04-28 05:56:19
实拍宁波隧道火灾惊险全程,全车烧毁无人逗留,国民安全意识升级

实拍宁波隧道火灾惊险全程,全车烧毁无人逗留,国民安全意识升级

芳姐侃社会
2026-04-27 23:08:07
新婚夜,妻子出上联:昌是日上日,丈夫的下联让妻子哈哈大笑

新婚夜,妻子出上联:昌是日上日,丈夫的下联让妻子哈哈大笑

千秋文化
2026-04-27 19:54:14
地下通道跳舞救女的重庆父亲发声:女儿小欣悦医治无效离世,她成为快乐的小天使

地下通道跳舞救女的重庆父亲发声:女儿小欣悦医治无效离世,她成为快乐的小天使

极目新闻
2026-04-27 20:15:32
疯狂的“工业牙齿”:中国一收紧,越南成了全球资本的“座上宾”

疯狂的“工业牙齿”:中国一收紧,越南成了全球资本的“座上宾”

民间胡扯老哥
2026-04-27 04:55:37
凌晨4点,辽宁舰甲板上的生死40分钟:当歼-15挂着实弹压向2000米

凌晨4点,辽宁舰甲板上的生死40分钟:当歼-15挂着实弹压向2000米

荷兰豆爱健康
2026-04-27 13:20:59
卡塞米罗离队定局:曼联2-1布伦特福德背后的告别信号

卡塞米罗离队定局:曼联2-1布伦特福德背后的告别信号

体坛观察猿
2026-04-28 06:52:02
212抛出“侠客”与“远征”,一个经典符号的全球化跃迁

212抛出“侠客”与“远征”,一个经典符号的全球化跃迁

经济观察报
2026-04-26 09:46:14
年仅26岁!江西吴开婷去世,前后6个月倾家荡产,俩女儿不愿放手

年仅26岁!江西吴开婷去世,前后6个月倾家荡产,俩女儿不愿放手

青梅侃史啊
2026-04-27 07:21:33
季后赛24分钟板凳:球星信任危机怎么破

季后赛24分钟板凳:球星信任危机怎么破

赛场名场面
2026-04-28 01:41:22
18倍牛股一季度净利增长11倍,这个产业也景气度高

18倍牛股一季度净利增长11倍,这个产业也景气度高

每日经济新闻
2026-04-27 22:37:49
段睿终于不再隐瞒!8 个字戳破蔡磊真实现状,渐冻症终末期太残酷

段睿终于不再隐瞒!8 个字戳破蔡磊真实现状,渐冻症终末期太残酷

橙星文娱
2026-04-27 15:21:51
伊朗261名议员发表声明,支持谈判团队及议长卡利巴夫

伊朗261名议员发表声明,支持谈判团队及议长卡利巴夫

界面新闻
2026-04-27 21:58:15
14岁儿子得抑郁症,花光30万没治好,老公上去一巴掌:装什么病

14岁儿子得抑郁症,花光30万没治好,老公上去一巴掌:装什么病

千秋文化
2026-04-25 20:39:20
人大代表建议:“工龄满30年带薪年假增至20天”引发社会广泛关注

人大代表建议:“工龄满30年带薪年假增至20天”引发社会广泛关注

细说职场
2026-04-27 15:14:49
“戎马倥偬”,不读 kōng cōng,正确读音是什么?什么意思?

“戎马倥偬”,不读 kōng cōng,正确读音是什么?什么意思?

未央看点
2026-04-27 22:12:01
“二女儿会恨死你”,家长晒两娃名字,重男轻女简直刻在骨子里

“二女儿会恨死你”,家长晒两娃名字,重男轻女简直刻在骨子里

泽泽先生
2026-04-25 21:49:06
易梦玲最新近照引发热议,被指撞脸章若楠、Angelababy及柳智敏

易梦玲最新近照引发热议,被指撞脸章若楠、Angelababy及柳智敏

韩小娱
2026-04-26 15:48:52
2026-04-28 08:04:49
量子位 incentive-icons
量子位
追踪人工智能动态
12544文章数 176458关注度
往期回顾 全部

科技要闻

DeepSeek V4上线三天,第一批实测出来了

头条要闻

德国总理默茨:美国正遭受伊朗领导层的羞辱

头条要闻

德国总理默茨:美国正遭受伊朗领导层的羞辱

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

Meta 140亿收购Manus遭中国发改委否决

汽车要闻

不那么小众也可以 smart的路会越走越宽

态度原创

游戏
艺术
教育
公开课
军事航空

菲律宾战队选手致歉 做眯眯眼动作涉嫌种族歧视

艺术要闻

幸福就是住着小院子,过着小日子

教育要闻

教育生态的悲歌!尖子班几个月彻底陨落:数学平均分从90多跌到63

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗外长折返伊斯兰堡内情披露

无障碍浏览 进入关怀版