网易首页 > 网易号 > 正文 申请入驻

首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,Qwen擅长文化丨开源

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

AI替咱打工搞翻译,到底谁家最好用?

终于,有人来统一翻译江湖的标准了:首个应用型AI翻译测评榜单TransBench在OpenCompass上线

它由阿里国际AI Business团队联合上海人工智能实验室、北京语言大学共同发布。

与传统的翻译测评体系相比,TransBench增加了幻觉率、文化禁忌词、敬语规范等指标,专门针对大模型翻译最容易出错的关键问题进行实战考核。

比如:

  • 翻得挺溜但张口就编,这就得算“幻觉”;
  • 翻得准确却冒犯了当地文化,那也是“翻译事故”;
  • 甚至你在客服场景里少说一句“please”,都可能让用户不爽。

这是首次针对行业的细分领域构建评测数据和评测方法。这些指标均来自真实场景的使用反馈,由此来测评大模型是否符合大规模应用的标准。

目前,TransBench评测方法与数据集已全面开源,也已发布了首期测评结果。

欢迎各个AI翻译机构去打榜,一较高下~

GPT-4o稳坐“翻译AI天花板”

官网表示,TransBench数据集中涵盖中、英、法、日、韩、西班牙等多种语言。

此外,还在不断持续更新海量小语种。

TransBench评测体系中的数据集,根据“通用标准”“电商文化”“文化特性”三个大类,整理了不同的数据集。

目前,TransBench多语言翻译评测榜单首期已经出炉。

评测榜单从“综合得分”“通用标准”“电商文化”“文化特性”四个维度来给每个模型的翻译能力打分。

其中,综合得分是模型在评测数据集的三大维度的综合平均得分。为了保证数值可被平均,榜单对不同得分进行了数值缩放。

我们查看并整理了“英语翻译为其它语言”和“中文翻译为其它语言”两个榜单的模型能力。

英语翻译为其它语言

这个条件下,综合得分通用标准的得分前三,都分别是:

  • 第一:GPT-4o
  • 第二:DeepL Translate
  • 第三:GPT-4-Turbo

其中比较特别的是DeepL Translate,上个月底刚刚发布。

和前三名的另外两位不同,这是一个专门的机器翻译(MT,Machine Translation)模型,而不是通用大语言模型。

电商行业,DeepSeek-R1的翻译能力杀入榜单前三:

而在文化特性方面,Qwen系列一马当先。

Qwen2.5-0.5B-Instruct和Qwen2.5-1.5B-Instruct分别位居第一第二,同时第三名花落EuroLLM-1.7B-Instruct。

大家可能对EuroLLM-1.7B-Instruct相对陌生,它是由多个欧洲研究机构联合开发的开源多语言大模型,涵盖35种语言,旨在支持所有欧盟官方语言以及其他主要语言。

中文翻译为其它语言

同样,在中文翻译为其它语言这条赛道上,综合得分通用标准的排名相同:

  • 第一:GPT-4o
  • 第二:DeepSeek-V3
  • 第三:Claude-3.5-Sonnet

电商行业,拿下第一的是均值得分4.420的DeepSeek-V3。

紧随其后的才是Gemini-2.5-Pro和Claude-3.5-Sonnet。

最后一项文化特性,Qwen系列的表现同样出色。

榜单前三分别是Qwen2.5-0.5B-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-1.5B-Instruct。

三大维度打造翻译大模型实战考卷

随着AI大模型加速落地,翻译模型也进入“比谁更好用”的时代

相应的,业内也对大模型翻译效果有了更高的要求,比如要符合不同地区的文化特性、能体现不同行业的语言特色等。

但问题来了——怎么判断一个AI翻译模型到底好不好用?

传统的翻译测评维度,主要关注通用质量(如BLEU、COMET),难以反映真实使用场景中对语义准确性、文化合规性、用户体验的高要求。

并且,大模型时代的AI翻译往往面临幻觉等更多问题。

也就是说,传统的翻译测评维度在今天已经不适用了

为此,阿里国际AI Business团队联合上海人工智能实验室、北京语言大学一起,构建了更全面、最新的评测标准和规范TransBench。

它从三大维度,重新定义翻译测评:

第一,全面的通用标准

不仅包括通用质量,还新增幻觉率和鲁棒性评测。

第二,行业垂直标准

这是首次针对行业的细分领域构建评测数据和评测方法,数据均来自行业细分领域真实数据,并利用语言专家在应用中的标注数据训练面向行业的打分模型。

第三,跨文化特性标准

首次提出文化禁忌和敬语规范的评测数据和评测方法。

举个例子!

电商场景下的用户投诉,通常与敬语、禁忌语等相关。

这些翻译结果从字面意思看无误,但会直接影响到对话人的体验,应该被纳入到测评的范围中。

从阿里国际自研翻译大模型真实用户反馈中总结提炼

其实,早在去年10月,阿里国际的AI Business团队就发布了首个大规模商用的翻译大模型Marco MT,其效果赶超Google、DeepL等头部AI翻译工具。

截至目前,Marco MT的日均调用量为6亿次,是电商领域使用量最大的翻译大模型。

TransBench的测评体系,正是基于Marco MT在全球真实用户反馈中总结提炼而来

因此,构建TransBench这件事中有阿里国际的身影就很好理解了。

当然,除了有业界认可的领先技术外,业务需求也是其中原因之一。

阿里国际旗下有Aliexpress、Lazada、Alibaba.com、Trendyol及Daraz等电商业务,覆盖全球200多个国家和地区,多语言翻译是助力业务发展的重要一环。

根据公开信息,2023年3月,阿里国际成立了AI Business,基于全球化电商场景探索AI技术。

现在,阿里国际的所有电商平台均已广泛应用AI能力,已服务了超50万卖家,形成了以服务中小企业出海为核心,覆盖全球多元市场、多种电商模式的规模级AI应用。

目前,TransBench的测评方法进行了开源,评测结果也将持续更新。

BTW:

最近启动的2026届校招中,阿里国际放出的岗位,80%是AI岗位,包括AI算法、研发、AI产品经理等。

有兴趣的同学欢迎投递~

测评网址:

https://transbench.com/#/?lang=zh-cn

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
钱再多有什么用?霍启刚夫妇身家百亿,如今却为12岁儿子操碎了心

钱再多有什么用?霍启刚夫妇身家百亿,如今却为12岁儿子操碎了心

翰飞观事
2026-03-28 19:26:05
世体:如果塞维利亚降级,西甲其他球队将获得更多转播收入

世体:如果塞维利亚降级,西甲其他球队将获得更多转播收入

懂球帝
2026-04-29 02:16:09
报复来了!约基奇垃圾时间戏耍对手,两队梁子是结下了

报复来了!约基奇垃圾时间戏耍对手,两队梁子是结下了

体育新角度
2026-04-28 15:51:23
移民美国真相大白3个月,43岁刘翔突传喜讯,前妻葛天后悔了吗

移民美国真相大白3个月,43岁刘翔突传喜讯,前妻葛天后悔了吗

做一个合格的吃瓜群众
2026-04-20 11:28:04
黎姿普吉岛过复活节,大方穿泳装秀身材,54岁的少女感藏不住

黎姿普吉岛过复活节,大方穿泳装秀身材,54岁的少女感藏不住

吃青菜长高
2026-04-18 06:59:11
章建平2026年一季度持仓曝光,新进三只个股重仓北方稀土逾33亿元

章建平2026年一季度持仓曝光,新进三只个股重仓北方稀土逾33亿元

金融界
2026-04-28 19:47:24
1984年,张宗逊之子张又侠8个多小时拿下松毛岭:预备队还没上呢

1984年,张宗逊之子张又侠8个多小时拿下松毛岭:预备队还没上呢

历史甄有趣
2026-03-13 12:45:14
从1-0到1-3!一场耻辱的失利!夺冠大热露馅,联盟门面也该换人了

从1-0到1-3!一场耻辱的失利!夺冠大热露馅,联盟门面也该换人了

篮球扫地僧
2026-04-28 06:30:55
伊朗石油因封锁卖不出去了,只能自己焚烧了

伊朗石油因封锁卖不出去了,只能自己焚烧了

金召点评
2026-04-28 07:44:37
LV、Gucci?那是给“中产”穿的:真正的有钱人,都买这几个牌子

LV、Gucci?那是给“中产”穿的:真正的有钱人,都买这几个牌子

时尚搭配师Nicole
2026-04-28 15:48:36
39岁前国脚现状:定居美国踢野球,早已财富自由,有2个可爱女儿

39岁前国脚现状:定居美国踢野球,早已财富自由,有2个可爱女儿

揽星河的笔记
2026-04-14 15:18:30
G1广东76-93广州 球员评价:3人及格,9人低迷

G1广东76-93广州 球员评价:3人及格,9人低迷

篮球资讯达人
2026-04-29 00:18:36
悲哀!如果我还年轻,想立马辞掉教师编!河南50岁教师哭诉引热议

悲哀!如果我还年轻,想立马辞掉教师编!河南50岁教师哭诉引热议

火山詩话
2026-04-26 14:34:00
酉鸡:5月上旬“大事”悄然发生!不是中奖升职

酉鸡:5月上旬“大事”悄然发生!不是中奖升职

牛锅巴小钒
2026-04-26 18:00:27
波涛汹涌的“地球小姐”!

波涛汹涌的“地球小姐”!

文刀万
2026-04-24 12:44:49
亲家有没有钱,一看便知:没钱的亲家,大多有以下2个穷喜好

亲家有没有钱,一看便知:没钱的亲家,大多有以下2个穷喜好

游戏收藏指南
2026-04-25 17:13:48
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
民进党高层竟敢偷偷离台,大陆火速行动!美国不仁,郑丽文就不义

民进党高层竟敢偷偷离台,大陆火速行动!美国不仁,郑丽文就不义

向日葵向阳西晒
2026-04-27 17:13:11
山东没高诗岩真不行!进攻散沙,防守没人限制赵继伟,但难复出!

山东没高诗岩真不行!进攻散沙,防守没人限制赵继伟,但难复出!

篮球资讯达人
2026-04-29 02:04:18
降薪之风吹进了这5个央国企

降薪之风吹进了这5个央国企

职场资深秘书
2026-04-28 22:18:21
2026-04-29 02:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
12551文章数 176458关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

中央政治局会议定调,八大看点速览!

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

本地
健康
数码
公开课
军事航空

本地新闻

用青花瓷的方式,打开西溪湿地

干细胞治疗烧烫伤三大优势!

数码要闻

机械革命苍龙16 / 18 Pro游戏本RTX 5070 12GB款开启预约

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

德国总理默茨:美国正遭受伊朗领导层的羞辱

无障碍浏览 进入关怀版