网易首页 > 网易号 > 正文 申请入驻

中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?

0
分享至

作者 |青暮

以学术界为主力军的中国AI研究力量正在悄然变化,工业界的作用愈发凸显,与学术界一起形成双轮驱动之势。

伦敦帝国理工学院 Marek Rei 教授对ML&NLP相关会议论文的统计显示,自2012年至2020年期间,美国以近4000篇论文的数量遥遥领先,中国、英国、德国和加拿大分别名列第二至五位。

美国科技公司在各大人工智能顶会上格外强势,微软和谷歌排名前二,IBM和Facebook也名列前十;与此形成鲜明反差的是,中国AI研究界则由学术机构当家,仅清华和北大跻身前十,分别排名第八和第九位。

但是在AI技术应用火热的推动下,中国科技企业也逐渐从“辅助角色”进化为中坚力量。在刚刚结束的NLP顶会ACL 2021上,中国的论文投稿数量已经大幅超越美国,共有 1239 篇论文投稿来自中国大陆,其中 251 篇被接收,接收率 20.3%,工业界在其中出力甚多。

更值得欣喜的是,字节跳动AI Lab的词表学习方案VOLT赢得“最佳论文”奖项。这是ACL举办59年以来,中国团队第二次获得会议最高荣誉,上一次是由中科院计算所研究员冯洋获得ACL 2019年最佳长论文奖。此外,香港中文大学与腾讯AI Lab的合作论文成功入选“杰出论文”。

本次我们采访到了字节跳动AI Lab获奖论文作者,向读者介绍他们在ACL 2021上的工作。

1

NLP的华人力量

字节跳动获奖论文“Vocabulary Learning via Optimal Transport for Machine Translation”提出了VOLT方法,能以非常低的代价学习词表,在机器翻译上取得了更好的性能。而词表几乎可以用于所有NLP任务,团队也在积极推动VOLT在其他NLP任务上的应用。

另外这项工作是从经济学和数学中获取灵感,从而给出了一个可行的词表学习方案。该论文第一作者许晶晶说:“我们给出了基于最大边际效应的一种可能的解释,和把词表学习建模成一个最优运输问题的全新想法。”

论文地址:https://arxiv.org/abs/2012.15671

项目地址:https://github.com/Jingjing-NLP/VOLT

许晶晶于2015年进入北京大学电子工程与计算机科学学院,攻读博士学位,在计算语言学教育部重点实验室跟随孙栩教授做研究。

2021年2月,也就是五年后,AAAI首次评选“学术新星”(New Faculty Highlight),许晶晶成功入选,是入选者中唯一的中国机构学者。

回首五年前,许晶晶认为自己非常幸运,刚进入AI领域的时候,恰好就是自然语言处理从传统的浅层模型走向深度模型的过渡点。“对于NLP领域而言,深度学习在当时还是一种比较新的方法,入学的时候比较幸运赶上了深度学习在自然语言处理应用的浪潮”。

今年中国团队再次获得ACL最高荣誉,但光芒的背后,是一步一步的扎实积累。“最近几年华人在NLP领域的进步是非常大的。在15年的时候,对于一家中国研究机构来说,可能一年中一篇ACL,就是非常了不起的事情。随着时代的进步,华人的名字开始越来越多地出现在会议上,这是一个可喜的进步。相信在不久的将来,华人也可以做出很多可以引领整个时代潮流的工作。”许晶晶说道。

2

来自经济学和数学的启发

许晶晶对自然语言处理(NLP)的基础研究比较感兴趣,而词表又是自然语言处理的基础组件。

团队成员们非常尊重和支持她的个人研究兴趣,当她最开始提出想要研究词表的时候,很快就获得了团队成员们的支持。

词表,也就是把句子拆分表示的参考表,有多种形式,比如词级别、字符级别、子词级别等等,如下图所示。

在机器翻译架构中,这些句子在输入后会依据词表拆分成token(比如”Oregon“被拆分成“O”、“re”、“gon”三个token),然后将每个token分别表示为向量,再进行神经网络的编码、解码,然后先输出token级别的表示,再依据词表组合成完整的翻译句子输出。

在三种级别的词表中,词级别简单按照词汇水平对句子进行分割,对应的词表就是语料中所有的单词;字符级别把所有单词都拆分成字母。子词级别介于两者之间,比如在上图这句话中,”Oregon“被拆分成“O”、“re”、“gon”三个token,“enlisting”被拆分成“en”、“listing”。

目前为止,子词级别的词表使用比较多,并且已经在多个任务上验证了效果。因此,在目前的认知条件下,可以暂时认定子词为较好的选择。

在这项研究中,实验室团队就是希望找到最好的子词词表,以提高机器翻译的性能和效率。

如何理解子词表示的好处呢?比如在“enlisting”和“enlighten”这两个单词中,我们可以把它们拆分成“en”、“listing”,以及“en“、”lighten”,然后我们在向量空间中需要构建“en”、“listing”、“lighten”这三个词向量。在足够多的词汇量下,子词级别需要的词表比词级别的要小。

从一般的意义上讲,子词表示是一种信息压缩(相对于字符表示)。就好像为了理解大量的蛋白质数据,我们用氨基酸作为基本单元来进行分类,而不是直接用原子作为基本单元。但也因此,子词级别的词表相比字符级别会更大。

那么词表是不是越大越好呢?实际上在BPE算法中随着词表增大,新增的子词匹配的多是稀疏单词,也就是信息熵降低,这样反倒不利于模型学习。

具体而言,对于每一种语言来说,常用的单词都是少数的。或者准确点说,每一种语言的单词使用频率是呈现长尾分布的。

这意味着,整个机器翻译系统中,对这些低频词汇进行子词分解,在后续的编解码中,并不会对信息熵的变化带来太大收益。

因此除了信息熵,词表大小也是衡量词表的重要因素。

团队由此联想到了经济学中的经典现象——边际收益

通俗来说,边际收益就是指“刚开始的几口蛋糕真香”以及“最后一口蛋糕好腻”。我们可以把“吃一口蛋糕”定义为投入,“真香感受”定义为产出,边际收益就是投入产出比。“刚开始的几口蛋糕真香”的投入产出比高,“最后一口蛋糕好腻”的投入产出比低。

在子词词表构建中,随着词表大小的增加,一般来说,token的信息熵收益会在某个时刻之后达到巅峰并且下降。

而这个性价比临界点,正是团队要寻找的目标。

因此,团队为了建模这种平衡,引入了边际收益的概念。团队将信息熵看成是边际收益中的利益,词表大小看成是边际收益中的代价。随着词表的增加,不同大小的词表的信息熵收益是不同的。

团队使用边际收益的概念定义了衡量词表质量的指标MUV,并且观测到了MUV指标和下游任务的相关性。

MUV可以理解成为信息熵对词表大小的负一阶导数,也即是我们在逐个增加token来构建词表的时候,每增加一定量的token导致的信息熵增益。我们的目标,就是要在巨大的词表空间中寻找MUV的最高值。

这样就可以把词表学习转化为搜索具有最大MUV分数的词表问题。为了解决该问题,作者提出了一种基于最优运输的方案。

为了便于大家更方便地理解最优运输,这里对最优运输先做一个简单的回顾。

大约250年前,法国数学家蒙日在其作品中对这类问题进行了严格分析,下面是一个比较直观的例子。

假设在战争中,我方有一些前线(蓝色星星)发出了需要增兵的信号,而我们的士兵分散在不同的后方根据地(红色旗帜)。不同的前线需要的士兵个数不同,后方根据地的士兵个数也不同,前线距离后方根据地的距离也不同。问如何设计转移方案,使得总转移代价最低?这就是最优运输想要回答的问题。

那么,如果要用最优传输来解决词表学习问题,首先要将问题进行重建。作者们将句子拆分成字符后的表示看成是后方士兵,将候选词表看成是前线。为了避免不合法的搬运,作者们将不合法的搬运设为无穷大(比如字e搬运给词cat是不合法的)。每种搬运方式对应一种词表,那么我们只需要把搬运代价定义成MUV相关分数,就可以实现搜索的目的。

那么如何将词表学习的问题转化成为最优运输的代价呢?作者对问题进行了简化。简化过程分为两步,一个是对搜索空间进行压缩,一个是对目标进行近似。对技术细节感兴趣的读者,可以看看VOLT方法的伪代码:

以下是VOLT生成的词表在双语翻译的结果,可以看出新方法学到的词表比经常使用的词表大小小很多,效果也很有竞争力。

以下是在多语翻译的结果,总体来看,在三分之二的数据集上效果也是较好的。

VOLT不需要结合任务的下游任务训练,因此非常简单高效。但许晶晶转而说道,“这其实是一把双刃剑,如果可以结合下游任务的话,有机会针对特定情况或许可以获得更好的性能和效率。”

3

不止是VOLT

相比于对模型的关注,词表在NLP社区中相关的研究可能少一些,而词表又是非常重要的一环。如何去理解词表其实是一个很有意思的问题。

对于这项工作的泛化性,许晶晶也有所期待,“或许未来能在其他NLP任务上看到VOLT的身影。”

同时,这项技术也被团队用到了竞赛中。在今年的WMT2021中,字节跳动AI Lab在WMT机器翻译比赛中取得了好成绩。这次比赛中,除了VOLT,团队们还使用了非自回归的方法GLAT。

论文链接:https://arxiv.org/abs/2008.07905

在WMT2021国际机器翻译大赛上,字节跳动火山翻译团队以“并行翻译”系统参赛,获得德语到英语方向机器翻译比赛自动评估第一名。“并行翻译”在国际大赛首次亮相,就成功击败了从左向右逐词翻译的“自回归模型”技术,打破后者在机器翻译领域的绝对统治地位。

许晶晶的团队同事周浩说道,“这充分说明并行(非自回归)生成模型未必比自回归模型差”。

WMT2021是由国际计算语言学协会ACL举办的世界顶级机器翻译比赛,德英语向是该赛事竞争最激烈的大语种项目之一。

GLAT被还上线到了字节跳动的火山翻译中,为公司产品和火山引擎的企业级客户提供翻译服务,” 在训练数据量小的场景下,‘并行翻译’的质量相比传统技术处于劣势。但是当训练数据规模变大后,‘并行翻译’会逐渐缩小差距,甚至反超传统技术。“周浩补充道。

火山翻译是字节跳动旗下火山引擎的AI中台能力之一,提供全球先进的翻译技术与服务,打造各大场景智能翻译解决方案。

火山翻译打通了多个翻译场景,包括文本、语音、图片、音频、视频,以及虚拟世界和现实世界。其中,虚拟世界即AR,现实世界即同传。此外还支持多语种,包括56门语言、3080个语向的翻译。

在2021年上半年,火山翻译研发了视频翻译和AR智能翻译眼镜,火山同传也支持了多场大会与直播,很好促进了多语言内容互通。

视频翻译:

在这些产品背后,字节跳动AI Lab重点研发了多语言翻译和语音翻译,有如下几个亮点。

比如开源了 lightseq2.0,这是业界最快的推理和训练引擎,可以把机器翻译的训练速度提升 3 倍,把推理速度提升 10 倍。

以及研发了大规模多语言预训练 mRASP2 ,可以支持 150 个语种之间的互译,通过大规模预训练翻译效果非常好。

还有研发了端到端语音翻译,并且开源了 NeurST,引起了业内较大的关注。

“既重视基础研究,又能高效转化技术。”这也是许晶晶当初选择字节跳动AI Lab的原因,“组里的同事们都很年轻,有活力、有想法,同时氛围又很自由,大家都会积极地去推动整个工作组的研究,并在自己的领域中发光发热。”

许晶晶的主要研究方向是绿色深度学习,VOLT的能力正好定位于这个价值观。

VOLT:绿色环保的词表学习方案

以主流词表BPE为例。为了搜索最优词表,业内普遍会通过大量自然语言处理下游任务的训练以寻找最优大小。相比之下,使用VOLT方案可以节省92%的算力,这同时意味着所需电能的大量减少。

巧合的是,伏特(volt)是电学的一个基本单位。可以说,VOLT是一项非常环保的绿色解决方案。

机器翻译是NLP应用的主要部分,而NLP的市场价值仍然无可限量。John Snow实验室与Gradient Flow合作在2020年发布了一份全球调查报告。这项全球调查询问了来自50多个国家的近600名受访者,全面了解了2020年NLP的采用和实施状况。

尽管今年IT支出不景气,但有趣的是,NLP预算全面增加,报告的NLP技术预算比去年增加了10-30%。考虑到该调查是在全球COVID-19大流行的高峰期进行的,而当时全球的IT支出都在下降,这一点尤其重要。

4

写在最后

”获得最佳论文对于我来说是很高的起点。但人终究是要不断追求进步的,对于下一步该往何处走,做出更好的研究贡献,也会感受到压力。“

展望未来,许晶晶抱有很大的期待,“事物是动态发展的,方向会不断调整,但我相信都会往好的方向发展。对于我个人,也期望在这个自由的环境中,继续做出对公司、对社区、对社会有帮助的事情。字节跳动AI Lab还很年轻,欢迎大家过来开拓自己的事业。”

参考资料:https://jingjingxu.com/https://www.zhihu.com/question/470224094?s_r=1&utm_medium=social&utm_source=wechat_session&s_s_i=mXDE8b41WRNbota3j%2FQ7pXommk63fbpGpcgNhU7lUD4%3Dhttps://www.leiphone.com/category/yanxishe/lp59xGal8Tdx3pwq.htmlhttps://mp.weixin.qq.com/s/tiMqwcVKMaFdNfXez7PZJg

雷锋网雷锋网雷锋网

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
26年坚定持有的十只黑马股,预定翻倍增长!(精选)

26年坚定持有的十只黑马股,预定翻倍增长!(精选)

涨多宝
2026-03-02 14:45:51
伊朗的援军到了!以色列再征兵10万,关键时刻,普京对中国做承诺

伊朗的援军到了!以色列再征兵10万,关键时刻,普京对中国做承诺

军机Talk
2026-03-02 09:50:33
曾是京城第一名媛,嫁叶剑英儿子仅24天便离婚,如今已成资本大佬

曾是京城第一名媛,嫁叶剑英儿子仅24天便离婚,如今已成资本大佬

小熊侃史
2026-03-01 17:29:14
美国驻巴基斯坦卡拉奇领馆遭冲击 至少8人死亡

美国驻巴基斯坦卡拉奇领馆遭冲击 至少8人死亡

中国网
2026-03-01 22:32:20
以色列在“狮吼袭击”行动中摧毁了伊朗的 Shahab-3 弹道导弹

以色列在“狮吼袭击”行动中摧毁了伊朗的 Shahab-3 弹道导弹

深度Militaire
2026-03-02 10:05:12
美军公布伤亡情况

美军公布伤亡情况

环球时报国际
2026-03-02 00:10:13
特朗普苦等4天中方终于回信,对美开出两大条件,做不到访华免谈

特朗普苦等4天中方终于回信,对美开出两大条件,做不到访华免谈

安珈使者啊
2026-03-01 12:15:35
“想要我签名吗” 梅西霸气失2追4后嘲讽对手主帅 后者曾捂嘴挑衅

“想要我签名吗” 梅西霸气失2追4后嘲讽对手主帅 后者曾捂嘴挑衅

风过乡
2026-03-02 13:02:31
伊拉克民兵组织称袭击巴格达机场内美军目标

伊拉克民兵组织称袭击巴格达机场内美军目标

界面新闻
2026-03-02 11:14:08
英超近10轮拿分情况:曼联22分第1 阿森纳21分第2 热刺4分垫底

英超近10轮拿分情况:曼联22分第1 阿森纳21分第2 热刺4分垫底

智道足球
2026-03-02 08:22:53
1952年,88岁齐白石将25岁新凤霞拉进屋:柜子里都是钱,你随便拿

1952年,88岁齐白石将25岁新凤霞拉进屋:柜子里都是钱,你随便拿

兴趣知识
2025-12-31 18:24:12
马鸿逵的四姨太有多美?身姿纤细秀色可餐,60多岁依旧非常优雅!

马鸿逵的四姨太有多美?身姿纤细秀色可餐,60多岁依旧非常优雅!

砚底沉香LIU
2026-03-02 10:06:27
媒体人:不了解杨瀚森场下训练情况,但英语进步速度让人忧虑

媒体人:不了解杨瀚森场下训练情况,但英语进步速度让人忧虑

懂球帝
2026-03-02 13:29:16
3-0!谢谢你,勇士!神级血赚大交易

3-0!谢谢你,勇士!神级血赚大交易

篮球实战宝典
2026-03-02 16:26:02
滚出去!中国不是“捡破烂”的:日本混不下去,就想回中方捞金?

滚出去!中国不是“捡破烂”的:日本混不下去,就想回中方捞金?

来科点谱
2026-02-18 07:06:28
巴拿马变天,大清算开始了!真正的大国力量,有人根本一无所知!

巴拿马变天,大清算开始了!真正的大国力量,有人根本一无所知!

阿讯说天下
2026-03-01 14:33:45
春天,少吃红薯南瓜多吃它,一次买10斤囤起来,随吃随取,特省事

春天,少吃红薯南瓜多吃它,一次买10斤囤起来,随吃随取,特省事

阿龙美食记
2026-02-28 10:47:08
比张镇麟还差!中国男篮逆转夜最失意之人:失误被换下仅出场30秒

比张镇麟还差!中国男篮逆转夜最失意之人:失误被换下仅出场30秒

肖兹探秘说
2026-03-02 16:19:44
牡丹花下死!这次曝光新恋情的黄晓明,没给杨颖、叶柯留一丝体面

牡丹花下死!这次曝光新恋情的黄晓明,没给杨颖、叶柯留一丝体面

情感大头说说
2026-03-01 06:40:17
救命,国产烂片又刷新下限了

救命,国产烂片又刷新下限了

喵喵娱乐团
2026-02-28 16:41:47
2026-03-02 18:08:49
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68617文章数 656082关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

36岁副镇长开会晕倒除夕当天不幸离世 家中有3个孩子

头条要闻

36岁副镇长开会晕倒除夕当天不幸离世 家中有3个孩子

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

金银大涨 市场仍在评估冲突会否长期化

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

教育
亲子
游戏
健康
公开课

教育要闻

2月28日雅思大作文示范写作 | 违规驾驶成因与最优对策分析

亲子要闻

给中国姥姥拿鞋,一岁半的乖宝宝

停摆800天仍坚挺,《坦克世界》为何让6000万军迷念念不忘

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版