网易首页 > 网易号 > 正文 申请入驻

微软和谷歌的人工智能,在SuperGLUE基准测试中超越了人类

0
分享至

  

  大数据文摘出品

  来源:venturebeat

  编译:千雪

  2019年底,Facebook、纽约大学、华盛顿大学和DeepMind的研究人员联合提出了SuperGLUE,这是人工智能的一个新基准,旨在总结多种语言任务的研究进展。

  基于一年前推出的GLUE基准,SuperGLUE包含了一系列更难理解的语言挑战、改进的资源和公开的排行榜。

  当SuperGLUE刚被推出时,排行榜上表现最佳的模式和人类表现之间有近20个百分点的差距。但截至1月初,有两个模型:微软的DeBERTa和谷歌的T5 + Meena——已经成为第一个超越人类基线的模型。

  纽约大学数据科学中心(center for data science)助理教授Sam Bowman表示,这一成就反映了机器学习领域的创新,其中包括自我监督学习,也就是让模型从未标记的数据集中学习,并将其应用于目标任务。“这些数据集反映了一些两年前就免费提供的最难监督的语言理解任务,”他说。

  “我们没有理由相信SuperGLUE能够检测到自然语言处理的进一步进展,至少不能完全相信。”

  但SuperGLUE测试并不是完美的,也不是一种完整的人类语言能力测试。

  在一篇博客文章中,DeBERTa背后的微软团队自己指出,他们的模型“绝不可能”达到人类的自然语言理解智能水平。他们说,这都需要继续研究突破,以及用新的基准来衡量它们及其影响。

  SuperGLUE

  正如研究人员在介绍SuperGLUE的论文中写的那样,他们的基准是一种简单的、难以博弈的衡量标准,用来衡量通用英语理解技术的进步。它包括八个语言理解任务,这些任务来自于现有的数据,并附有一个性能指标和一个分析工具包。

  这些任务是:

  布尔问题(BoolQ)要求模型对一篇包含问题答案的维基百科短文作出回应。这些问题来自谷歌用户,他们通过谷歌搜索提交问题。

  承诺银行(CommitmentBank,CB)任务,是识别来自《华尔街日报》等文本摘录中包含的假设,并确定该假设是否成立。

  似是而非的选择(COPA),提供了一个关于博客和摄影相关百科全书主题的前提语句,模型必须从两个可能的选择中确定因果关系。

  多句阅读理解(MultiRC)是一个问答任务,每个例子由一个上下文段落、一个关于该段落的问题和一系列可能的答案组成。模型必须预测哪些答案是正确的,哪些是错误的。

  利用常识进行阅读理解推理(ReCoRD),模型可以从CNN和每日邮报的文章选择列表中预测出隐藏的单词和短语。在那些选项中,相同的单词或短语可能会以多种不同的形式表达出来,所有这些都被认为是正确的。

  识别文本(RTE)对自然语言模型提出了一个挑战,即鉴定一个文本摘录来自于另一个文本摘录的真实性。

  上下文中的词 (WiC)为模型提供了两个文本片段和一个多义词(具有多种含义的词),并要求模型确定在两个句子中该词是否具有相同的意思。

  Winograd Schema Challenge (WSC),在这个任务中,会给定一些小说中的段落,模型必须回答关于歧义代词的先行词的多项选择题,它是为了改进图灵测试而设计的。

  SuperGLUE还试图用带有Winogender的模型来衡量性别偏见。Winogender是指仅因句子中一个代词的性别而内容不同的句子对。然而,研究人员注意到这种方法有局限性,因为它只提供了积极的预测价值:虽然偏差分数低是模型表现出性别偏见的明显证据,但好的分数并不意味着模型没有偏见。此外,它并不包括所有形式的性别或社会偏见,这导致它只是一个粗糙的偏见衡量标准。

  为了建立人类表现基线,研究人员借鉴了WiC、MultiRC、RTE和ReCoRD的现有文献,并通过亚马逊的Mechanical Turk平台聘请了crowdwork注释员。每个工人的平均工资是每小时23.75美元,他们先进行了一个简短的培训,然后用说明书和FAQ(常见问题)页面对选定的测试集注释了多达30个样本。

  实施改进

  谷歌团队没有详细说明是什么改进导致了他们的模型在SuperGLUE上创纪录的表现,但DeBERTa的微软研究人员在今天早上发表的一篇博客文章中详细说明了他们的工作。DeBERTa并不是全新的——它去年开源过——但是研究人员说他们训练了一个包含15亿个参数(模型用来做预测的内部变量)的更大版本。它将以开源的形式发布,并集成到下一个版本的微软图灵自然语言表示模型中,该模型支持Bing、Office、Dynamics和Azure认知服务等产品。

  DeBERTa通过蒙面语言建模(MLM)进行预训练,这是一项填空任务,在这项任务中,会教导模型使用蒙面“标记”周围的单词来预测蒙面单词应该是什么。DeBERTa同时使用了上下文词的内容和位置信息,因此它能够识别句子中的“商店”和“商场”。例如“在新商场旁边开了一家新商店”,它能够识别出“商场”和“商店”这两个扮演的不同句法角色。

  与其他一些模型不同,DeBERTa解释了单词在语言建模过程中的绝对位置。此外,它还计算模型中转换输入数据的参数,并根据单词的相对位置来度量单词依赖性的强度。例如,DeBERTa会理解“deep”和“learning”两个词相邻出现时的依赖性要比出现在不同的句子中时强得多。

  DeBERTa还受益于对抗性训练,这是一种利用对抗性例子的技术,这些例子来源于训练数据的微小变化。在训练过程中,将具有对抗性的例子输入到模型中,提高了模型的可推广性。

  微软的研究人员希望下一步继续探索如何使DeBERTa能够概括出新的子任务或基本的解决问题技能,这一概念被称为组合泛化。其中一种方法可能是更明确地结合所谓的组合结构,这就可能需要将人工智能与符号推理结合起来——换句话说,根据数学和逻辑规则来操纵符号和表达式。

  微软研究人员写道:“DeBERTa在SuperGLUE上超越人类的表现,标志着通用人工智能的一个重要里程碑。但与DeBERTa不同的是,人类非常善于利用从不同任务中学到的知识来解决一项新任务,而不需要或很少需要特定任务的演示。”

  新基准

  Bowman说,目前还没有能接替SuperGLUE的新基准。但人工智能研究领域的共识是,未来的基准,特别是语言领域的基准,如果要有用,就必须考虑更广泛的道德、技术和社会挑战。

  例如,许多研究表明,流行的基准在评估现实世界的AI性能方面表现不佳。最近一份报告发现,自然语言处理模型给出的答案中有60%-70%嵌入到基准训练集中,这表明模型通常只是简单地记忆答案。另一项对3000多篇人工智能论文的元分析研究发现,用于衡量人工智能和机器学习模型的指标往往不一致,跟踪不规则,信息量也不是特别大。

  问题的部分原因在于,OpenAI的GPT-3、谷歌的T5 + Meena和微软的DeBERTa等语言模型,都通过内化公共网络上的例子来学习编写类似人类的文本。而借助电子书、维基百科(Wikipedia)和Reddit等社交媒体平台,他们可以推断出完整的句子,甚至整个段落。

  因此,语言模型往往会放大这些公共数据中的偏见;部分培训数据通常来自普遍存在性别、种族和宗教偏见的社区。人工智能研究公司OpenAI指出,这可能导致一些露骨下流的词被放在女性代词附近,“伊斯兰教”被放在“恐怖主义”的附近。其他研究,如英特尔、麻省理工学院和加拿大人工智能倡议CIFAR研究人员在今年4月发表的一项研究,已经发现来自一些最流行模型的高度刻板偏见,包括谷歌的BERT和XLNet、OpenAI的GPT-2,还有Facebook的RoBERTa。米德尔伯里国际问题研究所(Middlebury Institute of International Studies)认为,这种偏见可能会被恶意行为者利用,通过传播错误信息和彻头彻尾的谎言来煽动不和谐,从而使个人变得激进,形成暴力的极右极端主义意识形态和行为。

  大多数现有的语言基准测试都无法捕捉到这一点。在SuperGLUE问世两年来的研究结果的推动下,也许未来的研究会更进一步。

  https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐

拜登:这真奇妙,印度裔正在接管美国

环球时报评论
2021-03-07 22:45:24

俄罗斯发射导弹产生连锁反应,叙利亚发生死伤惨重,大战一触即发

慧观世界
2021-03-08 12:55:08

美新任国务卿想不到,刚对华下黑手,“与中国合作”就在美国沸腾

前沿时刻
2021-03-07 11:21:22

广州塔老板是谁?花29亿建造的中国第一高塔,回本了吗?

呆小呆带你谈感情
2021-03-08 14:29:45

鞠婧祎为白全身涂粉,遭品牌方拉黑,网友:涂了多少粉?

小西西看世界
2021-03-06 23:34:43

刘亚仁公布恋情,我得不到的男人,其他女人也得不到

娱乐拆穿姐
2021-03-08 10:17:57

“夏天女生上完厕所的尴尬时刻!”哈哈哈,蹲太久了吧

走,去看海
2021-03-07 22:41:20

蔡依林的裙子太薄了?当镜头拉进时,网友:小孩子别看

财经专项记者圈
2021-03-07 19:09:53

现在的小学生这么成熟了?!

东京食间
2021-03-08 08:35:38

抛弃同居5年周一围,闪婚50亿温州首富却被骗,今为夫还债显心酸

五美吟
2021-03-07 15:00:07

男子上山后, 尾随漂亮女子进山林, 听见对话后才知女子不是一般人

光头发光的故事
2021-03-08 10:59:30

国博0001号文物,沾着谁的血……

长安剑
2021-03-07 16:36:21

陈妍希瘦不到十斤,发博求网友放过,配图却晒了跟陈晓聊天记录

白夜追娱
2021-03-08 12:53:10

男子酒吧上男厕所,一抬头发现面前有位美女,瞬间尿意全无

哗哗谈观点
2021-03-07 16:29:16

玉兔二号果真去调查那块“石碑”,专家称不寻常,结果如何?

火星一号
2021-03-07 04:24:15

身材曲线完美蚂蚁腰吸睛,38D罩杯健身教练,懒人健身法练起来

凹凸健身
2021-03-08 16:32:30

作为无锡历史上首个分管工业的女副市长,高亚光委员这样谈奋斗

新华报业网
2021-03-08 12:46:40

小厂这次成了,魅族18首销1分钟破亿,备货多三倍28分钟全网售罄

闻悦科技速览
2021-03-08 11:15:17

官宣坏消息:广东队又一大将赛季报销,夺总冠军只剩理论可能

体育委员刘老师
2021-03-07 22:46:42

男子割草割破手指,牛吃下染血的草,男子发财

牵住夕阳的手
2021-03-08 11:42:14
2021-03-08 18:01:06
大数据文摘
大数据文摘
专注大数据,每日有分享!
4129文章数 85025关注度
往期回顾 全部

科技要闻

体验总结|一年多卖百亿元的理想ONE怎么样

头条要闻

台网红扬言"将萝卜伪装成菠萝"卖大陆 果农哀嚎:完了

头条要闻

台网红扬言"将萝卜伪装成菠萝"卖大陆 果农哀嚎:完了

体育要闻

勒布朗打酱油 这俩新队友出尽风头

娱乐要闻

民国大小姐!刘诗诗新造型温婉动人

财经要闻

汽车要闻

车长超5米/配Meridian音响 起亚推K8车型

态度原创

本地
艺术
健康
旅游
游戏

本地新闻

三十岁之前女生应该懂得的是……

艺术要闻

2021春拍征集有何新看点

“驻颜”小心机让你拥有水嫩肌

旅游要闻

不为人知的黑冲村 就在云台山的深处

《怪物猎人 崛起》公布游戏预购特典护石效果