网易首页 > 网易号 > 正文 申请入驻

NLP新里程碑!清华姚班毕业生发布KEAR:首次常识问答超越人类

0
分享至

新智元报道

编辑:LRS 好困

【新智元导读】以后再也不能说人类比AI还懂常识了!最近由微软黄学东坐镇,清华姚班毕业生发布了一个新系统KEAR,成功刷榜各大常识问答排行榜,常识问答性能首次超越人类,甚至非英文的常识他也懂!

AI模型一直为人诟病的一点就是只会「死学习」,只能根据给定的训练样本来进行预测,稍微问一点「常识性」的问题它都回答不了。

比如你问GPT-3:太阳有几个眼睛?

它会毫不犹豫的告诉你:当然是一个眼睛!

虽然常识信息没有体现在输入文本中,但如果不懂常识的话,那回答只能是驴唇不对马嘴。

为了解决这类常识性错误,研究人员借助ConceptNet建立了一个专门针对常识问答的数据集CommonsenseQA,要求模型必须得了解常识才能够正确回答问题。

每个问题包含五个候选答案,其中有两个是干扰项,对AI模型来说属于是难上加难了。

例如给定一个问题:你的狗喜欢吃什么?(What is a treat that your dog will enjoy?)

候选答案可能是沙拉(salad)、抚摸(petted)、喜爱(affection)、骨头(bone)、关心(lots of attention)等。人在与狗交往的过程中,可以了解到大部分狗都喜欢吃骨头,从而推理出你的狗在候选答案中也更倾向于骨头,但AI模型并不懂。

所以想要正确回答这个问题,必须要懂得如何利用外部知识。

然后CommonsenseQA的作者拿了一个当时横扫各大排行榜的模型BERT-LARGE来做测试,结果惨不忍睹,准确率只有55.9%,而人类的回答准确率已经达到了88.9%了。

时间来到三年后,最近来自微软的华人团队发表了一篇论文,提出了一个KEAR(Knowledge External Attention for commonsense Reasoning)系统,将CommonsenseQA常识问答的性能抬到了新高度,准确率达到89.4%,成功超越人类,堪称AI常识领域的里程碑模型了。

相比传统AI模型需要大规模数据来训练,这篇论文提出了一种外部注意力机制(external attention mechanism)来增强Transformer架构,能够把外部知识信息集成到预测的过程中,从而减少了模型对大参数量的需求,让AI系统更加民主化(democratization),也就是说可以降低AI模型研究的门槛,不用从老黄那买特别多的显卡,也能实现SOTA性能。

大体来说,KEAR模型在回答「你的狗喜欢吃什么」这个问题的时候,它会首先从ConceptNet实体链中检索出「狗— desires — petted, affection, bone, lots of attention」,这样就排除了一个错误答案沙拉。

然后KEAR会从Wiktionary中检索出骨头的定义:构成大多数脊椎动物骨架的复合材料(a composite material making up the skeleton of most vertebrates);

从CommonsenseQA数据集中的训练数据中检索出「狗喜欢吃什么?骨头」(What do dogs like to eat? bones)。

再将检索到的知识和输入的知识进行级联后,KEAR将其作为DeBERTa模型的输入,最后可以推理出正确答案:骨头!

可以看到,对于人类来说最简单的一个问题,AI模型要完成却需要大量的外部信息才能正确回答。

由于CommonsenseQA只是英文常识问答的数据,文中还探索了一下其他语言的常识推理是否依然有效。

研究人员首先将非英语问题翻译成英语,然后在英语的语料数据中检索知识,然后将知识文本翻译成源语言,经过外部注意力机制后再翻译获得答案,即翻译-检索-翻译(TRT)。

结果也是在X-CSR基准上的两个任务X-CODAH和X-CSQA都取得了第一名。

不止于自注意力

时至今日,大部分AI模型基本都在源文本上使用自注意力机制,通过把大量的数据喂给模型进行训练,从而使模型记住输入的文本。

虽然Transformer的效果很好,但缺点也很明显:


  1. 时间和空间复杂度太高,需要大量的显卡和显存

  2. 数据量不够的情况下,Transformer表现不够好


另一方面,Transformer本质上还是黑盒模型,没办法让他像人类一样进行文本理解和推理,知道AI为什么产生这样的预测是很重要的,KERA通过利用知识图谱、字典和公开可用的机器学习数据的常识性知识,能够一定程度地反应答案的来源及模型推理过程。

外部注意力的实现方法也很简单,将输入(input)和知识(knowledge)级联起来作为新的输入,然后将整体作为H0经过自注意力机制即可。

其中K(nowledge)的来源包括知识图谱ConceptNet, 字典和训练数据。

可以看到,自注意力和外部注意力的主要区别就是输入是否只来源于输入文本,即通过向外部注意力机制提供不同来源的相关背景和知识,包括知识图谱、字典、语料库和其他语言模型的输出,然后让模型同时对输入进行自注意力和对知识进行外部注意力,就能达到引入外部知识的效果。

引入的外部信息以符号(symbol)的方式存储,如纯文本或知识图谱条目,从而能够提升Transformer在语言理解方面的能力。

并且KEAR使用的输入和知识的文本级联不会对Transformer模型结构产生任何改变,使现有的系统可以很容易地使用外部注意力。

因为世界上的知识也是在动态变化的,所以外部注意力的另一个好处是,用户可以很容易地更新知识源来改变模型的预测输出。

通过引入最新的常识,例如将在线更新的知识图谱输入到模型中,可以使模型的决策过程变得更加透明和可解释。

而用多模块联合优化、加上外注意力引入知识库也是微软人工智能认知服务提质量的核心方向。

作者介绍

文章的第一作者是徐一翀,本科毕业于清华大学姚班,于卡内基梅隆大学取得博士学位,主要研究方向为交互式机器学习,自然语言处理和深度学习。目前是微软AI Cognitive Services研究组的高级研究员。

朱晨光是微软认知服务研究组的首席研究负责人。他领导知识和语言团队,从事文本总结、知识图谱和面向任务的对话方面的研发工作。他于2016年在斯坦福大学获得计算机科学博士学位和统计学硕士学位,在此之前于清华大学姚班获得计算机科学学士学位。

黄学东是微软AI认知服务工程和研究团队的领导人,IEEE/ACM院士(IEEE/ACM Fellow) ,微软首位「华人全球技术院士」、微软首席语音科学家、微软云计算与人工智能事业部认知服务团队全球技术院士/全球人工智能首席技术官。他先后获得湖南大学学士学位,清华大学硕士学位和英国爱丁堡大学博士学位。

参考资料:

https://arxiv.org/abs/2112.03254

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
牛!乌克兰英雄在地下掩体里坚持作战了471天

牛!乌克兰英雄在地下掩体里坚持作战了471天

老马拉车莫少装
2026-03-21 00:10:44
伊朗退了,叙利亚退了,巴勒斯坦退了,黎巴嫩退了,塞尔维亚退了

伊朗退了,叙利亚退了,巴勒斯坦退了,黎巴嫩退了,塞尔维亚退了

南权先生
2026-01-29 15:57:27
0-3惨败:上海女排被江苏横扫,蔡斌难辞其咎!一手好牌打得稀烂

0-3惨败:上海女排被江苏横扫,蔡斌难辞其咎!一手好牌打得稀烂

金毛爱女排
2026-03-28 18:06:02
毛主席曾预言:这两个国家将来对中国最大威胁,如今果然应验

毛主席曾预言:这两个国家将来对中国最大威胁,如今果然应验

锅锅爱历史
2026-03-27 10:28:43
表决结果出炉,60比49,赖尴尬了!黄国昌329上凯道,多蓝委出席

表决结果出炉,60比49,赖尴尬了!黄国昌329上凯道,多蓝委出席

混沌录
2026-03-28 19:42:42
张靓颖“零透光”裙惊爆热搜,性感曲线令全场屏息,时尚女王?

张靓颖“零透光”裙惊爆热搜,性感曲线令全场屏息,时尚女王?

娱乐领航家
2025-10-28 22:00:07
难怪医药股暴涨,龙头利润暴涨352%,5个龙头利润翻倍,17股大增

难怪医药股暴涨,龙头利润暴涨352%,5个龙头利润翻倍,17股大增

风风顺
2026-03-28 20:35:18
为什么印度男人,如此性饥渴?

为什么印度男人,如此性饥渴?

透视到底
2026-02-13 02:06:10
1-1!中国队点球逼平朝鲜,造点细节与判罚引争议

1-1!中国队点球逼平朝鲜,造点细节与判罚引争议

体育一点就通
2026-03-28 23:28:43
中东实战打出真相!伊朗越猛越显中国实力,美军彻底慌了神

中东实战打出真相!伊朗越猛越显中国实力,美军彻底慌了神

小舟谈历史
2026-03-28 04:42:18
一旦开战,中国若发射一枚东风41,得付出多大的代价?

一旦开战,中国若发射一枚东风41,得付出多大的代价?

小正说娱乐
2026-03-19 18:51:30
不婚不育会被亲戚惦记财产吗?网友:我死之前花完,谁也别惦记

不婚不育会被亲戚惦记财产吗?网友:我死之前花完,谁也别惦记

带你感受人间冷暖
2026-03-14 00:10:08
87歲劉詩昆皆太太6年前得子,今罕有露面精神飽滿身體依舊健壯

87歲劉詩昆皆太太6年前得子,今罕有露面精神飽滿身體依舊健壯

粤睇先生
2026-03-29 02:00:03
震惊!网传武汉一酒店2205房,公示多位知名艺人曾入住,引发热议

震惊!网传武汉一酒店2205房,公示多位知名艺人曾入住,引发热议

火山詩话
2026-03-28 07:30:57
癌症术后有两个坎,熬过了可以多活30年,肿瘤患者一定要知道!

癌症术后有两个坎,熬过了可以多活30年,肿瘤患者一定要知道!

健康之光
2026-03-20 21:10:05
20000,疯了

20000,疯了

放毒
2026-03-11 17:04:33
他是香港传奇富豪,定居美国,作风高调张扬,与4婚妻子恩爱非常

他是香港传奇富豪,定居美国,作风高调张扬,与4婚妻子恩爱非常

乐天闲聊
2026-03-28 10:25:15
深℃丨宁夏“网红局长”落马

深℃丨宁夏“网红局长”落马

宁夏猛将兄
2026-03-28 17:01:25
张雪峰骨灰将运回老家下葬:两任妻子现身追悼会,女儿痛哭惹人怜

张雪峰骨灰将运回老家下葬:两任妻子现身追悼会,女儿痛哭惹人怜

博士观察
2026-03-28 16:28:02
利润380亿股价却腰斩,一年两次分红股息率5%,市盈率仅10倍

利润380亿股价却腰斩,一年两次分红股息率5%,市盈率仅10倍

投资观
2026-01-06 07:10:03
2026-03-29 02:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14837文章数 66720关注度
往期回顾 全部

科技要闻

华为盘古大模型负责人王云鹤确认离职

头条要闻

伊朗议长:伊朗将加速以军崩溃

头条要闻

伊朗议长:伊朗将加速以军崩溃

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

陈牧驰陈冰官宣得子 晒一家三口握拳照

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

游戏
亲子
时尚
本地
军事航空

《异替》现已登陆Steam

亲子要闻

小孩子能口无遮拦到什么程度!网友:恨不得当场找个地缝钻进去

和田曦薇一样嫩嘟嘟,这3个变美技巧你一定不能错过!

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

军事要闻

美军中东基地损失最新披露

无障碍浏览 进入关怀版