网易首页 > 网易科技 > 网易科技 > 正文

谷歌让机器更懂语言的精深 发布最大消歧语料库

0
分享至

(原标题:谷歌让机器更懂语言的博大精深,发布最大消歧语料库)

本文作者:奕欣

理解语言的核心自然是了解词语在文本中的不同含义。雷锋网(公众号:雷锋网)先说个中文笑话先:

领导:「你这是什么意思?」

下属:「没什么意思,意思意思。」

领导:「你这就不够意思了。」

下属:「小意思,小意思。」

领导:「你这人真有意思。」

下属:「其实也没有别的意思。」

领导:「那我就不好意思了。」

下属:「是我不好意思。」

如果让机器来理解这些到底是什么意思,想必它也会头疼的吧。

谷歌让机器更懂语言的博大精深,发布最大消歧语料库

那么用相对简单的英文?也没有那么简单。毕竟一个单词可能包括数十个意思。

举个例子:「he will receive stock in the reorganized company」,这个句子中,我们结合上下词就能知道,「stock」在这里是股票的意思,我们可以从牛津字典中找到更为专业的解释。

但是同样在牛津字典中,stock这个词还有超过10个不同的含义,比如「(商店里的)库存」或是「(鞭子、钓竿等的) 柄」。对于计算机算法而言,如何从博大精深的含义中找寻某个句子中对应的词义?这的确是一个词义消歧难题,也就是AI-Complete问题。

雷锋网消息,今天谷歌研究院又发出了重磅新闻,他们发布了基于MASC&SemCor数据集的大规模有监督词义消歧语料。这些语料会与牛津字典上的例句做映照,广泛适用于各个社区。与此同时,本次发布也是最大的全句释义语料库之一。

有监督词义消歧

人们通过对句子中词语的内容进行理解,因为我们能通过常识判断上下文的含义。比如同样一个例子,「『stock』 in a business」代表的自然是股票的意思,而「『stock』 in a bodega」更有可能是库存的意思,即使这里的bodega也可能指酒窖生意。我们希望为机器提供足够的背景信息,并应用于理解文本中词语的含义。

有监督词义消歧(WSD)尝试解决这一问题,也就是让机器学习使用人工标记的数据,并与字典中的词语所代表的典型含义匹配。我们希望构建这样的一个监督模型,能够不考虑复杂语境,并匹配句中单词在词典中最可能表达的含义。虽然这一点富有挑战,但监督模型在大量训练数据支持下表现良好。

通过发布数据集,我们希望社区能够提出更好的算法,让机器对自然语言产生更深刻的理解,支持以下的应用:

从文本中自动搭建数据库存,这样一来,机器可以回答问题,并将文档中的知识串联起来。举个例子,机器在经过学习后,明白「hemi engine」指的是一种自动化的机械;而「locomotive engine」则与火车有关。也能理解「Kanye West is a star」指的是名人的意思;而「Sirius is a star」则是天文学概念。

消除歧义。我们希望让文本在查询中能够呈现不同的含义,避免张冠李戴,与此同时还能返回具有相关语义的文档。

人工注释

在我们人工标记的数据集中,每一个词义注释都由五个评估者进行审核。为了确保质量,这些评估者会进行训练(gold annotation),即让语言学家们对一些研究样本进行标记。以下是我们的标记页面。

谷歌让机器更懂语言的博大精深,发布最大消歧语料库

在页面左边呈现的是general的常用词义及例句,在右侧的文本中,general一词会高亮显示。除了匹配词义外,评估者还能对词语进行判断,可以指出包括「拼写错误」、「上述情况都不符合」、「不确定」等三种情况。此外,评估者可以对一些含有隐喻的词语进行标记并评论。

这些人工的词义标注采用了Krippendorff's alpha (α >= 0.67则具有一定可信度,α >= 0.80则表示具有很高的可信度) 进行判断,结果显示得分为0.869。雷锋网认为这是一个非常不错的成绩了。

谷歌让机器更懂语言的博大精深,发布最大消歧语料库

Wordnet Mappings

与此同时,谷歌也发布了两个从牛津词典到Wordnet的映射。小的数据集中含有2200个单词,而大的数据集则是算法构建的。这两个映射内容能够更好地将Wordnet 的内容应用于牛津词典的语料库中,也能够在使用过程中实现系统的构建。

以上研究成果已经收录在「Semi-supervised Word Sense Disambiguation with Neural Models」中,主要采用的是 LSTM 语言处理模型及半监督学习算法。

Via google blog,雷锋网编译

相关推荐
热点推荐
历史开了个玩笑,第一个倒下的不是乌克兰,而是百年中立的瑞士

历史开了个玩笑,第一个倒下的不是乌克兰,而是百年中立的瑞士

壹知眠羊
2025-12-15 07:11:38
泰国发现情况不对,第三国势力进场帮柬埔寨?泰军用中文发表声明

泰国发现情况不对,第三国势力进场帮柬埔寨?泰军用中文发表声明

阅识
2025-12-13 14:15:51
广东公示:陈杰、刘胜拟任地级市市委书记

广东公示:陈杰、刘胜拟任地级市市委书记

澎湃新闻
2025-12-14 20:42:26
60岁以后打断筋都不要做的14件事,做三件就糊涂到家了,马上收藏

60岁以后打断筋都不要做的14件事,做三件就糊涂到家了,马上收藏

情感大使馆
2025-12-01 10:40:53
好莱坞知名反派男星去世,曾出演《变相怪杰》

好莱坞知名反派男星去世,曾出演《变相怪杰》

扬子晚报
2025-12-15 10:10:45
山东2家大型医院破产了!

山东2家大型医院破产了!

莱芜福禧今日信息
2025-12-15 06:32:31
长津湖战役结束后,宋时轮严肃整顿部队,下令枪毙了两名营级干部

长津湖战役结束后,宋时轮严肃整顿部队,下令枪毙了两名营级干部

兴趣知识
2025-12-15 15:08:48
别再误解副高五级!教师退休金9千和1万8的差距,原来差在这4点

别再误解副高五级!教师退休金9千和1万8的差距,原来差在这4点

前沿天地
2025-12-15 09:04:07
钱再多有啥用?巩俐带77岁老公回北京,雪中骑一辆车,笑容藏不住

钱再多有啥用?巩俐带77岁老公回北京,雪中骑一辆车,笑容藏不住

洲洲影视娱评
2025-12-13 19:57:10
在西班牙慢生活住了6个月 我只看见穷和累

在西班牙慢生活住了6个月 我只看见穷和累

纪元新观察
2025-12-15 06:38:43
喜讯!上港又要为国足准备一份归化大礼?巴西锋霸入籍时间敲定

喜讯!上港又要为国足准备一份归化大礼?巴西锋霸入籍时间敲定

张丽说足球
2025-12-15 10:55:32
火箭替补席变天!锋线双铁闸回归,3人或被雪藏,豪华2阵即将出炉

火箭替补席变天!锋线双铁闸回归,3人或被雪藏,豪华2阵即将出炉

熊哥爱篮球
2025-12-15 12:03:17
拔火罐吸出来的瘀血,是体内的毒素?告诉你大实话,看完涨知识

拔火罐吸出来的瘀血,是体内的毒素?告诉你大实话,看完涨知识

全球军事记
2025-12-11 20:47:33
俞家亲戚开撕,怒指王晓晨心机,俞灏明豪门梦碎!

俞家亲戚开撕,怒指王晓晨心机,俞灏明豪门梦碎!

176翠翠
2025-12-14 13:37:43
《阿凡达3》预售票房破3000万元,博纳影业股价跌停

《阿凡达3》预售票房破3000万元,博纳影业股价跌停

界面新闻
2025-12-15 17:00:07
1-2!武汉女足冠军杯遭逆转+加时被绝杀 无缘过招欧冠霸主阿森纳

1-2!武汉女足冠军杯遭逆转+加时被绝杀 无缘过招欧冠霸主阿森纳

我爱英超
2025-12-15 05:31:28
飞天茅台大反攻!批价两天涨近100元!电商平台1399元没了

飞天茅台大反攻!批价两天涨近100元!电商平台1399元没了

新浪财经
2025-12-14 17:24:02
斯大林与朱可夫吵架,侍卫长打了朱可夫两耳光,保住了朱可夫性命

斯大林与朱可夫吵架,侍卫长打了朱可夫两耳光,保住了朱可夫性命

古书记史
2025-12-11 22:19:33
偶遇:琥珀中的一瞥

偶遇:琥珀中的一瞥

疾跑的小蜗牛
2025-12-14 23:18:03
博主发中超最不受欢迎球迷榜:第一并非申花国安,第二竟是升班马

博主发中超最不受欢迎球迷榜:第一并非申花国安,第二竟是升班马

体坛鉴春秋
2025-12-15 16:17:47
2025-12-15 17:35:00

科技要闻

平价数码产品,要和我们说再见了?

头条要闻

上周有菲方人员持刀威胁中方执法海警 外交部回应

头条要闻

上周有菲方人员持刀威胁中方执法海警 外交部回应

体育要闻

战胜完全体雷霆,马刺“疯狂动物城”只是半成品

娱乐要闻

黄绮珊在何晴去世首发,10年悄悄祈福

财经要闻

新农合涨到400元 农民断缴背后的扎心真相

汽车要闻

主驾配按摩还可选6座 新款捷途X90PRO售13.59万起

态度原创

旅游
游戏
亲子
手机
房产

旅游要闻

哈尔滨冰雪大世界官宣开园,相关搜索热度暴涨5倍

《FF7:永恒危机》爱丽丝性感联动服装遭修改引不满

亲子要闻

amh值低有补救的办法吗?试管促排期间注意哪些事项?

手机要闻

iPhone惊现显示Bug:安卓手机照片在iOS26上放大变红

房产要闻

6.66亿摘地,海南封关大动作,千亩海澄新城震撼登场

无障碍浏览 进入关怀版
×