网易首页 > 网易科技 > 网易科技 > 正文

谷歌让机器更懂语言的精深 发布最大消歧语料库

0
分享至

(原标题:谷歌让机器更懂语言的博大精深,发布最大消歧语料库)

本文作者:奕欣

理解语言的核心自然是了解词语在文本中的不同含义。雷锋网(公众号:雷锋网)先说个中文笑话先:

领导:「你这是什么意思?」

下属:「没什么意思,意思意思。」

领导:「你这就不够意思了。」

下属:「小意思,小意思。」

领导:「你这人真有意思。」

下属:「其实也没有别的意思。」

领导:「那我就不好意思了。」

下属:「是我不好意思。」

如果让机器来理解这些到底是什么意思,想必它也会头疼的吧。

谷歌让机器更懂语言的博大精深,发布最大消歧语料库

那么用相对简单的英文?也没有那么简单。毕竟一个单词可能包括数十个意思。

举个例子:「he will receive stock in the reorganized company」,这个句子中,我们结合上下词就能知道,「stock」在这里是股票的意思,我们可以从牛津字典中找到更为专业的解释。

但是同样在牛津字典中,stock这个词还有超过10个不同的含义,比如「(商店里的)库存」或是「(鞭子、钓竿等的) 柄」。对于计算机算法而言,如何从博大精深的含义中找寻某个句子中对应的词义?这的确是一个词义消歧难题,也就是AI-Complete问题。

雷锋网消息,今天谷歌研究院又发出了重磅新闻,他们发布了基于MASC&SemCor数据集的大规模有监督词义消歧语料。这些语料会与牛津字典上的例句做映照,广泛适用于各个社区。与此同时,本次发布也是最大的全句释义语料库之一。

有监督词义消歧

人们通过对句子中词语的内容进行理解,因为我们能通过常识判断上下文的含义。比如同样一个例子,「『stock』 in a business」代表的自然是股票的意思,而「『stock』 in a bodega」更有可能是库存的意思,即使这里的bodega也可能指酒窖生意。我们希望为机器提供足够的背景信息,并应用于理解文本中词语的含义。

有监督词义消歧(WSD)尝试解决这一问题,也就是让机器学习使用人工标记的数据,并与字典中的词语所代表的典型含义匹配。我们希望构建这样的一个监督模型,能够不考虑复杂语境,并匹配句中单词在词典中最可能表达的含义。虽然这一点富有挑战,但监督模型在大量训练数据支持下表现良好。

通过发布数据集,我们希望社区能够提出更好的算法,让机器对自然语言产生更深刻的理解,支持以下的应用:

从文本中自动搭建数据库存,这样一来,机器可以回答问题,并将文档中的知识串联起来。举个例子,机器在经过学习后,明白「hemi engine」指的是一种自动化的机械;而「locomotive engine」则与火车有关。也能理解「Kanye West is a star」指的是名人的意思;而「Sirius is a star」则是天文学概念。

消除歧义。我们希望让文本在查询中能够呈现不同的含义,避免张冠李戴,与此同时还能返回具有相关语义的文档。

人工注释

在我们人工标记的数据集中,每一个词义注释都由五个评估者进行审核。为了确保质量,这些评估者会进行训练(gold annotation),即让语言学家们对一些研究样本进行标记。以下是我们的标记页面。

谷歌让机器更懂语言的博大精深,发布最大消歧语料库

在页面左边呈现的是general的常用词义及例句,在右侧的文本中,general一词会高亮显示。除了匹配词义外,评估者还能对词语进行判断,可以指出包括「拼写错误」、「上述情况都不符合」、「不确定」等三种情况。此外,评估者可以对一些含有隐喻的词语进行标记并评论。

这些人工的词义标注采用了Krippendorff's alpha (α >= 0.67则具有一定可信度,α >= 0.80则表示具有很高的可信度) 进行判断,结果显示得分为0.869。雷锋网认为这是一个非常不错的成绩了。

谷歌让机器更懂语言的博大精深,发布最大消歧语料库

Wordnet Mappings

与此同时,谷歌也发布了两个从牛津词典到Wordnet的映射。小的数据集中含有2200个单词,而大的数据集则是算法构建的。这两个映射内容能够更好地将Wordnet 的内容应用于牛津词典的语料库中,也能够在使用过程中实现系统的构建。

以上研究成果已经收录在「Semi-supervised Word Sense Disambiguation with Neural Models」中,主要采用的是 LSTM 语言处理模型及半监督学习算法。

Via google blog,雷锋网编译

相关推荐
热点推荐
商务部:1-3月全国吸收外资3016.7亿元人民币

商务部:1-3月全国吸收外资3016.7亿元人民币

每日经济新闻
2024-04-19 17:29:23
日本自己把救命的路给堵死了。

日本自己把救命的路给堵死了。

星辰故事屋
2024-04-18 20:14:39
英媒:伊朗袭击期间以色列空军控制室画面被公开,“当时正进行首次拦截”

英媒:伊朗袭击期间以色列空军控制室画面被公开,“当时正进行首次拦截”

环球网资讯
2024-04-17 08:23:33
国家医保局价格招采专家组组长章明被调查

国家医保局价格招采专家组组长章明被调查

经济观察报
2024-04-18 17:31:09
女性高潮有哪些表现方式,男人请你别再骗自己了

女性高潮有哪些表现方式,男人请你别再骗自己了

皮皮讲文
2024-01-03 10:27:49
浙江夫妻从来不上班,每月流水上亿元,被抓后警方查出涉案220亿

浙江夫妻从来不上班,每月流水上亿元,被抓后警方查出涉案220亿

文人讲史
2024-04-19 10:27:12
陈梦时代落幕?巴黎周期冠军大盘点,孙颖莎、王曼昱完成统治!

陈梦时代落幕?巴黎周期冠军大盘点,孙颖莎、王曼昱完成统治!

宝哥精彩赛事
2024-04-06 07:10:09
利好!调降交易佣金费率,比降花税还管用?A股下周迎来变盘了?

利好!调降交易佣金费率,比降花税还管用?A股下周迎来变盘了?

郭小凡财经
2024-04-19 19:46:45
眼看要举行就职典礼,赖清德突然收到噩耗,中美一通电话震动全球

眼看要举行就职典礼,赖清德突然收到噩耗,中美一通电话震动全球

戎评说
2024-04-19 11:45:53
国奥2名留洋球员均坐在替补席,韩国国奥单留洋球员首发

国奥2名留洋球员均坐在替补席,韩国国奥单留洋球员首发

懂球帝
2024-04-19 20:28:16
抛弃激光雷达?华为重大宣布!完全超越特斯拉!

抛弃激光雷达?华为重大宣布!完全超越特斯拉!

吃鱼思故渊
2024-04-17 21:53:38
汪小菲堵学校门口见孩子,情绪伤感抹泪,网曝大S二审败诉了

汪小菲堵学校门口见孩子,情绪伤感抹泪,网曝大S二审败诉了

萌神木木
2024-04-19 15:32:16
笑不活了!摄像头再立功,男女办公室亲热全程被拍,评论区很炸裂

笑不活了!摄像头再立功,男女办公室亲热全程被拍,评论区很炸裂

阿莱美食汇
2024-04-19 19:08:58
股市大事件!高层下达死命令拯救A股,下周周一行情要一飞冲天?

股市大事件!高层下达死命令拯救A股,下周周一行情要一飞冲天?

一树梨花红
2024-04-20 04:05:03
谷歌工程师杀妻案将再开庭 分析:上次出庭穿着表明,他或被关押在监狱精神病房

谷歌工程师杀妻案将再开庭 分析:上次出庭穿着表明,他或被关押在监狱精神病房

红星新闻
2024-04-19 19:17:18
以色列空袭伊朗多地之后 伊朗:毫发无损 必将让对方知道厉害

以色列空袭伊朗多地之后 伊朗:毫发无损 必将让对方知道厉害

三界见闻
2024-04-19 14:38:47
4月19日,吴亦凡冲上热搜!

4月19日,吴亦凡冲上热搜!

娱圈小愚
2024-04-19 16:01:34
以开始按之前预断方式攻击伊朗,伊防空形同虚设,这应该只是开始

以开始按之前预断方式攻击伊朗,伊防空形同虚设,这应该只是开始

邵旭峰域
2024-04-19 12:17:05
官宣!广东再新增一所新大学,今年9月开学

官宣!广东再新增一所新大学,今年9月开学

南方都市报
2024-04-19 16:56:24
33岁郑爽最新近照曝光!医美失败脸全垮了,暴瘦似纸片人十分憔悴

33岁郑爽最新近照曝光!医美失败脸全垮了,暴瘦似纸片人十分憔悴

郑丁嘉话
2024-04-19 11:42:52
2024-04-20 06:40:49

科技要闻

最沉默的李想,最便宜的理想

头条要闻

媒体:以色列对伊朗的反报复刀刀见血 要真的打痛伊朗

头条要闻

媒体:以色列对伊朗的反报复刀刀见血 要真的打痛伊朗

体育要闻

米切尔这次对线不会输了吧

娱乐要闻

北影节开幕之夜,内娱女星千娇百媚

财经要闻

新华资管香港的秘密:猛投地产或致巨亏

汽车要闻

风神L7预售 东风汽车北京车展阵容公布

态度原创

手机
教育
数码
公开课
军事航空

手机要闻

一加Ace3 Pro再次被确认:骁龙8 Gen3+1TB,家族式设计也改了!

教育要闻

放假通知:2024年中小学暑假安排出炉,家长又犯愁了

数码要闻

三星Neo QLED 8K QN900D体验:4K内容秒变8K 片源不再是问题

公开课

睡前进食会让你发胖吗?

军事要闻

以军打击伊朗7处目标 伊拉克等地上空出现大量战机

无障碍浏览 进入关怀版
×