网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2022 Oral | 知识图谱的【开世界假设】如何影响模型评估?

0
分享至

论文链接: https://arxiv.org/abs/2209.08858 代码链接: https://github.com/GraphPKU/Open-World-KG

一、知识图谱推理和补全

知识图谱是一类存储结构化信息的数据结构,其中事物之间的关联以事实三元组(triplet)的形式保存。例如,一个地理信息知识图谱中就可能包括:(中国,首都,北京),用以表示中国的首都是北京。

通过将实体表示为节点,三元组表示为一条有向边,可以将知识图谱表示为一个图,故名知识图谱;图片来源网络

现有的知识图谱既有限定于某些具体领域的领域知识图谱,例如:医药知识图谱、地理知识图谱等,也有从网络维基百科中抽取的一般知识图谱。后者所包含的对象更多,关系更加复杂,较为知名的包括:YAGO知识图谱包括关于人物、城市、国家、组织和电影等的信息;WikiData则凭借着Wikipedia的广泛信息,拥有超过一亿个分属于不同类别的实体。

WikiData拥有超过一亿个对象的信息,图片来源:www.wikidata.org

知识图谱由于其结构化的存储方式,一个重要的应用是对知识进行自动推理。通过对存储信息的查询,知识图谱可以从某个实体出发,沿着某个特定的关系(谓词)寻找答案。这样的技术可以被用于问答系统、搜索引擎、专家系统等,为各类任务提供领域、常识和百科知识。

利用neo4j在知识图谱上进行可视化搜索

然而,由于知识图谱极大的规模和自动化生成的特点,其中可能存在信息缺失:即实际存在的事实可能没有被包含在知识图谱存储的三元组中。这种信息缺失将导致搜索无法得到完整的答案,影响知识图谱的应用。因此,知识图谱补全模型尝试通过在知识图谱的已有内容中进行学习,从而推理补充出知识图谱中缺失的事实。

某些缺失事实可以通过已标注事实推理补充,例如:总统的配偶即为第一夫人

二、知识图谱的开世界假设和开世界问题

注意到,知识图谱一般只会显式地记录正确事实,缺少对错误事实的标注。因此,考虑到知识图谱中存在缺失事实的情况,针对一条没有出现在记录中的三元组,使用者无法判断它属于不应被包含的错误事实,还是属于被遗漏的缺失事实。这被称为开世界假设(open-world assumption, OWA)。而这一假设的反面,被称为闭世界假设,则认为不存在的三元组必然对应于假事实。这对应于一个被完全构建的知识图谱。

开世界假设和闭世界假设的不同

在对知识图谱补全模型进行评估时,由于问题本身基于知识图谱非完全,应当使用开世界假设。然而,现有的评估流程都是基于闭世界假设的,即,对于没有包含在测试集中的答案,都判定为错误答案。因此,这里存在实际评估过程与采用假设的不匹配问题。本文指出这一不匹配可能会导致在现有的评估方法下,存在评估度量退化(degradation)和不一致(inconsistency) 的现象。作者将其称为开世界问题。

为了研究这一问题,作者通过将测试集中的事实缺失和训练模型的预测正确建模为两个随机事件,推导出在有缺失情况下的评估度量的期望随模型强度的变化。在可接受的误差范围内,作者证明了对于最常用的度量:平均倒数排名(mean reciprocal rank, MRR),其期望呈现为对模型强度的对数曲线。这会导致度量退化的问题:首先,对于能够完全预测正确的模型,评估度量的期望无法达到理论最大值;同时,度量的增长由于其对数趋势而过于平缓,无法准确呈现模型强度的增长。

这种退化加上数值实验呈现出的较大方差,可能导致度量不一致的问题。即对于实际强度更强的模型,其度量可能更差;因此会导致模型之间强弱的错误比较。更进一步地,如果考虑到以上两个随机事件的相关性,作者进一步证明了模型偏差的存在,即度量会倾向于为负相关(即对于在测试集中缺失的事实,模型也更容易预测错误)的模型给出更高的评价。这种期望的不一致性无法通过更多的测试样例解决。

为了验证上述理论结果,作者生成了一个信息完全的家族谱图(family tree)数据集,然后从中随机删去一些事实以模拟现实的缺失数据集。在该数据集上,作者训练了各类知识图谱补全模型,在不同的缺失程度下都观察到了上述的度量退化和不一致现象。

图例:如图所示的两个模型:M点代表的模型和红色线段上的一点代表的模型,在实际强度相差10%的情况下,评估度量给出了相反的结果。(横轴为模型实际强度,纵轴为在缺失数据集上的评估。)

最后,作者指出这种现象是由通常所采用的度量的“关注头部”(focus-on-top)的性质导致的。它要求度量对排序靠前的对象的位置变化更为敏感,这是为了模拟人类在进行评价时更为关注前置位的行为特点。然而,也正是这种敏感性使得在面对数据缺失时,度量会受到更严重的影响。为此,作者提出了一些更少“关注头部”的度量,并且基于理论和实验验证了这些度量的确可以减弱开世界问题对模型评估带来的影响。

最常见的MRR,具有明显的“关注头部”的性质

三、总结

该工作中,作者基于知识图谱的开世界假设,对常见的知识图谱补全的评估度量进行了数学上的推导和实验验证,证明了度量退化和不一致现象的存在;并指出了这种现象的原因在于度量的关注头部性质。作者提出应当考虑加入“更少关注头部”的度量作为结论的验证,以避免不准确和不公平的比较。用一句话总结,当前的知识图谱补全度量标准并不完美,可能会错误反应模型的强弱,本文指出了这一问题,给予了理论和实验上的验证并提出了一些解决方案。

作者‍: 杨昊桐 文章来源:公众号【北京大学人工智能研究院】 ‍

Illustratio n by IconScout store from Ico n Scout ‍

-TheEnd

扫码观看!

本周上新!

多家技术企业招聘来啦!

多家技术企业招聘来啦!有求必应的小将收集到来自TechBeat技术社群内技术企业的招人需求,包含来自微软亚研、腾讯、小红书等企业算法工程师等正式及实习岗位,欢迎有需求的大家向这些公司投递简历哦!

扫描了解详情~

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视警告!日本囤弹药备战台海,要是非要打,中国就能一劳永逸了

央视警告!日本囤弹药备战台海,要是非要打,中国就能一劳永逸了

寄予的清风
2026-06-25 10:50:09
目睹妈妈跳楼,12岁女儿报完案,从同一窗口跃下,就因为辅导作业…

目睹妈妈跳楼,12岁女儿报完案,从同一窗口跃下,就因为辅导作业…

犀利强哥
2026-06-25 02:13:25
今天又见证历史了

今天又见证历史了

贩财局
2026-06-25 16:26:59
精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

深度报
2026-02-11 23:35:03
A股:收盘后,传来两个重要信息,明天,周五或要这样走了!

A股:收盘后,传来两个重要信息,明天,周五或要这样走了!

明心
2026-06-25 16:28:42
今年夏天太反常!六月不热早晚凉,老话预兆别不当回事!

今年夏天太反常!六月不热早晚凉,老话预兆别不当回事!

爱下厨的阿酾
2026-06-24 16:45:27
《昨夜将至》开播炸了!感谢佟大为,让我在2026终于爽了一次

《昨夜将至》开播炸了!感谢佟大为,让我在2026终于爽了一次

八卦南风
2026-06-24 19:49:58
7换1豪赌!火箭得布里奇斯+9首轮签,这是要帮杜兰特冲冠?

7换1豪赌!火箭得布里奇斯+9首轮签,这是要帮杜兰特冲冠?

衔春信
2026-06-25 15:52:13
腾讯真搬走了,科兴房东天塌了?1.4万人已上企鹅岛

腾讯真搬走了,科兴房东天塌了?1.4万人已上企鹅岛

说故事的阿袭
2026-06-22 19:00:44
女总理,跪了!

女总理,跪了!

新动察
2026-06-25 10:35:19
中国外交官已撤离!比美国还嚣张的国家,不许统一,如今主动认错

中国外交官已撤离!比美国还嚣张的国家,不许统一,如今主动认错

青烟小先生
2026-06-25 16:51:28
端午应酬误入赌局,广州老板一夜输光加工厂

端午应酬误入赌局,广州老板一夜输光加工厂

辉哥说动漫
2026-06-25 11:53:14
搞笑,里夫斯得知与湖人队签1.85亿美元合同,直接躺高尔夫球场上

搞笑,里夫斯得知与湖人队签1.85亿美元合同,直接躺高尔夫球场上

好火子
2026-06-25 05:17:39
打破古月唐国强垄断!新版毛主席出场,终于迎来“新打开方式”

打破古月唐国强垄断!新版毛主席出场,终于迎来“新打开方式”

小影的娱乐
2026-06-25 12:04:52
中纪委怒批:公务员也是人,正常生活不应问责处理!

中纪委怒批:公务员也是人,正常生活不应问责处理!

细说职场
2026-06-24 10:55:30
中午还一起喝酒,晚上就被朋友酒瓶砸头,男子次日凌晨车内离世;警方已立案

中午还一起喝酒,晚上就被朋友酒瓶砸头,男子次日凌晨车内离世;警方已立案

大风新闻
2026-06-24 18:42:20
太沉重了!一张殡仪馆的电子显示屏8位逝者,有6人未能活到55岁

太沉重了!一张殡仪馆的电子显示屏8位逝者,有6人未能活到55岁

火山詩话
2026-06-12 08:54:20
2.4T混动!丰田新车曝光:7月预售!

2.4T混动!丰田新车曝光:7月预售!

手机评测室
2026-06-25 12:12:02
罗马诺:楚阿梅尼年薪极高,曼联现阶段在财务层面无法承担

罗马诺:楚阿梅尼年薪极高,曼联现阶段在财务层面无法承担

懂球帝
2026-06-25 17:22:12
深圳一小区电梯亡人事故:多人被追责,履职线索移送纪委监委

深圳一小区电梯亡人事故:多人被追责,履职线索移送纪委监委

南方都市报
2026-06-25 14:58:07
2026-06-25 18:31:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2413文章数 596关注度
往期回顾 全部

科技要闻

宇树机器人大降价

头条要闻

重卡司机称换不起85万的纯电重卡:追平45万差价要5年

头条要闻

重卡司机称换不起85万的纯电重卡:追平45万差价要5年

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

净利润涨近15倍!美光再次引爆行情

汽车要闻

2027款星途ES 天马1:11:36背后的实力

态度原创

房产
亲子
手机
数码
健康

房产要闻

万万没想到 这家国企造的住宅竟成了区域顶流!

亲子要闻

广东发放托育券最高2000元,深圳有56家托育机构可用

手机要闻

曝苹果iPhone Ultra 2第二代阔折叠立项确定,Air 3还没开模

数码要闻

红魔游戏平板5 Pro支持全新PC模拟器 爽玩3A大作 自带加速器

医生如何快速诊断脑梗和脑出血?

无障碍浏览 进入关怀版