网易首页 > 网易号 > 正文 申请入驻

知识图普嵌入技术的极简教程:KGE以及如何计算它们

0
分享至

图是我最喜欢使用的数据结构之一,它们可以使我们能够表示复杂的现实世界网络,如快速交通系统(例如,公交道路、地铁等)、区域或全球空中交通,或者人们的社交网络之类的相关事物。并且他们非常灵活,很容易被人类理解,但是为了让计算机“理解”和“学习”它们,我们需要额外的一步(称为矢量化)。 这种解释可能过于简单,我们将在本人的后续部分详细解释。

知识图谱有何特别之处?

为了轻松理解知识图与其他图的不同之处,我们想象一个具有不同级别的游戏,随着游戏的深入,每个级别都会变得困难。

Level 1:可以是一个简单的无向图,比如大学里的朋友群,朋友是节点,朋友之间的关系是边。这里我们只有节点和边,没有什么太花哨的。

Level 2:在上一层的基础上增加一层信息,比如方向,这样我们就得到有向图。一个简单的例子是城市范围的公交网络。将公共汽车站视为节点,将公共汽车的路线视为边,每辆公共汽车都以特定的方向从一个站点移动到另一个站点,这就是增加了方向信息。

Level 3:我们采用有向图并向节点和边添加多种属性。想象一下互联网上的社交网络,节点上的属性是用户所基于的社交网络类型。例如,它可以是 Twitter、Facebook 或 YouTube。边的属性可以是不同用户之间的交互类型,即关注(在 Twitter 的情况下)、朋友或关注(在 Facebook 的情况下)和订阅(在 YouTube 的情况下)。图的有向性在这里开始发挥作用,因为上面这些属性只能是单向的(相互关注就是有两条边)。例如,你可以关注 Elon Musk,但他可能不会在 Twitter 上关注你,这就是有一条向的边。

Level 4:上一级中的图中,不使用节点和边,而是使用三元组进行表示:三元组是知识图谱的构建块,它是由 3 个元素组成的元组,即:源节点(头)、关系和目标节点(尾)。

这就是我们所说的知识图谱了,源节点和目标节点有时也被称为实体。

“知识图谱”一词的使用有点含糊,因为知识图谱没有固定的定义,从广义上讲可以将任何包含一些知识/重要信息的相当大的图称为知识图谱。这里的关键点是我们将三元组作为知识图谱的基本组成部分。

知识图谱嵌入方法

因为向量化或嵌入(实体的数字表示和图之间的关系表示)对于使用图作为机器学习算法的输入是必要的。我们对知识图谱的处理方式与其他机器学习模型不同,所以我们需要不同的技术来学习它们的数值表示(或嵌入)。生成知识图嵌入 (KGE) 的方法有多种,我们可以大致分为 3 个部分:

1、基于翻译的方法:

使用基于距离的函数(在欧几里得空间中)用于生成嵌入。我们可以建立一个简单的算法使头向量和关系向量的组合等于尾向量。它可以表示为 h + r ≈ t。这种算法称为 TransE。相同算法还有其他版本,但对它的修改很少。一些示例包括 TransH、TransR、TransD、TransSparse 和 TransM。

2、基于分解的方法:

这是基于张量分解的想法,使用这种技术提出的初始算法是 RESCAL。三向张量以 n x n x m 的形式定义,其中 n 是实体的数量,m 是关系的数量。张量保持值 1 表示实体之间存在关系, 0表示不存在则。

通过分解这个张量来计算嵌入。但是对于大型图这通常在计算上非常的费时所以出现了很多基于 RESCAL 理念的 DistMult、HolE、ComplEx 和 QuatE 等算法优化解决计算量问题。

3、基于神经网络的方法:

神经网络现在在许多领域都很流行,它们被用于查找KGE也就是很正常的事情了。Semantic Matching Energy它定义了一个能量(energy )函数,用于通过使用神经网络为三元组分配一个值。神经张量网络(Neural Tensor Network)使用能量函数,但它用双线性张量层代替了神经网络的标准线性层。

像 ConvE 这样的卷积神经网络以“图像”的形式重塑实体和关系的数值表示,然后应用卷积滤波器提取特征,从而学习最终的嵌入。我们还可以找到受 GAN 启发的模型(例如 KBGAN)和基于 Transformer 的模型(例如 HittER)来计算KGE。

为了实现这些算法,我们有多个 python 库,例如:

· LibKGE

· PyKEEN

· GraphVite

· AmpliGraph

KGE 算法的结构

有一些共同的基本思想来构建一个算法来计算KGE。下面列出了其中一些想法:

Negative Generation:

这是在知识图中生成否定或损坏的三元组的概念。负三元组是不属于原始图的三元组。这些可以随机生成,也可以使用伯努利负采样等策略生成。

Scoring Function:

它是一个包装三元组的函数,它输出一个值或一个分数。如果分数高,那么三元组是有效的,如果分数低,那么它是一个负三元组。评分函数是构建 KGE 算法的重要部分之一。

Loss Function:

由于算法是根据优化问题建模的,因此我们在训练过程中使用了损失函数。这个损失函数使用正负三元组的分数来计算损失。我们的目标是尽量减少损失,减少损失的过程肯定也少不了优化器。

一般情况下损失函数包括——Cross entropy loss, Pairwise margin-based hinge loss等。

生成嵌入后的下一步是什么?

学习 KGE 算法并应用它们来查找嵌入是很有趣的。现在,下一步是什么?嵌入的用途是什么?

有一些图下游任务可以应用于知识图谱,例如:

知识图谱补全:

这也称为链接预测,我们的目标是预测知识图中缺失的关系或潜在的可能关系。它也可以称为知识图谱增强。这项任务归结为找到一个可以最好地表示为具有给定的关系和一个实体的事实。简单地说,任务是猜测 (?, r, t) 或 (h, r, ?) 中的缺失部分,也可以分别称为头部预测或尾部预测。我们使用基于等级的评估技术来查找我们的知识图嵌入的性能。

三元组分类:

这是一个识别给定三元组是否有效的问题,即它是正三元组还是负三元组。此任务的输出只有是或否。使用评分函数并设置阈值以将正三元组与负三元组分开。通俗的讲就是一个二元分类的问题。

推荐系统是KEG应用的一个重要领域。嵌入的质量对于上述任务的性能和准确性很重要。这些任务的结果告诉我们是否能够生成高质量的嵌入。

原文地址:https://www.overfit.cn/post/0248ec021912474a9de9be2ab287c33a

作者:Rohith Teja

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曾是央视知名主持,如今桂林街头买菜!她的选择为何让人深思?

曾是央视知名主持,如今桂林街头买菜!她的选择为何让人深思?

全球风情大揭秘
2026-01-11 23:10:48
韩国21岁“蛇蝎美人”确认为反社会人格!AI策划杀人致2死1伤

韩国21岁“蛇蝎美人”确认为反社会人格!AI策划杀人致2死1伤

红星新闻
2026-03-04 11:46:40
这些都是会感染HIV的高危行为,平时要注意……

这些都是会感染HIV的高危行为,平时要注意……

中国计划生育协会
2026-03-02 17:57:59
伊朗男女足拒唱国歌!为争取女性权利抗议 回国后恐面临极高风险

伊朗男女足拒唱国歌!为争取女性权利抗议 回国后恐面临极高风险

念洲
2026-03-04 08:45:16
卡塔尔证实伊朗导弹击中美军乌代德基地

卡塔尔证实伊朗导弹击中美军乌代德基地

新华社
2026-03-04 15:11:04
你经历过哪些杀人诛心的事?网友:所以没有婆婆拆散不了的家

你经历过哪些杀人诛心的事?网友:所以没有婆婆拆散不了的家

带你感受人间冷暖
2026-02-11 10:54:58
2元直达宿舍!四川农大开通返校“一站式”直通车

2元直达宿舍!四川农大开通返校“一站式”直通车

封面新闻
2026-03-04 13:31:20
受气的携程客服岗挤满了海归留学生?“比普华永道工资高、低门槛拿大厂编制”

受气的携程客服岗挤满了海归留学生?“比普华永道工资高、低门槛拿大厂编制”

Vista氢商业
2026-03-02 14:01:11
徐梦桃在央视元宵晚会上,差点“翻车”,王心迪嘴真甜

徐梦桃在央视元宵晚会上,差点“翻车”,王心迪嘴真甜

认真的雪125
2026-03-04 06:21:10
扩散周知!我使馆提醒防范日本撞人族

扩散周知!我使馆提醒防范日本撞人族

每日经济新闻
2026-03-04 11:18:42
广东广州,因女租客拖欠8天房租,男房东多次催要未果

广东广州,因女租客拖欠8天房租,男房东多次催要未果

科学发掘
2026-03-04 09:29:36
现货黄金收跌4.38%,报5088.33美元/盎司

现货黄金收跌4.38%,报5088.33美元/盎司

每日经济新闻
2026-03-04 06:18:28
你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

带你感受人间冷暖
2026-01-29 00:10:05
重罚!曝吕迪格连续膝击最高应禁赛12场,巴萨旧将:被皇马抢劫了

重罚!曝吕迪格连续膝击最高应禁赛12场,巴萨旧将:被皇马抢劫了

夏侯看英超
2026-03-04 02:12:13
“大学女儿非要买LV”视频火了,网友:穷人穿上龙袍也不像太子

“大学女儿非要买LV”视频火了,网友:穷人穿上龙袍也不像太子

妍妍教育日记
2026-02-25 21:18:14
53岁伊能静原来这么“丰满”!罕见穿比基尼泳装秀身材,太美了

53岁伊能静原来这么“丰满”!罕见穿比基尼泳装秀身材,太美了

动物奇奇怪怪
2026-03-04 08:01:16
妻子将一位尼姑献给丈夫,丈夫当晚临幸了她,不料生出一千古明君

妻子将一位尼姑献给丈夫,丈夫当晚临幸了她,不料生出一千古明君

大运河时空
2026-03-02 07:30:03
刚提拔就被炸死,伊朗新防长 上任24 小时身亡,高层内奸藏不住了

刚提拔就被炸死,伊朗新防长 上任24 小时身亡,高层内奸藏不住了

小小科普员
2026-03-04 15:09:58
世上没有后悔药!下半身"贪婪"的任素汐,现状印证王菲评价

世上没有后悔药!下半身"贪婪"的任素汐,现状印证王菲评价

秋姐居
2026-02-27 17:16:02
18年前,揭露“三鹿奶粉”的上海记者简光洲,最后被报复了吗?

18年前,揭露“三鹿奶粉”的上海记者简光洲,最后被报复了吗?

毛豆何时归
2026-02-22 07:19:18
2026-03-04 16:11:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1937文章数 1456关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

哈梅内伊次子被指将"接班" 母亲妻儿妹妹妹夫均遇难

头条要闻

哈梅内伊次子被指将"接班" 母亲妻儿妹妹妹夫均遇难

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

迪丽热巴转机滞留迪拜 错过巴黎时装周

财经要闻

谈扩内需等 人大新闻发布会回应这些热点

汽车要闻

续航更长/实用性升级 方程豹钛3/钛7闪充版3月5日亮相

态度原创

艺术
时尚
手机
教育
军事航空

艺术要闻

2025“情系塔里木”美术作品展

三件外套拍出17万美元天价!为什么时装精都想买她的同款?

手机要闻

三星展示概念手机:屏幕能从5.1英寸“拉长”至6.7英寸

教育要闻

高中英语语法结构清晰,总是考110多分,突破不到120,130怎么办?

军事要闻

伊朗为遭到美以空袭小学遇难者举行葬礼

无障碍浏览 进入关怀版