网易首页 > 网易号 > 正文 申请入驻

知识图普嵌入技术的极简教程:KGE以及如何计算它们

0
分享至

图是我最喜欢使用的数据结构之一,它们可以使我们能够表示复杂的现实世界网络,如快速交通系统(例如,公交道路、地铁等)、区域或全球空中交通,或者人们的社交网络之类的相关事物。并且他们非常灵活,很容易被人类理解,但是为了让计算机“理解”和“学习”它们,我们需要额外的一步(称为矢量化)。 这种解释可能过于简单,我们将在本人的后续部分详细解释。

知识图谱有何特别之处?

为了轻松理解知识图与其他图的不同之处,我们想象一个具有不同级别的游戏,随着游戏的深入,每个级别都会变得困难。

Level 1:可以是一个简单的无向图,比如大学里的朋友群,朋友是节点,朋友之间的关系是边。这里我们只有节点和边,没有什么太花哨的。

Level 2:在上一层的基础上增加一层信息,比如方向,这样我们就得到有向图。一个简单的例子是城市范围的公交网络。将公共汽车站视为节点,将公共汽车的路线视为边,每辆公共汽车都以特定的方向从一个站点移动到另一个站点,这就是增加了方向信息。

Level 3:我们采用有向图并向节点和边添加多种属性。想象一下互联网上的社交网络,节点上的属性是用户所基于的社交网络类型。例如,它可以是 Twitter、Facebook 或 YouTube。边的属性可以是不同用户之间的交互类型,即关注(在 Twitter 的情况下)、朋友或关注(在 Facebook 的情况下)和订阅(在 YouTube 的情况下)。图的有向性在这里开始发挥作用,因为上面这些属性只能是单向的(相互关注就是有两条边)。例如,你可以关注 Elon Musk,但他可能不会在 Twitter 上关注你,这就是有一条向的边。

Level 4:上一级中的图中,不使用节点和边,而是使用三元组进行表示:三元组是知识图谱的构建块,它是由 3 个元素组成的元组,即:源节点(头)、关系和目标节点(尾)。

这就是我们所说的知识图谱了,源节点和目标节点有时也被称为实体。

“知识图谱”一词的使用有点含糊,因为知识图谱没有固定的定义,从广义上讲可以将任何包含一些知识/重要信息的相当大的图称为知识图谱。这里的关键点是我们将三元组作为知识图谱的基本组成部分。

知识图谱嵌入方法

因为向量化或嵌入(实体的数字表示和图之间的关系表示)对于使用图作为机器学习算法的输入是必要的。我们对知识图谱的处理方式与其他机器学习模型不同,所以我们需要不同的技术来学习它们的数值表示(或嵌入)。生成知识图嵌入 (KGE) 的方法有多种,我们可以大致分为 3 个部分:

1、基于翻译的方法:

使用基于距离的函数(在欧几里得空间中)用于生成嵌入。我们可以建立一个简单的算法使头向量和关系向量的组合等于尾向量。它可以表示为 h + r ≈ t。这种算法称为 TransE。相同算法还有其他版本,但对它的修改很少。一些示例包括 TransH、TransR、TransD、TransSparse 和 TransM。

2、基于分解的方法:

这是基于张量分解的想法,使用这种技术提出的初始算法是 RESCAL。三向张量以 n x n x m 的形式定义,其中 n 是实体的数量,m 是关系的数量。张量保持值 1 表示实体之间存在关系, 0表示不存在则。

通过分解这个张量来计算嵌入。但是对于大型图这通常在计算上非常的费时所以出现了很多基于 RESCAL 理念的 DistMult、HolE、ComplEx 和 QuatE 等算法优化解决计算量问题。

3、基于神经网络的方法:

神经网络现在在许多领域都很流行,它们被用于查找KGE也就是很正常的事情了。Semantic Matching Energy它定义了一个能量(energy )函数,用于通过使用神经网络为三元组分配一个值。神经张量网络(Neural Tensor Network)使用能量函数,但它用双线性张量层代替了神经网络的标准线性层。

像 ConvE 这样的卷积神经网络以“图像”的形式重塑实体和关系的数值表示,然后应用卷积滤波器提取特征,从而学习最终的嵌入。我们还可以找到受 GAN 启发的模型(例如 KBGAN)和基于 Transformer 的模型(例如 HittER)来计算KGE。

为了实现这些算法,我们有多个 python 库,例如:

· LibKGE

· PyKEEN

· GraphVite

· AmpliGraph

KGE 算法的结构

有一些共同的基本思想来构建一个算法来计算KGE。下面列出了其中一些想法:

Negative Generation:

这是在知识图中生成否定或损坏的三元组的概念。负三元组是不属于原始图的三元组。这些可以随机生成,也可以使用伯努利负采样等策略生成。

Scoring Function:

它是一个包装三元组的函数,它输出一个值或一个分数。如果分数高,那么三元组是有效的,如果分数低,那么它是一个负三元组。评分函数是构建 KGE 算法的重要部分之一。

Loss Function:

由于算法是根据优化问题建模的,因此我们在训练过程中使用了损失函数。这个损失函数使用正负三元组的分数来计算损失。我们的目标是尽量减少损失,减少损失的过程肯定也少不了优化器。

一般情况下损失函数包括——Cross entropy loss, Pairwise margin-based hinge loss等。

生成嵌入后的下一步是什么?

学习 KGE 算法并应用它们来查找嵌入是很有趣的。现在,下一步是什么?嵌入的用途是什么?

有一些图下游任务可以应用于知识图谱,例如:

知识图谱补全:

这也称为链接预测,我们的目标是预测知识图中缺失的关系或潜在的可能关系。它也可以称为知识图谱增强。这项任务归结为找到一个可以最好地表示为具有给定的关系和一个实体的事实。简单地说,任务是猜测 (?, r, t) 或 (h, r, ?) 中的缺失部分,也可以分别称为头部预测或尾部预测。我们使用基于等级的评估技术来查找我们的知识图嵌入的性能。

三元组分类:

这是一个识别给定三元组是否有效的问题,即它是正三元组还是负三元组。此任务的输出只有是或否。使用评分函数并设置阈值以将正三元组与负三元组分开。通俗的讲就是一个二元分类的问题。

推荐系统是KEG应用的一个重要领域。嵌入的质量对于上述任务的性能和准确性很重要。这些任务的结果告诉我们是否能够生成高质量的嵌入。

原文地址:https://www.overfit.cn/post/0248ec021912474a9de9be2ab287c33a

作者:Rohith Teja

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
在草原蒙古包过夜,若见女主人床头系红绳,千万别好奇去碰

在草原蒙古包过夜,若见女主人床头系红绳,千万别好奇去碰

秋风专栏
2025-09-30 13:46:10
仅播1天,就夺下热榜第一,不愧是你们盼了一整年的黑马剧!

仅播1天,就夺下热榜第一,不愧是你们盼了一整年的黑马剧!

乡野小珥
2025-10-31 15:09:03
牡丹花下死!结婚刚一个月,娶“白月光”的李国庆彻底成为笑话

牡丹花下死!结婚刚一个月,娶“白月光”的李国庆彻底成为笑话

春秋论娱
2025-09-23 07:20:44
民主党的遮羞布这下被撕碎了,拜登前发言人访谈翻车,不知所云

民主党的遮羞布这下被撕碎了,拜登前发言人访谈翻车,不知所云

锐器
2025-11-01 23:24:03
美女打屁股大赛,火了

美女打屁股大赛,火了

微微热评
2025-10-08 22:10:24
西安11岁男孩坠入通风井:事故发生后小区查出176处安全隐患

西安11岁男孩坠入通风井:事故发生后小区查出176处安全隐患

澎湃新闻
2025-11-01 18:29:06
美军南海飞行事故真相揭晓,解放军已做好准备等待特朗普发声

美军南海飞行事故真相揭晓,解放军已做好准备等待特朗普发声

林子说事
2025-10-31 09:28:02
落槌!全部划归国资!追随许家印6年,江苏第一包工头赔得精光

落槌!全部划归国资!追随许家印6年,江苏第一包工头赔得精光

冷夜说
2025-10-27 00:33:11
女单4强对阵出炉,陈熠3-2怒吼晋级,约战孙颖莎好朋友

女单4强对阵出炉,陈熠3-2怒吼晋级,约战孙颖莎好朋友

做一个合格的吃瓜群众
2025-11-02 07:53:47
和杨瀚森分手?女友发声,官宣意外决定,告别过去,球迷祝福

和杨瀚森分手?女友发声,官宣意外决定,告别过去,球迷祝福

乐聊球
2025-11-01 09:24:25
跑腿接过什么奇葩订单?网友:喝多了打不到车,下单写100斤猪肉

跑腿接过什么奇葩订单?网友:喝多了打不到车,下单写100斤猪肉

夜深爱杂谈
2025-11-01 22:58:32
甜度超标!国乒第一美女撒狗粮,国羽队草男友不装了,恋情公开

甜度超标!国乒第一美女撒狗粮,国羽队草男友不装了,恋情公开

球盲百小易
2025-11-02 03:19:32
洗衣机的“快洗模式”不能乱用,听师傅提醒,才知道我一直用错了

洗衣机的“快洗模式”不能乱用,听师傅提醒,才知道我一直用错了

室内设计师有料儿
2025-11-01 17:27:00
人生不过三万多天,要开心点,想不通的时候不妨看看这几段话

人生不过三万多天,要开心点,想不通的时候不妨看看这几段话

伊人河畔
2025-11-01 22:20:24
辽宁选美冠军,网友那句“评委的口味真重”含金量还在上升!

辽宁选美冠军,网友那句“评委的口味真重”含金量还在上升!

黄谋仕
2025-10-31 18:34:55
重庆新增一家三甲医院!预计2026年投入使用

重庆新增一家三甲医院!预计2026年投入使用

原广工业
2025-10-31 12:22:40
大学生捐精,女方要求私下见面,承诺给予费用,内幕如何?

大学生捐精,女方要求私下见面,承诺给予费用,内幕如何?

极品小牛肉
2024-03-22 10:46:53
柬埔寨官方喊话:网络诈骗是跨国问题,这锅不能只让我背

柬埔寨官方喊话:网络诈骗是跨国问题,这锅不能只让我背

策略述
2025-11-01 13:28:34
离婚协议写抚养费付到工作,女儿留学54万!前夫拒付,法院判了

离婚协议写抚养费付到工作,女儿留学54万!前夫拒付,法院判了

一丝不苟的法律人
2025-10-27 16:57:25
郭正亮给了台湾“最好”出路?一国两制改1个字,或可统后不驻军

郭正亮给了台湾“最好”出路?一国两制改1个字,或可统后不驻军

顾史
2025-07-08 21:02:11
2025-11-02 09:20:49
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1816文章数 1432关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

母亲给35岁儿子花32万和女子"闪婚" 发现女方背负巨债

头条要闻

母亲给35岁儿子花32万和女子"闪婚" 发现女方背负巨债

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

游戏
亲子
本地
时尚
公开课

时隔六年,库洛这是又要推出新游戏了?

亲子要闻

曲柄摇杆间歇摆动机构

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

松弛感穿搭太适合秋冬了,减龄又好看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版