网易首页 > 网易号 > 正文 申请入驻

由表及里介绍知识图谱及AutoML! OGB KG链接预测任务榜首模型技术解析

0
分享至

本篇文章由表及里介绍知识图谱及AutoML算法情况,作者为第四范式资深算法研究员张永祺。他的Talk分享“AutoSF+: OGB-KG任务榜首模型技术解析”,也将在北京时间8月26日(周四)晚8点,在TechBeat人工智能社区准时首播,欢迎大家关注!

相关论文:AutoSF: Searching Scoring Functions for Knowledge Graph Embedding. 发表于ICDE 2020.

论文地址:

https://ieeexplore.ieee.org/abstract/document/9101641,

https://arxiv.org/pdf/2107.00184.pdf

代码地址:

https://github.com/AutoML-4Paradigm/AutoSF

一、知识图谱嵌入概述

知识图谱(Knowledge Graph, KG)是一种特殊的由实体和关系组成的多关系图结构,通常用三元组(头实体、关系、尾实体)的形式来表示事实。应用上,知识图谱可提供更高效的搜索结果,挖掘实体之间的潜在关系,启发了如智能搜索、智能问答、医疗诊断、金融风控等许多下游应用,对数据挖掘和机器学习都具有重要的意义。近年来知识图谱发展迅速,常见的知识图谱有FreeBase、WikiData、DBPedia、Yago、NELL等,行业相关的图谱如Google KG和第四范式星图,这些规模巨大的知识图谱通常包含数百万个节点和数十亿个事实三元组,且被成功地应用于众多实际落地场景中。

虽然知识图谱在表示结构化数据方面很有效,但是这类三元组的符号象征特性难以被直接运用于机器学习算法,为了更智能更高效地应用知识图谱,学术界提出了一种极具前景的研究方向——知识图谱嵌入(Knowledge Graph Embedding, KGE)。基于事实三元组数据,知识图谱嵌入技术将原始知识图谱中的离散的实例和关系嵌入到低维连续的向量空间中;相比于原始的三元组数据,经过嵌入后的连续数值能够被更好地理解和使用。

知识图谱嵌入的核心技术是衡量图谱中三元组可编程性的评分函数(Scoring Function, SF)。评分函数也是理解知识图谱中复杂语义信息、挖掘潜在关系的关键,现有评分函数设计专注于统一的语义模型,而实际应用中,知识图谱性质随任务场景千变万化,在现有的基准数据集上,没有一个评分函数能比其他模型表现得更好。

二、OGB介绍

Open Graph Benchmark (OGB)是公认的图学习基准数据集代表,由斯坦福大学Jure Leskovec教授团队建立,于2020年国际顶级学术会议NeurIPS上正式开源。OGB囊括了节点性质预测、边性质预测、图性质预测等知识图谱领域多项赛题,以质量高、规模大、场景复杂、难度高著称,素有知识图谱领域“ImageNet”的称号,是众多科技巨头、科研院所和高校团队试验技术成色的试金石,来自斯坦福、康奈尔等顶尖大学及阿里巴巴、facebook等知名企业的团队均已参与其中。

在第四范式参加的两项知识图谱链接预测任务中:

·ogbl-biokg基于多个生物医学知识库,节点类型涵盖疾病、蛋白质、药物、副作用及蛋白质功能等生物医学概念,涉及了从分子规模到整个种群的近10万结点之间的51种异构相互作用,构成500多万个三元组。该数据集有助于药物属性预测及生物医学研究。

·ogbl-wikikg2数据采集于Wikidata知识库,描述现实世界中约250万个实体间的500多种关系,构成1700多万个事实三元组,其主要难点在于从海量且复杂的已知事实中进行学习,并精准预测实体间的潜在关系。该任务对推荐系统、智能问答等下游场景任务具有辅助作用。

三、AutoSF算法

AutoSF发表于国际顶级会议ICDE 2020。得益于自动化搜索的优越性,AutoSF设计的评分函数可以更高效地利用模型参数,在更小模型复杂度的基础上,AutoSF于OGB的biokg榜单的预测性能位居第一,wikikg2榜单位居前二,并以较大优势超过蚂蚁金服NLP团队最新工作PairRE [1] (ACL 2021)和其他知名评分函数如TransE [2](NeurIPS 2013,引用3185次)、ComplEx [3](ICML 2017,引用915次)、RotatE [4](ICLR 2019,引用333次)等。

受自动化机器学习技术(AutoML)的启发,第四范式设计的自动评分函数技术(AutoSF),可以自动搜索给定图谱的评分函数,能够自动适应不同的图谱,可大幅降低门槛和成本。AutoSF针对性理解生物医学、维基百科等复杂知识图谱中的不同语义信息,设计出更符合特定场景中认知特性的评分函数,实现在对应任务上的性能突破。

然而,要实现上述目标并非易事,需要重点考虑两个方面:一是搜索空间,它有助于找出目标问题建模的重要性质;二是搜索算法,它决定了在空间搜索的效率。

如何针对知识图谱嵌入任务,来设计搜索空间和搜索算法这两个核心组件,是该工作的关键所在。

AutoSF首先对评分函数建立了统一的表达形式及相应的搜索空间。如下图所示,其中 h 和 t 为头尾实体的嵌入表达,是一个跟关系嵌入 r 相关的方阵,其表达形式由 K x K 的结构矩阵 A 决定,而评分函数之间的区别就在于结构 A 的不同。如下图所示,现有打分函数结构 A 对应的方阵 gK 都可以抽象成 K x K 的分块矩阵,不同评分函数的区别主要在如何将关系嵌入 r 填入其中每一块。基于此观察,AutoSF抽象出了如下图的搜索空间,可以有效覆盖已知的双线性模型,同时有能力探索新颖的、未被尝试的模型。

评分函数 f 对应的统一表达式为:

考虑到搜索空间共有个不同的结构,而训练和评估每一个结构都需要花费数十分钟的时间,完整遍历搜索空间的成本极高,如何快速有效地搜索更好的结构,是搜索算法所需要关心的问题。

AutoSF采用的贪心搜索算法虽高效,但并未充分探索搜索空间,容易产生局部最优解。为避免次优解、兼顾搜索效率和解的质量,作者在后续工作AutoSF+中设计了基于遗传算法的搜索策略,从简单模型渐进搜索更复杂的模型;为进一步提高搜索效率,AutoSF+为搜索空间专门设计了一种滤波器,可以把退化的矩阵,以及等价的矩阵结构过滤掉,避免在这些不好的、等价的模型上花费时间去评估;同时,为了挖掘图谱中对称性等重要性质,AutoSF+采用预测器的技术,从矩阵结构提取对称相关的特征,再利用评估过的结果,学习特征与效果之间的映射,从而可以只利用矩阵结构,选出更值得训练的模型。

AutoSF+在OGB数据集上搜索得出的模型结构如下图所示。

四、总结与展望

本文提出了一种自动设计评分函数的AutoSF(+)算法,适用于知识图谱嵌入任务。通过使用一个由滤波器和具有特定领域知识的预测器增强的遗传搜索算法,AutoSF(+)可以在巨大搜索空间中有效地设计出与数据相关的、崭新的、优于人类手工设计的评分函数。

除AutoSF外,第四范式在图学习中还探索出一系列前沿自动化技术,包括自动负采样算法NSCaching [5],自动递归模型搜索算法Interstellar [6],高效评分函数设计算法ERAS [7],可微图神经网络架构搜索算法SANE [8],均发表于国际顶级期刊会议上,用于处理多种不同图谱学习场景。

未来工作中,潜在的研究方向有同时搜索自适应于给定图谱的模型结构和超参数组合,以及显式地利用(子)图结构特征来辅助推理。

Paper list:

[1]PairRE: Knowledge Graph Embeddings via Paired Relation Vectors. arXiv 2021

[2]TransE: Translating Embeddings for Modeling Multi-relational Data. NeurIPS 2013

[3]ComplEx: Complex Embeddings for Simple Link Prediction. ICML 2017

[4]Rotate: Knowledge Graph Embedding by Relational Rotation in Complex Space. ICLR 2019

[5]NSCaching: Simple and Automated Negative Sampling for Knowledge Graph Embedding. VLDB-Journal 2021

[6]Interstellar: Searching Recurrent Architecture for Knowledge Graph Embedding. NeurIPS 2020

[7]ERAS: Efficient Relation-aware Scoring Function Search for Knowledge Graph Embedding. ICDE 2021

[8]SANE: Search to Aggregate Neighborhood for Graph Neural Network. ICDE 2021

// 作者Talk预告 //

Talk时间:8月26日(本周四)晚8点

张永祺博士,2020年3月加入第四范式科学技术部,担任算法研究员,从事机器学习算法研究,负责自动化知识表示学习(AutoKGE)相关的研究工作。其研究成果在链接预测、实体对齐等基线上达到国际领先水平,将AutoKGE相关工作发表于国际顶级会议期刊ICDE、VLDB Journal、NeurIPS上。其中论文Interstellar获得人工智能顶会NeurIPS spotlight paper(3%)认可,将AutoKGE概念推向学术前沿。

于2020年3月在香港科技大学获得博士学位,主要研究方向为自动化机器学习,知识图谱表示及深度学习。于2015年在上海交通大学获得学士学位。

Illustrastion by Oleg Shcherba from Icons8

-The End-

扫码观看!

本周上新!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德国足球也反腐!世界杯被淘汰后,150名警察突袭德国足协总部

德国足球也反腐!世界杯被淘汰后,150名警察突袭德国足协总部

全景体育V
2026-07-01 19:07:25
安徽阜阳一小区起火致3岁双胞胎男童遇难,爸爸和爷爷被烧伤;楼道消防栓被指无水,当地已成立调查组

安徽阜阳一小区起火致3岁双胞胎男童遇难,爸爸和爷爷被烧伤;楼道消防栓被指无水,当地已成立调查组

大风新闻
2026-07-01 20:00:17
忍耐24小时,中方准时下封海令!巡航声明精准落地,菲防长又说错

忍耐24小时,中方准时下封海令!巡航声明精准落地,菲防长又说错

近史博览
2026-07-01 06:38:47
泰安市12345回应“泰山铁丝网”问题:阻隔设施分布在非开放区,预留了农业生产、生物迁徙通道

泰安市12345回应“泰山铁丝网”问题:阻隔设施分布在非开放区,预留了农业生产、生物迁徙通道

红星新闻
2026-07-01 20:33:19
西安身家千万老总坠亡!头部运动品牌代理,曾购几十辆奔驰奖员工

西安身家千万老总坠亡!头部运动品牌代理,曾购几十辆奔驰奖员工

火山詩话
2026-07-02 05:52:19
女护士与“银行男子”开房,被医院认为涉嫌非法性交易遭开除,法院:可能是恋人行为,判医院赔偿11万余元

女护士与“银行男子”开房,被医院认为涉嫌非法性交易遭开除,法院:可能是恋人行为,判医院赔偿11万余元

天涯社区
2026-07-01 19:17:27
女生硕士研究生毕业,与近百张证书合影,当事人:本硕期间获得奖学金等共计五六万

女生硕士研究生毕业,与近百张证书合影,当事人:本硕期间获得奖学金等共计五六万

潇湘晨报
2026-07-01 17:21:20
紫牛头条|父亲带着 9 岁女儿在清华门口拍了张照,17 年后父女俩复刻了这张照片

紫牛头条|父亲带着 9 岁女儿在清华门口拍了张照,17 年后父女俩复刻了这张照片

扬子晚报
2026-07-01 22:55:08
桃李做快餐、鲍师傅卖西餐,倒闭9万家后,面包房的尽头是饭店?

桃李做快餐、鲍师傅卖西餐,倒闭9万家后,面包房的尽头是饭店?

蓝鲸新闻
2026-07-01 09:45:46
京圈大佬集体全哑火,3 部大片累计亏超 5 亿,观众凭啥买单?

京圈大佬集体全哑火,3 部大片累计亏超 5 亿,观众凭啥买单?

知法而形
2026-07-01 23:22:31
有点尴尬!布朗两个月前吐槽恩比德假摔骗哨 如今两人竟成为队友

有点尴尬!布朗两个月前吐槽恩比德假摔骗哨 如今两人竟成为队友

罗说NBA
2026-07-02 07:06:29
7-2,死亡小组全军覆没,1夺冠热门倒下,冠军将在3支胜利队产生

7-2,死亡小组全军覆没,1夺冠热门倒下,冠军将在3支胜利队产生

我就是一个说球的
2026-07-01 15:49:26
网红papi酱自曝“生父瘫痪”引热议:一个家庭最大的灾难,就是有个“犟种”

网红papi酱自曝“生父瘫痪”引热议:一个家庭最大的灾难,就是有个“犟种”

脆皮先生
2026-07-01 23:14:47
随着凯恩无敌双响+英格兰2-1逆转晋级16强,世界杯最新射手榜出炉

随着凯恩无敌双响+英格兰2-1逆转晋级16强,世界杯最新射手榜出炉

侧身凌空斩
2026-07-02 02:20:08
第一批把性爱交给AI的人,出现了

第一批把性爱交给AI的人,出现了

大佬灼见
2026-07-01 15:45:38
警惕!日本在这个太平洋孤岛的动作,不容忽视

警惕!日本在这个太平洋孤岛的动作,不容忽视

枢密院十号
2026-07-02 02:44:19
一台手机干翻一个帝国:HTC是怎么把一手王炸打稀烂的

一台手机干翻一个帝国:HTC是怎么把一手王炸打稀烂的

叮当当科技
2026-07-02 04:44:06
内讧激发血性!蒂莱曼斯双响+125分钟绝杀,比利时3-2塞内加尔

内讧激发血性!蒂莱曼斯双响+125分钟绝杀,比利时3-2塞内加尔

钉钉陌上花开
2026-07-02 06:46:52
彻底陨落!比利时惊险翻盘却揪出头号卧底!从世界第一变废柴!

彻底陨落!比利时惊险翻盘却揪出头号卧底!从世界第一变废柴!

奶盖熊本熊
2026-07-02 07:25:41
Shams:马刺与托拜厄斯-哈里斯签下2年3100万美元的合同

Shams:马刺与托拜厄斯-哈里斯签下2年3100万美元的合同

懂球帝
2026-07-02 05:13:11
2026-07-02 08:20:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2419文章数 596关注度
往期回顾 全部

科技要闻

Claude Code被曝“植入木马”识别中国用户

头条要闻

媒体:乌军更能打了 掌握"有效打法"跟俄打得有来有回

头条要闻

媒体:乌军更能打了 掌握"有效打法"跟俄打得有来有回

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

77岁牛群公证裸捐全部财产,清贫独居坚持月捐

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

同比暴涨188.4% 方程豹6月热销35607台

态度原创

手机
教育
家居
艺术
时尚

手机要闻

曝iPhone17将涨价!生产计划下调

教育要闻

一道化简题,学渣蒙圈了

家居要闻

传奇筑 日常诗

艺术要闻

宋朝:生活品味,比权力和财富更重要!

月入3万,时代红利砸向文科生

无障碍浏览 进入关怀版