网易首页 > 网易号 > 正文 申请入驻

什么是知识图谱?有哪些典型应用?终于有人讲明白了

0
分享至

本文将详细阐述知识图谱的基本概念,包括知识图谱的背景、定义以及典型应用。

文末有赠书!

一、知识图谱背景

在给出知识图谱的定义之前,我们先分开讨论一下什么是知识,什么是图谱

1. 什么是知识

首先看一下什么是知识。有读者可能会提出这样的问题,在大数据时代,人类拥有海量的数据,这是不是代表人类可以随时随地利用无穷无尽的知识呢?答案是否定的。

知识是人类在实践中认识客观世界(包括人类自身)的成果,它包括事实、信息、描述以及在教育和实践中获得的技能。知识是人类从各个途径中获得的经过提升、总结与凝炼的系统的认识。

因此,可以这样理解,知识是人类对信息进行处理之后的认识和理解,是对数据和信息的凝炼、总结后的成果。

让我们来看一下Rowley在2007年提出的DIKW体系[1],如图1-3所示,从数据、信息、知识到智慧,是一个不断凝炼的过程。

图1-3 DIKW体系

举一个简单的例子,226.1厘米,229厘米,都是客观存在的孤立的数据。此时,数据不具有任何意义,仅表达一个客观事实。而“姚明臂展226.1厘米”“姚明身高229厘米”是事实型的陈述,属于信息的范畴。

知识,则是对信息层面的抽象和归纳,把姚明的身高、臂展,及其他属性整合起来,就得到了对于姚明的一个认知,也可以进一步了解到姚明的身高是比普通人高的。对于最后的智慧层面,Zeleny提到的智慧是指知道为什么(Know-Why)[2],感兴趣的读者可以自行了解,本文暂不对此进行深入探讨。

2. 什么是图谱

那么什么是图谱?图谱的英文是Graph,直译过来就是“图”的意思。在图论(数学的一个研究分支)中,图表示一些事物(Object)与另一些事物之间相互连接的结构。

一张图通常由一些结点(Vertice或Node)和连接这些结点的边(Edge)组成。“图”这一名词是由詹姆斯·约瑟夫·西尔维斯特在1878年首次提出的[3]。图1-4是一个非常简单的图,它由6个结点和7条边组成。

图1-4 由6个结点和7条边组成的图示例

从字面上看,知识图谱就是用图的形式将知识表示出来。图中的结点代表语义实体或概念,边代表结点间的各种语义关系。

我们再将姚明的一些基本信息,用计算机所能理解的语言表示出来,构建一个简单的知识图谱。比如,<姚明,国籍,中国>表示姚明的国籍是中国,其中“姚明”和“中国”是两个结点,而结点间的关系是“国籍”。

这是一种常用的基于符号的知识表示方式——资源描述框架(Resource Description Framework,RDF),它把知识表示为一个包含主语(Subject)、谓语(Predicate)和宾语(Object)的三元组。

二、知识图谱的定义

上一节对知识图谱给出了一个具象的描述,即它是由结点和边组成的语义网络。那么该如何准确定义知识图谱呢?这里我们可以先回顾一下其概念的演化历程。

知识图谱概念的演化历程如图1-5所示。

图1-5 知识图谱概念的演化历程

语义网络由剑桥语言研究所的Richard H. Richens提出,前文中已经简单介绍了语义网络的含义。它是一种基于图的数据结构,是一种知识表示的手段,可以很方便地将自然语言转化为图来表示和存储,并应用在自然语言处理问题上,例如机器翻译、问答等。

到了20世纪80年代,研究人员将哲学概念本体(Ontology)引入计算机领域,作为“概念和关系的形式化描述”, 后来,Ontology也被用于为知识图谱定义知识体(Schema)。

而真正对知识图谱产生深远影响的是Web的诞生。Tim Berners-Lee在1989年发表的“Information Management: A Proposal”[4]中提出了Web的愿景, Web应该是一个以“链接”为中心的信息系统(Linked Information System),以图的方式相互关联。

Tim认为“以链接为中心“和“基于图的方式”,相比基于树的固定层次化组织方式更加有用,从而促成了万维网的诞生。我们可以这样理解,在Web中,每一个网页就是一个结点,网页中的超链接就是边。但其局限性是显而易见的,比如,超链接只能说明两个网页是相互关联的,而无法表达更多信息。

1994年,在第一届国际万维网大会上,Tim又指出,人们搜索的并不是页面,而是数据或事物本身,由于机器无法有效地从网页中识别语义信息,因此仅仅建立Web页面之间的链接是不够的,还应该构建对象、概念、事物或数据之间的链接。

随后在1998年,Tim正式提出语义网(Semantic Web)的概念。语义网是一种数据互连的语义网络,它仍然基于图和链接的组织方式,但图中的结点不再是网页,而是实体。

通过为全球信息网上的文档添加“元数据”(Meta Data),让计算机能够轻松理解网页中的语义信息,从而使整个互联网成为一个通用的信息交换媒介。我们可以将语义网理解为知识的互联网(Web of Knowledge)或者事物的互联网(Web of Thing)。

2006年,Tim又提出了链接数据(Linked Data)的概念,进一步强调了数据之间的链接,而不仅仅是文本的数据化。后文还会介绍链接开放数据(Linked Open Data,LOD)项目,它也是为了实现Tim有关链接数据作为语义网的一种实现的设想。

随后在2012年,Google基于语义网中的一些理念进行了商业化实现,其提出的知识图谱概念也沿用至今。

可以看到,知识图谱的概念是和Web、自然语言处理(NLP)、知识表示(KR)、数据库(DB)、人工智能(AI)等密切相关的。所以我们可以从以下几个角度去了解知识图谱。

· 从Web的角度来看,像建立文本之间的超链接一样,构建知识图谱需要建立数据之间的语义链接,并支持语义搜索,这样就改变了以前的信息检索方式,可以以更适合人类理解的语言来进行检索,并以图形化的形式呈现。

· 从NLP的角度来看,构建知识图谱需要了解如何从非结构化的文本中抽取语义和结构化数据。

· 从KR的角度来看,构建知识图谱需要了解如何利用计算机符号来表示和处理知识。

· 从AI的角度来看,构建知识图谱需要了解如何利用知识库来辅助理解人类语言,包括机器翻译问题的解决。

· 从DB的角度来看,构建知识图谱需要了解使用何种方式来存储知识。

由此看来,知识图谱技术是一个系统工程,需要综合利用各方面技术。国内的一些知名学者也给出了关于知识图谱的定义。这里简单列举了几个。

电子科技大学的刘峤教授给出的定义是:

知识图谱,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体–关系–实体”三元组,以及实体及其相关属性–值对,实体之间通过关系相互联结,构成网状的知识结构[5]。

清华大学的李涓子教授给出的定义是:

知识图谱以结构化的方式描述客观世界中概念、实体及其关系,将互联网的信息表示成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力[6]。

浙江大学的陈华钧教授对知识图谱的理解是:

知识图谱旨在建模、识别、发现和推断事物、概念之间的复杂关系,是事物关系的可计算模型,已经被广泛应用于搜索引擎、智能问答、语言理解、视觉场景理解、决策分析等领域。

东南大学的漆桂林教授给出的定义是:

知识图谱本质上是一种叫作语义网络的知识库,即一个具有有向图结构的知识库,其中图的结点代表实体或者概念,而图的边代表实体/概念之间的各种语义关系[7]。

当前,无论是学术界还是工业界,对知识图谱还没有一个唯一的定义,本文的重点也不在于给出理论上的精确定义,而是尝试从工程的角度,讲解如何构建有效的知识图谱。有一些常见概念,这里列举如下。

·实体:对应一个语义本体,例如“姚明”“中国”等。

·属性:描述一类实体的特性(例如“身高”:姚明的身高是229厘米)。

·关系:对应语义本体之间的关系,将实体连接起来(例如“国籍”:姚明的国籍是中国)。

有些学者也将属性定义为关系,属于属性关系的一种。但本文将属性和关系作为两种不同的概念区别对待。

三、知识图谱的典型应用

我们在前文中已经接触到了知识图谱对搜索引擎的成功应用。知识图谱为搜索提供了丰富的结构化结果,体现了信息和知识的关联,可以通过搜索直接得到答案。

除了通用搜索引擎之外,在一些特定领域中,知识图谱也发挥着重要作用,例如同花顺公司的问财系统、文因互联的文因企业搜索等。

1. 医疗领域

在医疗领域,为了降低发现新药的难度,Open Phacts联盟构建了一个发现平台,通过整合来自各种数据源的药理学数据,构建知识图谱,来支持药理学研究和药物发现。

IBM Waston通过构建医疗信息系统,以及一整套的问答和搜索框架,以肿瘤诊断为核心,成功应用于包括慢病、医疗影像、体外检测在内的九大医疗领域。

其第一步商业化运作是打造了一个肿瘤解决方案(Waston for Oncology),通过输入纪念斯隆·凯特琳癌症中心的数千份病例、1500万页医学文献,可以为不同的肿瘤病人提供个性化治疗方案,连同医学证据一起推荐给医生。

2. 金融投资领域

在投资研究领域,成立于2010年的AlphaSense公司打造了一款新的金融知识引擎

与传统的金融信息数据平台不同,这款知识引擎并不仅仅局限在金融数据的整合和信息平台的范围,而是通过构建知识图谱,加上自然语言处理和语义搜索引擎,让用户可以更方便地获取各种素材并加工再使用。

另外一款非常具有代表性的金融知识引擎是Kensho。它通过从各种数据源搜集信息,构建金融知识图谱,并关注事件和事件之间的依赖,以及对结果的关联和推理,从而可为用户提供自动化语义分析、根据特定行情判断走势等功能。

3. 政府管理和安全领域

在政府管理和安全领域,一个具有代表性的案例是Palantir,因通过大规模知识图谱协助抓住了本·拉登而声名大噪。

其核心技术是整理、分析不同来源的结构化和非结构化数据,为相关人员提供决策支持。例如在军事情报分析系统中,将多源异构信息进行整合,如电子表格、电话、文档、传感器数据、动态视频等,可以对人员、装备、事件进行全方位实时的监控分析,使调度人员第一时间掌握战场态势,并做出预判。

除了协助抓住本·拉登,Palantir的另外一项赫赫有名的成就是协助追回了前纳斯达克主席麦道夫金融欺诈案的数十亿美金。

4. 电商领域

在电商领域,阿里巴巴生态积聚了海量的商品和交易数据,它以商品、产品、品牌和条码为核心,构建了百亿级别的商品知识图谱,可以广泛应用于搜索、导购、平台治理、智能问答等业务,同时保持每天千万级别的恶意攻击拦截量,极大提升了消费者的购物体验。

5. 聊天机器人领域

在聊天机器人领域,具有问答功能的产品,例如Siri、微软小冰、公子小白、琥珀·虚颜、天猫精灵、小米音箱,背后均有大规模知识图谱的支持。

例如在琥珀·虚颜中,除了有通用百科知识图谱——“七律”的支持,还有子领域,例如动漫知识图谱、美食知识图谱、星座知识图谱的支持。图1-13给出了公子小白在多类别知识图谱融合后的一个问答对话示例。

图1-13 公子小白对话示例

参考文献:

[1] Rowley, Jennifer. The Wisdom Hierarchy: Representations of the Dikw Hierarchy[J]. Journal of Information and Communication Science, 2007, 33 (2): 163-180.

[2] Zeleny, Milan. Management Support Systems: Towards Integrated Knowledge Management[J]. Human Systems Management, 1987, 7 (1): 59-70.

[3] J. J. Sylvester. On an Application of the New Atomic Theory to the Graphical Representation of the Invariants and Covariants of Binary Quantics[J]. American Journal of Mathematics, Pure and Applied, 1878, 1 (1) : 64-90.

[4] Berners-Lee, Timothy J.?Information management: A proposal[J]. No. CERN-DD-89-001-OC. 1989.

[5] 刘峤, 等.知识图谱构建技术综述[J]. 计算机研究与发展, 2016, 53 (3):582-600.

[6] 李涓子, 侯磊. 知识图谱研究综述[J]. 山西大学学报 (自然科学版), 2017 (2017 年 03): 454-459.

[7] 漆桂林, 高桓, 吴天星. 知识图谱研究进展[J]. 情报工程, 2017, 3(1): 4-25.

关于作者

邵浩,资深AI专家,vivo技术总监。张凯,资深AI算法工程师,主要研究方向包括知识图谱、对话系统、推荐系统、机器翻译等,拥有多年算法落地经验。主导构建了开放通用知识图谱七律,参与了《知识图谱评测标准》和《知识图谱白皮书》的编写。聊天机器人专业书籍作者之一。

李方圆,资深AI算法工程师,主要研究方向包括机器翻译、知识图谱和问答系统,具有多年实战项目经验,现任vivo机器翻译团队负责人,主导从零构建机器翻译能力。

张云柯,资深AI算法工程师,中文信息学会会员,硕士毕业于加拿大Queen’s University,曾任职于奇虎360。主要研究方向包括自然语言处理与知识图谱,曾于领域内知名会议发表相关论文,拥有丰富的算法落地经验。

戴锡强,资深AI算法工程师,主要研究方向为知识图谱、对话系统等,参与构建了百科知识图谱,医药领域知识图谱,基于知识图谱的问答系统等,具有丰富的知识图谱落地经验。

Illustrastion by Marina Mogulskaya from Icons8

-The End-

评论

有奖

文中所有内容来源于邵浩老师的新书

《从零构建知识图谱:技术、方法与案例》

想要拥有这本含金量超高的专业书籍么?

评论区说说

你对知识图谱的前景展望

或是为邵浩老师新书打call!

评论前5名

我们将送上这本热气腾腾的新书!

快来参与吧~

(截止时间:本周五中午12点)

扫码观看!

本周上新!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方亮剑!德官员窜台不到48小时,中国直击德命脉,台独幻想破灭

中方亮剑!德官员窜台不到48小时,中国直击德命脉,台独幻想破灭

共工之锚
2026-05-28 12:23:28
山东该反省了:GDP全国第三,民风淳朴,为何在舆论场任人宰割?

山东该反省了:GDP全国第三,民风淳朴,为何在舆论场任人宰割?

道总有理
2026-05-27 20:34:29
中一签最高赚32万!武汉又诞生大牛股

中一签最高赚32万!武汉又诞生大牛股

新浪财经
2026-05-28 18:14:01
婚结早了!何超莲没想到,央剧《主角》竟让老公窦骁实现口碑逆转

婚结早了!何超莲没想到,央剧《主角》竟让老公窦骁实现口碑逆转

翰飞观事
2026-05-27 19:30:26
浙江400万砸店事件引公愤!老实人被做局掏空血汗钱,更惨在后头

浙江400万砸店事件引公愤!老实人被做局掏空血汗钱,更惨在后头

爱写的樱桃
2026-05-27 20:39:36
上海被严重低估的7所王牌大学!实力不输复旦交大,本地人悄悄报

上海被严重低估的7所王牌大学!实力不输复旦交大,本地人悄悄报

糖逗在娱乐
2026-05-28 21:14:56
历史第一球霸!保罗拿球他不过半场

历史第一球霸!保罗拿球他不过半场

林子说事
2026-05-28 13:37:51
“难以击败”——哈里·凯恩预测欧冠决赛阿森纳对阵巴黎圣日耳曼

“难以击败”——哈里·凯恩预测欧冠决赛阿森纳对阵巴黎圣日耳曼

绿茵情报局
2026-05-28 16:50:02
苏提达王后48岁生日有排面:全国放假2天,王冠照配紫色花台尊贵

苏提达王后48岁生日有排面:全国放假2天,王冠照配紫色花台尊贵

照见古今
2026-05-28 18:24:27
原子弹炸后,百年内不能住人,为何如今广岛和长崎住满了人

原子弹炸后,百年内不能住人,为何如今广岛和长崎住满了人

抽象派大师
2026-05-28 00:09:53
王楚然搞“剧组夫妻”被实锤!?

王楚然搞“剧组夫妻”被实锤!?

八卦疯叔
2026-05-28 11:28:04
《主角》龚丽丽给易青娥下药!没想到,苟存忠死前一句话救她一命

《主角》龚丽丽给易青娥下药!没想到,苟存忠死前一句话救她一命

洲洲影视娱评
2026-05-28 15:39:25
西红柿的最佳搭配不是鸡蛋,而是它!夏天吃护血管,远离便秘

西红柿的最佳搭配不是鸡蛋,而是它!夏天吃护血管,远离便秘

芹姐说生活
2026-05-28 15:08:48
何洁取关苏醒!连发小作文吐槽难相处,晒聊天记录这操作你站谁?

何洁取关苏醒!连发小作文吐槽难相处,晒聊天记录这操作你站谁?

陈意小可爱
2026-05-27 13:57:28
孔子姓什么?公务员考试一道简单送分题,难倒了大部分人

孔子姓什么?公务员考试一道简单送分题,难倒了大部分人

长风文史
2026-05-27 17:20:34
官方:沃尔夫斯堡宣布6名球员离队

官方:沃尔夫斯堡宣布6名球员离队

懂球帝
2026-05-28 13:51:29
“最佳血糖”是多少?建议:过 50 岁以后,血糖最好控制在这范围!

“最佳血糖”是多少?建议:过 50 岁以后,血糖最好控制在这范围!

坠入二次元的海洋
2026-05-28 14:15:07
狗在交配时会锁结30分钟无法中断,如此危险的动作为何没被淘汰?

狗在交配时会锁结30分钟无法中断,如此危险的动作为何没被淘汰?

宇宙时空
2026-05-27 16:00:16
宏远速递!朱芳雨宣布新决定,广州放弃买断徐昕,崔永熙生日快乐

宏远速递!朱芳雨宣布新决定,广州放弃买断徐昕,崔永熙生日快乐

兰亭墨未干
2026-05-28 15:28:16
越扒越有,景甜又被曝猛料,富商要求2亿和解费,张继科太无辜

越扒越有,景甜又被曝猛料,富商要求2亿和解费,张继科太无辜

八斗小先生
2026-05-26 11:25:19
2026-05-28 22:44:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2393文章数 596关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

男子养了3万多只鸭子雨后被冲走2万多只:损失70多万

头条要闻

男子养了3万多只鸭子雨后被冲走2万多只:损失70多万

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

特朗普重新起诉华尔街日报 索赔百亿美元

汽车要闻

宋Ultra DM-i售12.99万起 选装天神之眼B承诺一年城市领航兜底

态度原创

时尚
房产
本地
亲子
公开课

光脚、背“外卖盒”、羽毛头饰...早春秀谁赢了?

房产要闻

突发重磅!三亚新机场公司正式成立!

本地新闻

用剪纸的方式,打开江苏扬州

亲子要闻

安踏儿童携手上海六院国家骨科医学中心,落成儿童足弓成长实验室

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版