网易首页 > 网易号 > 正文 申请入驻

知识图谱技术:工程化视角下的知识图谱特性及支撑应用总结

0
分享至

目前,各大知名公司也陆续推出了自己的知识图谱产品,如百度知心、搜狗知立方、阿里巴巴的商品知识图谱、微软的概念知识图谱、Facebook的社交知识图谱等,初级阶段的行业知识图谱也开始落地,如金融领域中的知识图谱查询平台企查查、情报领域在抓捕本拉登时斩获战功的palantir(虽然技术细节弄不清楚)。

不过,从这些应用中,我们发现,一项成功的应用,是要解决一个特定场景下的特定问题的,而特定问题的解决对解决的手段有严格的定义和约束,知识图谱也是一样。它的应用场景肯定是与知识图谱自身的技术特征相匹配的。

本文主要从工程化的视角谈谈知识图谱与语义网络、语义网的区别,并归纳出知识图谱的技术特性,以及各技术特性所支撑的应用形态,以增强对该技术的理解。

一、再谈知识图谱的工程化理解

知识图谱本质上是一个语义网络,是当下大数据以及应用驱动的综合性结果。

从形式上,语义网络(semantic network)、语义网(semantic web)、知识图谱(knowledge graph)三者十分相关,三者是不同时代的产物,但本质上是好相通的,我们可以认为,在知识表达的角度,知识图谱是对语义网络的强化版以及语义网的简化版,是介于两者之间的一个中间状态。

语义网络提出得最早,在1960年代提出,这是为了描述人类知识而采用的一种图结构表示方法,这种表示方法与语义网、知识图谱在表现形式上基本一致

进入21世纪,互联网开始萌芽,为了实现万物互联,对网络上的资源进行统一标记,语义网在语义网表达方式的基础上引入了基于本体的语义层次化组件,对资源的类型、构成以及表示方式都进行了严格的定义,但这样的结果就是过于“学术”,知识表达过重,而无法进行快速工程化以及满足行业知识处理的需求。

进入2010年后,随着软硬件的发展以及互联网的大规模普及,各行各业都积累了大量的数据,进入“信息过载”时代,因此,如何进行知识简化,并支持工程化应用的知识图谱对“语义网络”和“语义网”有了更高的要求。

下表对三者之间的区别进行了对比:

我们可以看到:

语义网是与语义网络不同的概念,语义网络的出发点不是为了描述人类知识,而是为了表示web资源,属于web资源的一种描述框架,为了“共享”、“标准”设计了一些十分繁重的规范标准。

与语义网中所描述的以网络资源作为唯一实体不同,知识图谱中的节点是以实体作为表示,在本体表示上是对语义网的一个简化版本,对语义表示这块的约束进一步弱化,在逻辑的语义表达方面降低了要求,并突出以事实型知识为主的重要性。

如,Freebase知识表示框架只包含对象-Object,事实-Facts,类型-Types 和属性-Properties,一般的领域知识图谱只定义实体类型、实体关系类型、实体属性类等,相当于只是采用了语义网中的RDF层次,而弱化RDFschema以及本体OWL。不过,对语义和逻辑的弱化,使得知识图谱本身不具备推理能力(语义网可以通过预先定义好的规范标准进行推理)。

2、知识图谱的工程化视角

虽然从最初的逻辑语义网络(semantic-net)、到语义网(semantic-web)再到Linked-data,在到现在的大规模应用的知识图谱,已经前前后后经历了将近50年的时间,而关于知识图谱的理解和概念还处于不同的变化当中。

身处不同背景的人对知识图谱会有不同的理解。我们可以从几个方面来看:

从AI的视角来看,知识图谱是自然语言处理中的一项关键技术,目的在于使用实体识别、实体关系(属性)抽取、实体对齐与融合技术对知识进行结构化,这个观点通常来自于算法工程师

从数据库视角来看,知识图谱是一种新型的知识存储结构,即采用图的方式来对数据进行存储,如代表性的RDF数据库、Neo4j图数据库等,这个观点主要来自于数据库存储、设计等的数据工程师

从知识表示视角来看,知识图谱是计算机理解知识的一种方法,采用事实三元组的形式进行知识表示,并在此基础上实现智能推理,倾向于理论计算机研究员

从web视角来看,知识图谱是知识数据之间的一种语义互联或组织形式,通过对数据的标记和链接,形成对数据的互联,这个在做情报分析人员(以图书馆研究员为代表)

此外,在应用上,目前将知识图谱等同于知识图谱可视化和基于知识的问答的理解还有很多,这是知识图谱的最终呈现形态,是最朴素的理解方式。

二、基于知识图谱抽象性的问答决策应用

语义抽象与图结构是知识图谱的一项重要特征。知识图谱是一种很抽象的知识表示形式,它将知识从上下文语义丰富的自然描述中抽象并抽离出来,形成以<实体,关系,实体>为表达形式的图结构。

这种高度语义抽象的图结构是知识图谱最为重要的技术特征,将知识进一步概括成为一个词、一个短语或者一句话,这使得在查询、问答等应用场景中能够给出直截了当的结果,例如,在百度中询问珠穆朗玛峰高度时,直接返回“8848.86m”这一答案。

1、更直接、更丰富、更简洁的搜索结果

与之前传统搜索方式不同,基于知识图谱的搜索问答,可以使得结果更为准确,面对用户搜索关键词意义的多重性,知识图谱可以展示最全面的信息,提供更多机会命中用户需求。

搜索结果更为全面,利用全面的摘要,相关联结果呈现更详细。搜索结果更广深搜索,通过知识图谱建立的关系让用户可以通过互动、点击拓展搜索的深度和广度。

在完成对知识的抽象之后,实体之间的关联信息进一步简化,直接以关联边相联,借此形成庞大的语义关联网络,这种网络记录了数据之间的强相关性,这是信息推荐、社会网络分析等场景十分需要的技术特征。

例如用户看过电影《叶问》后,在搜索结果的右侧,给出了甑子丹的相关定影,如《叶问三》、《街头杀手》,也给出了与叶问相关的任务列表,如池内博之、叶准、李小龙以及霍元甲,这种推荐结果更具备可理解性。

又如,在搜索“珠穆朗玛峰”后,能够得到“乔戈里峰”等其他高峰信息和链接方式。

2、基于业务知识抽象的决策辅助

由于知识图谱中所存储的知识单元是对业务知识的抽象和业务逻辑的抽象,这种思想与搜索之外的场景相结合后,能够引申出诸多场景。

例如,在工业测试和运维领域,通过应用业务日志、CMDB 配置系统等数据构建异常知识图谱,运用推导模型进行根因定位,对存在异常的子系统及其相关的IP、DCN、服务信息进行提取,对异常知识图谱进行裁剪,在此基础上应用规则引擎推导出根因结论。

在以石油领域为代表的传统行业中,构建设备知识图谱,将设备的生产参数变化转换为状态变化和各种生产现象,模拟专家分析设备运行过程,对设备运行状态进行预测,可以基于不同生产现象的变化在决策图谱中自动选择最优措施方案,生成决策建议,通知现场管理人员进行现场作业和处理;

在供应链领域,可以收集产品知识、物流知识、采购知识、制造知识、交通信息等数据构建供应链及零部件图谱,将采购、物流、制造联系起来,实现供应链风险管理与零部件选型等服务。

三、基于只是图谱图结构的信息穿透

知识图谱提供了数据的全局视图和更语义化的表达,给从业者带来了大数据驱动的决策能力。

知识图谱的图结构,将知识节点之间进行关联,形成了一个庞大的知识网络,这个网络可以按着“文不如表、表不如图”的信息展示优先级,与数据可视化进行联手,如以Citespace,D3js等可视化手段实现的实体点击、展开、拖拽、缩放等样式,在视觉上展现出知识之间路径发现能力。

在这个基础上,也为信息穿透在各个领域的后续分析提供了基础。

1、基于图谱信息穿透的金融风险监控

以金融领域为例,金融业以领域内部数据为主,通常规模巨大,知识结构复杂,对数据质量要求高,需要融合多来源的数据,并且应用形式丰富全面,要求有较强的可解释性。通常会用于授信审批、贷后监控、异常交易监控、反欺诈、反洗钱、客户经营、市场推广、客户推荐等多个方面,利用知识图谱能够将隐藏在非常复杂关系网络里的作案模式清晰地展示出来。

例如,反欺诈是金融行业中非常重要的风控环节,其难点在于如何把不同来源的数据整合到一起,构建反欺诈策略引擎,借助图谱数据进行知识推理和规则检验,有效识别出异常信息和欺诈行为。例如客户张三和李四分别申请某银行信用卡和无抵押的消费贷,他们填写的是同一个公司电话,但填写的公司名完全不一样,当将张三和李四的信息关系起来时,“一致性验证”规则会触发,并提示这是一个不一致的风险点。

2、基于图谱信息穿透的公安侦查分析

与金融领域类似,公安政务领域中包括人、事、地、物、组织、虚拟身份等不同实体,属性联系、时空联系、语义联系、特征联系、位置联系等不同关系型数据,而在目前大数据联网的条件下,公安领域中的大部分数据都是以结构化信息进行存储的。

构建起公安政务知识图谱,可以构造出以人为核心的丰富上下文信息,包括个人的基本属性(身高、身份证、亲属、住址),个人的社会行为信息(移动轨迹、住宿信息等记录)、个人的经济信息等等,这在案件侦查等领域中具有十分重要的应用。例如在进行案件犯罪侦破时,将案件所涉及的人、物、组织以及其他相关的关联关系展开综合分析,将与嫌疑人相关联的人物、事件,结合时间、空间等关联分析,抽离出嫌疑人的社交关系子图图谱。

同时展开分析研判,掌握犯罪团伙组织架构,识别潜在的核心头目、中间人等其他团伙成员,发现犯罪团伙的行为特征、活动轨迹、异常行为类型,也可以聚合银行账户信息、资金转账信息、ATM 取款信息、多媒体图像视频等信息,通过对大量账号的资金多级交易流向分析、时空分析,识别出在复杂资金交易网络中的异常交易行为,确定可疑账户,结合 ATM 取款的地理和图像视频信息,锁定嫌疑人。

四、基于只是图谱表示法的数据治理

2015年8月31日,国务院印发了《促进大数据发展行动纲要》中提出,“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。”大数据治理是当前大数据时代的重要基础性问题。

大数据治理从大数据的产生到现在已经经历了十多年的发展,涉及元数据管理、主数据管理、数据质量、业务流程、数据架构、数据标准、数据生命周期、数据安全等多个方面的的内容,同时也出现了如国标GB/T34960的数据治理框架在内的数据治理方法。近年来,利用知识图谱作为数据标准进行数据的工作逐步展开

1、基于传统模式的数据治理

自从互联网在我国得到广泛使用后,各类数据、应用都逐步进入信息化,公司和企业为了实现自身的业务需求,逐步开发以软件系统为代表的私有产品部署,随后在云计算的推动下,开始部署云上业务,实现共享,而实际上每个业务系统还是独立运作的。

到后面,由于认识到数据开放和共享的重要性,开始提出利用分类、归集、打标签的方式进行数据管理,形成了大量的数据层级目录信息。这些举措暴露出传统模式下数据孤岛以及数据利用率不高数据治理的两大缺点,前者导致数据之间无法关联,发挥数据价值,后者造成了数据的浪费。而且在异构数据、非结构化数据的利用上依然存在许多不完善的地方。

实际上,随着时间的演变,每个领域或者公司随着时间的迁移积累了大量的异构数据,如半结构化表格数据、结构化CSV数据、非结构化文本数据等,在整个过程中出现包括Oracle、MySql、SqlServer、DB2、Postgres等造成的底层数据格式不统一,CRM系统、ERP系统、OA系统、工单系统、订单系统等系统杂乱造成的数据应用系统不统一,这使得历史数据沉积,迁移困难。业务系统老旧,升级困难,业务数据分散,查询困难,急切地需要企业以及政府数据实现智能化管理。

2、基于知识图谱的数据治理

前面说到,知识图谱是语义网的一个延伸,作为Web3.0的美好憧憬,为互联网中的每一个数据都分配一个唯一的标识,并彼此互联,形成一个庞大的数据互联网络。以知识图谱作为目标知识形态,采用技术手段分别进行提取、转换,形成一个统一、规范、无歧义的知识数据库是解决以上智能化管理的一个突破口。

例如,首先按照业务需求,明确数据类型、数据量级、数据接入方式、数据更新频率等,在经典的大数据治理基础上定义一个包括概念、实体、属性、关系、事件、业务规则、链接多模态数据在内的统一知识表示模型,对数据进行统一的表示。其次,在统一的表示基础上针对结构化、半结构化的数据进行实体识别、属性的抽取、事件抽取等处理,实现统一的知识实例,并根据数据探查和定义实时将海量、多源、异构数据提取、清洗、形成一个大的数据中心。

五、总结

本文主要从工程化的视角谈谈知识图谱与语义网络、语义网的区别,并归纳出知识图谱的技术特性,以及各技术特性所支撑的应用形态,以增强对该技术的理解。

一个技术的落地,必将是与其技术特性相关联的,而且必定需要与工程化、实用化紧密结合。

之前写过一篇反思文章,对该技术的特性进行了论述,两篇文章可以一起作呼应,得到一个更为体系的认识。

本文作者

刘焕勇

老刘,刘焕勇,NLP开源爱好者与践行者
主页: https://liuhuanyong.github.io 。

本文来自:公众号【老刘说NLP】 作者:刘焕勇

Illustrastion by Ekaterina Rogova from icons8

-The End-

扫码观看!

本周上新!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
药水泡杨梅的黑心商户,说了一句特别精彩的话

药水泡杨梅的黑心商户,说了一句特别精彩的话

阿振观点
2026-05-20 10:14:23
跟随子女去了趟台湾,实话实说,台湾人的生活,简直让我超级羡慕

跟随子女去了趟台湾,实话实说,台湾人的生活,简直让我超级羡慕

芳姐侃社会
2026-05-20 18:23:56
投入紫金矿业32万元持有十年从未卖出,上海司机竟然净赚350万

投入紫金矿业32万元持有十年从未卖出,上海司机竟然净赚350万

真实人物采访
2026-05-20 09:00:58
旅行中的性爱指南:如何在陌生的城市疯狂一把?

旅行中的性爱指南:如何在陌生的城市疯狂一把?

精彩分享快乐
2026-05-21 12:14:15
上海交大樊同学事件:谁才是真正厚颜无耻之人

上海交大樊同学事件:谁才是真正厚颜无耻之人

朝廷心腹
2026-05-20 14:08:16
马化腾反思腾讯AI掉队,砸10亿推广的元宝“消失”了

马化腾反思腾讯AI掉队,砸10亿推广的元宝“消失”了

青橙财经
2026-05-19 19:22:45
中国足球为什么总能让最有天赋的年轻人,在最该比赛的时候没球踢

中国足球为什么总能让最有天赋的年轻人,在最该比赛的时候没球踢

中场阴谋家
2026-05-21 06:34:56
贫困生不配喝咖啡吗?男大学生每天一杯瑞幸,被室友实名举报了!

贫困生不配喝咖啡吗?男大学生每天一杯瑞幸,被室友实名举报了!

今朝牛马
2026-05-20 22:58:32
狐狸尾巴藏不住!《监狱来的妈妈》暗藏猫腻,孩子衣服上有星条旗

狐狸尾巴藏不住!《监狱来的妈妈》暗藏猫腻,孩子衣服上有星条旗

魔都姐姐杂谈
2026-05-19 12:53:45
战争不再按照俄罗斯剧本发展,局势发生巨大变化

战争不再按照俄罗斯剧本发展,局势发生巨大变化

山河路口
2026-05-18 21:33:51
苏军如何击败日本兵?一个日本老兵说:苏军的进攻方式太不道德

苏军如何击败日本兵?一个日本老兵说:苏军的进攻方式太不道德

鹤羽说个事
2026-05-20 22:33:03
日媒发现:在澳大利亚,中国首超日本

日媒发现:在澳大利亚,中国首超日本

环球时报国际
2026-05-21 08:47:51
我敢打赌99%的男人会选绿衣服女孩做老婆,看腿型就知道

我敢打赌99%的男人会选绿衣服女孩做老婆,看腿型就知道

娱乐洞察点点
2026-04-21 00:47:32
下一任007选角标准曝光:亨利·卡维尔因年龄出局

下一任007选角标准曝光:亨利·卡维尔因年龄出局

赴一场山海啊
2026-05-19 02:07:52
又遥遥领先?国产“固态电池”宣布装车,充电10分钟续航1000公里

又遥遥领先?国产“固态电池”宣布装车,充电10分钟续航1000公里

胖福的小木屋
2026-05-18 16:36:53
日本,真崩了?一天之内,三记闷棍,老百姓哭都没地方哭

日本,真崩了?一天之内,三记闷棍,老百姓哭都没地方哭

史虇的生活科普
2026-05-14 18:13:59
人妻熟韵天花板|丰腴饱满身段,随性松弛尽显成熟风情

人妻熟韵天花板|丰腴饱满身段,随性松弛尽显成熟风情

只要高兴就好
2026-05-21 11:38:04
起风了!李德维果断出手,金溥聪或面临羁押,马英九这回尴尬了!

起风了!李德维果断出手,金溥聪或面临羁押,马英九这回尴尬了!

老揽才是我的外号
2026-05-20 15:52:11
《主角》流出片酬单太讽刺!张嘉益500万秦海璐400万相声名角15万

《主角》流出片酬单太讽刺!张嘉益500万秦海璐400万相声名角15万

乐悠悠娱乐
2026-05-21 10:06:56
瘦肚子最快的方式: 不是跑步和挨饿,而是干掉内脏脂肪!

瘦肚子最快的方式: 不是跑步和挨饿,而是干掉内脏脂肪!

运动健身号
2026-05-13 07:20:06
2026-05-21 13:48:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2383文章数 596关注度
往期回顾 全部

科技要闻

好到离谱也不够!英伟达交出816亿美元营收

头条要闻

特斯拉监督版FSD登陆中国 急招测试技师:月薪最高3万

头条要闻

特斯拉监督版FSD登陆中国 急招测试技师:月薪最高3万

体育要闻

常住人口7000的小镇,拥有了一支德甲球队

娱乐要闻

同行吐槽汪涵野心重 爆雷37万人受损

财经要闻

英伟达业绩超预!指引再新高仍不够亮眼

汽车要闻

26.98万起步 看小鹏GX如何诠释一车多能以及满配的科技与豪华

态度原创

本地
家居
游戏
艺术
公开课

本地新闻

用云锦的方式,打开江苏南京

家居要闻

风格碰撞 个性与艺术

《深海迷航2》官方回应矿脉问题 下次更新会改善

艺术要闻

崔雪冬 2026年油画新作

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版