网易首页 > 网易科技 > 网易科技 > 正文

2020 WAIC明略科技吴信东深度解读知识图谱的自动构建

0
分享至

(原标题:2020 WAIC明略科技吴信东深度解读知识图谱的自动构建)

2020年7月11日,世界人工智能大会WAIC·开发者日:开发·开源·社区主题论坛召开,全球有影响力的图灵奖得主、顶级技术专家和开发者代表云聚一堂,对当下人工智能前沿理论技术和开发实践进行深度解读。明略科技首席科学家、明略科学院院长吴信东受邀发表主题演讲,分享知识图谱自动构建的方法论和实践,并宣布明略科技HAO图谱开放Text2KG API能力,赋能开发者和企业级用户。

数据图谱不是知识图谱

吴信东认为,大多数情况下,我们所说的、所用到的图谱并没有后台知识,只是数据图谱,而不是知识图谱。知识图谱应该有三个组成部分,首先是概念,即图谱的节点。概念跟概念之间是连接,是关系,即图谱的边。只有概念和关系还不够,还需要背景知识解释概念,和连接的语义。如果只有概念、关系,是数据图谱,而不是具有背景知识的知识图谱。

从数据图谱到知识图谱的构建,可分成三个阶段。第一阶段,人工阶段。对当前问题充分理解,把概念、关系形成节点和边,用计算机程序的方式进行连接、沟通。第二阶段,众包构建。当实体太多,关系类型非常复杂时,需要涉及到群体,形成分布式的开发环境进行集成。第三阶段,自动构建。自动构建,始于美国的华盛顿大学,卡内基梅隆大学,Google的一些早期项目,采取计算机辅助,做自动融合、自动容错的检测机制。

知识图谱的构建,首先要有数据来源。数据类型可分成结构化数据,例如,表格数据,一个成型的数据库,关系型数据库,或者其他层次化的数据;非结构化数据,包括新闻网页,手写的字段,图片,视频,中间可能是根据需要、场景采集到的数据片段;半结构化数据,例如,网络文章,虽然不是完全结构化的,但一般而言都有标题、作者、摘要,分段落以及结束语,所以具备一定的形式,即半结构化数据。

知识图谱的构建,要考虑到三种不同的数据类型。其中,非结构化数据,由于语言、描述形式呈现了多样性或灵活性,因此抽取实体、语义关系是知识图谱自动构建面临的挑战。具体而言,信息抽取,需要判断哪些信息的短语、动词是和知识图谱构建相关的。知识融合,需要把每个句子里面存储的不同片段的信息,形成一个整体,所形成的描述形式用于其他的知识处理。

无论是从信息抽取做知识融合,还是做知识处理,最核心的三部分,一是实体涉及到的名词,二是涉及到中间的关系,三是实体和关系之间,可能有同名,有共线(Co-references),如何冲突消解。

知识图谱的构建方法

图谱构建主要有三大挑战:第一,在构建中间可能做了一些信息搜索;第二,后台的知识库可能做了一些信息冗余;第三,随着时间和空间的变化,信息要进行更新迭代。那么,如何构建知识图谱?方法主要有四大类。

第一类是逻辑建模,用逻辑描述所要抽取的知识图谱包含了哪些概念、关系和背景知识。目前,大多数知识图谱都是逻辑+概率。逻辑,是名词跟名词的关系。当涉及到日常生活、社会经济系统,这些名词的关系不是确定的,所以要加上概率的描述方式。概率+逻辑,通常是用来描述知识图谱的第一种技术手段。其中涉及到一些技术问题,如,逻辑变量、逻辑规则,当量非常大时,使用马尔可夫逻辑网对问题进行简化处理。对问题求解关注度比较高的一些描述形式,把马尔可夫逻辑网介入到概念衍生过程中,达到高效的知识图谱构建和利用。

第二类知识图谱的构建方法是隐含空间,涉及隐含变量,即有哪些背景知识来解释文本。文本包含的社会背景、人物关系、组织结构,没有在文本中体现,但是要进行了解、梳理。隐含空间分析有多种方法,第一种方法是距离模型,一个三元组,一个head,通过一个relation,推演将来tail究竟是什么。例如,我走到哪一个大楼,到了具体哪一层,中间可能涉及到隐含的变量。假设我今天的目标是要去访问客户,或者做一个项目答辩。根据当前的情况,背景的隐含空间,可以映射我的目标,要到什么地方去,这就涉及到背景知识。所以隐含变量和隐变量模型,核心都是有一些变量是无法看到的,文本没有进行具体刻画的隐含信息。这就涉及到神经网络经常用到的张量模型,张量是全方位的,是三维空间的描述,用像机、二维模型刻画,有些变量、特征不容易展现出来。由此引出矩阵分解,一个矩阵中间可能有一个隐含矩阵,从M到N,中间让它变成N×K的矩阵的描述形式。所以,隐含变量带来了很多的空间和机会,相对困难。现在国内用的比较多的是TransE翻译模型,是从当前的一个变量,翻译到一定程度。

第三类知识图谱的构建方法是人机交互,通过人在回路,以计算机和人交互的方式,完成对信息的搜集、聚合、消解。核心是一个交互接口。人机交互的图谱构建,基本上有三种不同的模式。第一种模式是通过设计一个计算机程序,让计算机程序对人类专家进行提问,一旦把这些问题进行完整的回答,就把该问题涉及到的概念和关系建立模型,生成知识图谱。人机交互的范式里有Structured Interactive Knowledge Transfer(SIKT),即结构化的交互知识牵引,通过计算机交互,把人脑中存在的关于问题的描述,形成知识图谱。面向对象,把实体里面关于知识的描述、知识的牵引进行刻画,形成Knowledge Object的表示方法,这是第二种模式。第三种模式,是明略科技近两年所做的一种尝试,把人类智能、人工智能、组织智能所涉及的概念、关系进行描述,通过人在回路进行问题的刻画。这三种模式,都涉及人机交互,也涉及一些特定的行业知识。

第四类知识图谱的构建方法是本体模型。本体模型的意思是,我们在读一个文本的同时,后台有一个词典,或者是有一个知识库,帮助我们理解当前的问题描述。国际上比较经典、成功的是Cyc循环获取方法,基本上有七个步骤,从问题领域的界定,到创建实例,来形成知识图谱。Ontology Development七步法中间也涉及本体的半自动构建,利用一些专业词典、叙词表,缺点是在复用本体的概念和关系时,对当前的问题不一定能够做到完全匹配。而自动构建则有基于语言规则的方法和基于机器学习的方法。基于语言的方法,涉及到一些语义的模式。基于统计学的机器学习方法,涉及到数据的聚类,还有一些模式数据的挖掘。

图谱的自动构建涉及两个核心要素,第一,要有一个领域知识库,第二,对数据和知识库进行匹配时,需要自动纠错、自主学习,因此强化学习和人机交互是关键。

HAO图谱的核心技术和应用场景

明略科技的HAO图谱,基于HAO智能框架。其中“HAO”,指代的是Human intelligence,Artificial intelligence,Organizational intelligence。目前,以明略科技HAO智能理论框架为基础,形成了从感知到认知,再到决策的三个能力阶段的HAO技术体系,包括HAO感知、HAO数据一体机,HAO交互、HAO图谱、HAO模型、HAO情报、HAO预测,HAO代理、HAO排序等系列基础软件模型、应用工具和解决方案。

在HAO智能技术环境中,实现从数据图谱到HAO图谱。数据图谱在HAO交互技术环节完成。比如,演讲现场,HAO交互技术可以实时采集发言者的语音数据,然后HAO图谱技术可在后台实时生成图谱,首先把声音翻译成实体和关系,然后再精简、关联。“HAO”图谱是目前第一个从声音直接生成图谱的系统。

HAO图谱有三项关键技术。第一,句子级的信息抽取,生成名词和名词之间的关系连接以后,要理解中间哪些语义内容是句子级的,再从句子级,生成更高层次的内容分析。

第二,篇章级的信息抽取。多个句子就形成一个整体描述,整体描述中涉及多个概念、关系,描述一个整体现象,即是篇章级的信息抽取。

第三,动态和静态的知识表示。从不同的篇章中间做话题演化时,随着社会、经济和当前讨论热点的变化,话题关注点可能发生迁移,因此话题目录要做一些变化,当进行知识图谱构建抽取事件时,要考虑随着时间和空间的变化而变化,进行动态和静态的知识图谱的表示。

目前,HAO图谱已在公共安全、数字城市、金融、工业、广告营销等多个场景中落地。

在舆情分析和个性化营销场景中,基于知识图谱,可以把用户产生的评论,与品牌相结合,去看用户的舆情走势,然后将结果整合到BI系统,为运营人员提供用户需求洞察,同时,在此基础之上进行千人千面的个性化广告生成和智能商品推荐。

在智能导购场景中,在尊重和保护用户隐私和数据安全的前提下,把销售沟通话术,经过语音转成文本,进行话题分类,形成话题转移的知识图谱,计算出话题之间转移的概率,帮助销售人员复盘,分析流单的主要环节,改善话题转移和引导,提高成单率。

HAO图谱技术模块,依托明略科技新一代人工智能国家开放创新平台,已于2020年7月11日正式对外开放Text2KG API,赋能更多开发者和企业级用户,基于明略科技知识图谱的底层技术,更高效地探索更多行业细分场景。

相关推荐
热点推荐
霸王餐女后续:账号被扒连夜清空作品,知情人曝更多,早有目的

霸王餐女后续:账号被扒连夜清空作品,知情人曝更多,早有目的

阿纂看事
2025-12-13 09:24:46
没有得到任何报酬,朝鲜海外工兵部队回国

没有得到任何报酬,朝鲜海外工兵部队回国

IN朝鲜
2025-12-13 14:13:31
太像了!87岁范曾和亲儿子全家福公开,孩子与爸爸妈妈共一张脸…

太像了!87岁范曾和亲儿子全家福公开,孩子与爸爸妈妈共一张脸…

火山詩话
2025-12-14 05:49:12
见证历史,中国篮球出现最奇葩比赛,CBA彻底成了大笑话

见证历史,中国篮球出现最奇葩比赛,CBA彻底成了大笑话

宗介说体育
2025-12-13 15:46:24
其实吧,大明跟你一点关系都没有,尤其如果你不姓朱的话

其实吧,大明跟你一点关系都没有,尤其如果你不姓朱的话

熊太行
2025-12-12 00:08:15
大刀斩鬼!东部战区这次警告日本,用了一个极为罕见的称呼

大刀斩鬼!东部战区这次警告日本,用了一个极为罕见的称呼

南宫一二
2025-12-13 14:31:41
松岛辉空又给张本美和甩脸子了:采访途中,“少爷”突然离席!

松岛辉空又给张本美和甩脸子了:采访途中,“少爷”突然离席!

十点街球体育
2025-12-14 00:05:04
上百万支体温计两周抢空;西北唯一生产水银体温计老厂,投产55年后迎生存大考

上百万支体温计两周抢空;西北唯一生产水银体温计老厂,投产55年后迎生存大考

大风新闻
2025-12-13 20:44:05
你办纲丝节,我收徒弟!著名相声演员杨议喜收爱徒 女人身份曝光

你办纲丝节,我收徒弟!著名相声演员杨议喜收爱徒 女人身份曝光

社会日日鲜
2025-12-13 06:36:53
贪财又好色,德不配位!这3位老艺术家,“晚节不保”一点都不冤

贪财又好色,德不配位!这3位老艺术家,“晚节不保”一点都不冤

娱说瑜悦
2025-12-13 19:07:32
激活密钥:TGFML-2MN8T-Y4QWQ-K7JD9-DYH26

激活密钥:TGFML-2MN8T-Y4QWQ-K7JD9-DYH26

部落冲突打法锦集
2025-12-12 21:31:07
志愿军三个副司令,回国后三种命:邓华跌得最惨,韩先楚稳坐23年,只有他活成了两代上将

志愿军三个副司令,回国后三种命:邓华跌得最惨,韩先楚稳坐23年,只有他活成了两代上将

文史明鉴
2025-12-12 21:08:17
颠覆认知!决定你寿命的第一要素,根本不是运动,也不是饮食!

颠覆认知!决定你寿命的第一要素,根本不是运动,也不是饮食!

徐德文科学频道
2025-12-12 22:58:58
上海地中海大叔与29岁女主播爱情,亲密合照流出,共同买房引骂战

上海地中海大叔与29岁女主播爱情,亲密合照流出,共同买房引骂战

老猫观点
2025-12-10 08:15:55
张柏芝不再沉默!坦白三胎儿子生父身份,难怪谢霆锋拒和王菲领证

张柏芝不再沉默!坦白三胎儿子生父身份,难怪谢霆锋拒和王菲领证

查尔菲的笔记
2025-12-13 18:47:41
欧尔班:欧盟若动用俄被冻结资产将引发严重问题

欧尔班:欧盟若动用俄被冻结资产将引发严重问题

环球网资讯
2025-12-14 07:00:04
看明白了,2026年春节要“凉凉”?不是没钱,而是累得不想再折腾

看明白了,2026年春节要“凉凉”?不是没钱,而是累得不想再折腾

冷紫葉
2025-12-13 15:01:11
赴俄朝鲜工兵120天后回国,金正恩发表讲话:自己每天都看战报,现在终于放心了

赴俄朝鲜工兵120天后回国,金正恩发表讲话:自己每天都看战报,现在终于放心了

红星新闻
2025-12-13 19:10:10
2-0!亚马尔低迷,拉菲尼亚闪耀诺坎普,巴萨7连胜,甩开皇马7分

2-0!亚马尔低迷,拉菲尼亚闪耀诺坎普,巴萨7连胜,甩开皇马7分

我的护球最独特
2025-12-14 03:28:06
江苏女孩喝多了让人钻了空子,男友提分手,她跪地求原谅

江苏女孩喝多了让人钻了空子,男友提分手,她跪地求原谅

街声巷闻
2025-12-08 20:18:52
2025-12-14 08:35:00

科技要闻

比亚迪、小鹏、北汽,集体表态

头条要闻

女子225个快递"仅退款"被披露后又有商家发声:也是她

头条要闻

女子225个快递"仅退款"被披露后又有商家发声:也是她

体育要闻

有了风骚白人秃头,忘掉谈了10年的前任

娱乐要闻

插刀门后,印小天一举动实现口碑逆转

财经要闻

镁信健康闯关港交所:被指窃取商业秘密

汽车要闻

表面风平浪静 内里翻天覆地!试驾银河星舰7 EM-i

态度原创

数码
健康
旅游
手机
军事航空

数码要闻

1399元 铁威马发布M.2硬盘盒:支持雷电5 6GB文件1秒传

甲状腺结节到这个程度,该穿刺了!

旅游要闻

江西上饶通报:望仙谷景区明火已被扑灭 无人员伤亡

手机要闻

三星三折叠对比华为Mate XTs丨Galaxy Z TriFold新形态有何亮点

军事要闻

俄乌“和平计划”磋商顿巴斯成焦点

无障碍浏览 进入关怀版
×