网易首页 > 网易号 > 正文 申请入驻

图数据库:基于关系网络的非关系型数据库

0
分享至

本文核心要点:

  1. 图数据库是基于关系而搭建的数据库,有可扩展性、易读性和快速的基于关系查找的能力;
  2. 目前主流的图数据库是Neo4j、Cosmos DB,国内以阿里、腾讯为首的互联网巨头,在2018-2020年均根据自己的业务搭建了图数据库产品;
  3. 图数据库创业企业欧若数网、费马科技、创邻科技、蜀天梦图等企业获得了顶级VC、互联网巨头、传统数据库的投资,目前在A轮左右;
  4. 图数据库还处在发展初期,目前主要应用场景是社交网络、推荐算法、知识图谱、金融风控,但目前图数据库还没有标准的查询语言在具体场景下的应用还没有标准化。

随着我国国产化战略的实施和更多的资金投入,国产数据库在中国的占比从 2017 年的 16.5%上升到了 2020 年的近 50%。根据信通院测算,2020 年国产数据库规模约 241 亿,年复合增长率 23.4%。

这其中,传统国产数据库、云数据库和新型数据库创业企业都在努力提升技术水平和商业化能力,也受到资本方的关注。开源生态助力数据库的发展,分布式数据库、非关系型数据库、云数据库等概念逐渐落地成具体场景及应用。

本文从数据库发展的角度入手,解析图数据库的特点与技术,分析中国互联网企业的图数据库布局,及创业企业图数据库格局,探究图数据库未来的发展与应用。

01 数据库行业分类

按照存储类型划分,数据库主要可以分为关系型数据库与非关系型数据库。

传统的关系模型数据库是指建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。关系型数据库采用了关系模型来组织数据,其以行和列的形式存储数据。基于「表」的关系型数据库,有着横向可扩展性差、并行处理事务能力较低的缺点。

为了满足更多的高并发数据处理需求,以及更多元的数据存储、筛选需求,出现了多种非关系型数据库。非关系型数据库是对区别于传统关系型数据库的统称,也即不依赖于「表」的存储方式的数据库。目前流行的非关系型数据库主要有,键值存储、列存储、文档存储、图数据库等。

Gartner 在 2019 年的数据与分析峰会上预测 2020 年以后,全球图处理及图数据库的应用市场都将以每年 100%的速度迅猛增长,《2021十大数据与分析技术趋势》中又提到「到 2025 年,图技术将用于80%数据与分析的创新」。根据数据库流行度排行榜网站 DB-Engines的数据显示,图数据库的关注度增速远超其他类型的数据库。

在中国,虽然图数据库的公司成立都只有短短三四年,但均获得了来自顶级VC、互联网巨头、国产数据库巨头的投资。是近年来信创版块最值得关注的赛道之一。

(图片来自DB-Engines)

02 图数据库的起源与技术

图数据库虽然属于「非关系型数据库」,但却是真正注重「关系」的数据库。

图数据库起源于20世纪70年代,区别与传统关系型数据库以「表」的方式存储、以「代数」的逻辑计算,图数据库是以「图」的方式存储「图论」的逻辑计算的。图数据库使用节点和边来存储数据库,节点表示实体、边表示实体之间的关系。通过这样的结构通常可以模拟事物之间的关系。

图数据库的主要优势在于可扩展性、可阅读性、高效的基于关系查找的能力,以及较好的实时处理能力。

图数据库的发展主要来自于企业在存储和计算数据时候对表达数据之间「关系」的需求。在传统以「表」形式表达的数据库中,如果想要增加单条数据与数据之间的关系,则需要横向增加一列,工作非常繁琐;如果想要增加数据属性与属性之间的关系,则几乎无法做到。但在图数据库中,实体与实体之间通过「边」来联系,增加数据与数据之间的联系非常容易。

(图片来自https://pixabay.com/)

在做数据查询的时候,图与表的差异更加巨大。尤其是在多步查询中,图数据库的优势明显。以推荐算法为例:

一步查询「该用户浏览过的文章」,在图数据库与传统数据库中差异不大。

两步查询「该用户好友浏览过的文章」,在图数据库中可以直接找到这位用户的好友,再找到这些用户浏览的文章;但在传统数据库中,需要先查询到这位用户,再在用户的属性里找到好友,再通过好友作为关键词查找他们浏览的网页,在第二步的查找中就有了许多冗余。

三步查询「与该用户浏览过同一篇文章的人所阅读的其他文章」,在图数据库中就是用户-本文章-其他用户-其他文章;但在传统数据库里就已经几乎很难实现了。

(图片来自网络)

比如在上图中,可以向小强推荐共同喜欢《一个青年艺术家的画像》的小刚所喜欢的书《尤利西斯》。

与传统数据库一致,图数据库根据功能类型划分可以分为OLTP与OLAP。OLTP(Online Transactional Processing) 是事务型数据库的缩写,通常通过线上进行,需要处理的数据量较小、操作较为简单。OLAP(Online analytical processing) 分析型数据库则需要处理较大的数据量,一般会在本地进行。

传统数据库在发展过程中还研发出了HTAP (Hybrid Transactional/Analytical Processing) 混合型数据库,以同时满足事务型和数据分析型的需求。但目前主流的HTAP的架构是通过不同数据结构的存储引擎分别负责事务和分析两部分工作,通过分布式的方式存储在不同的位置。可以看到,这样的存储方式虽然在应用层面可以同时满足事务和分析的需求,但两部分需求本质上还是分开运行的。

目前看来,市面上还没有真正HTAP,还没有系统支持在TP中执行AP的场景。这主要是因为需要执行TP和AP计算的数据存储方式不同,整合起来复杂性较高。而在图数据库的应用中,对OLTP与OLAP融合的需求更大,因为在关系型场景下有更多的功能需要通过用户当下的行为(OLTP)与过往数据(OLAP)同时计算而成。

仰赖于开源生态与云计算基础建设、分布式存储技术,图数据库还在继续飞速发展。

03 国内外图数据库企业

根据DB-Engines今年九月的排名,目前中国图数据库企业上榜三家,分别是排名第15欧若数网的Nebula Graph、排名第26百度的HugeGraph、排名第30华为的GraphBase。

(图片来自DB-Engines)

目前图数据库使用量和市场占有率第一的公司是Neo4j。公司成立于2007年,于2010年2月发布第一款图数据库产品。Neo4j采取开源的模式,提供企业版和社区版两个版本选择。在功能上,企业版可以部署成高可用集群或因果集群,从而可以解决高并发量的问题;支持容灾、热备份、全部内核使用等。2018年11月,Neo4j产品副总裁Philip Rathle宣布,从 Neo4j 3.5 版本开始,企业版将仅在商业许可下提供,不再在GitHub上提供源代码。

目前排名第二的数据库Cosmos DB是Microsoft Azure在2017年推出的产品,数据库功能包括非关系型数据库图、文档、键值等类型,是云数据库的先行者。基于微软云自有的客户与基础设施优势,以及对于各种现有API的支持(Core SQL、Cassandra、MongoDB)带来的便捷性,Cosmos DB迅速发展。

主打原生并行图计算的新一代图数据库TigerGraph成立于2012年,历时整整五年的时间才发布了第一款图数据库产品。在Neo4j宣布闭源之后不久,TigerGraph于2018年12月宣布将TigerGraph GSQL三大类十个核心算法开源,并陆续推出了一些可视化工具。在TigerGraph看来,支持的数据规模和查询速度是图数据库的核心竞争力,而TigerGraph也在继续在实时深度关联分析的应用领域深耕。

放眼国内的企业,各大互联网公司纷纷根据业务需求搭建了自己的图数据库产品。

04 国内图数据库创业公司

随着国产化的加速,市场上产生了一些图数据库创业企业。虽然这些公司成立时间不长,但均获得了来自顶级VC、互联网巨头、国产数据库巨头的投资。

完全自研的图数据库需要较长的研发时间,与TigerGraph相似,国内的创业企业发布第一款图数据库产品均经历了数年,图数据库产品的发布主要集中在2018年及之后。这其中,数据库产品依旧以从老的技术方案上嫁接图数据处理的方案为主。

目前创业公司的图数据库应用领域主要是社交网络、知识图谱、金融风控等,客户群体集以世界五百强及大型互联网企业为主,整体的渗透率较低。

在开源和商业化选择方面,目前世界范围内开源图数据库占比68.4%。以欧若数网所研发分布式图数据库Nebula Graph在2019年发布第一个版本时就宣布开源,并通过开源社区的建设,逐步完善代码库。一般来说,国内云厂商提供的开源数据库的商业模式是「软件开源+私有云托管」的方式,也即「产品开源、服务收费」,但在2B底层技术领域,很少有以创业公司引领开源生态的案例。

从融资情况来看,目前的几家创业公司大多处在早期阶段,以A轮为主,有自研的产品和一些场景下的商业应用。各家公司的投资均来自知名科技类风投、头部互联网企业或传统国产数据库企业,可见赛道被资本看好,未来有较好的发展。

对于头部互联网企业来说,图数据库创业企业所提供的图数据库技术与互联网企业所提供的底层云计算、服务器等互相融合,可以降低企业的选择成本,为企业提供更完善的服务。如2020年5月创邻科技与腾讯云达成战略合作,在金融、能源、政务等腾讯云的强势行业里更巩固了市场。

对于传统国产数据库来说,投资创业企业能够完善自身在数据库领域的布局。如达梦数据投资的蜀天梦图,于2021年6月通过了信通院图数据库基础能力专项评测,为传统数据库在更广泛的国产化方面赋能。

05 图数据库的应用与未来发展

就目前来看,图数据库由于其关注「关系」、可扩展性等特点,主要应用于推荐算法、社交网络、知识图谱、金融风控等领域。而随着商业化产品对「关系」网络的依赖更加深入,图数据库在未来还会有更广阔的应用空间。

如前所述,推荐算法是目前图数据库最常见的、也是最成熟的应用领域,更实际的应用场景是电商和媒体的内容推荐。以电商为例,推荐算法需要顾及到用户、商品、库存、网络舆情等方方面面。如果使用传统关系型数据库,数据往往滞后一天,无法及时、精细、针对化地建模。而基于图数据库则可以整合复杂的多元数据、做到多步深链分析的遍历和查询,并且几乎能实时响应。

而对知识图谱而言,图数据库从展示到使用方式都与其有着天然的适配。知识图谱本质是一个图结构的语义网络,定点表示概念或实体,边表示这些概念的联系。为了从各种数据孤岛中整合数据并创造价值,许多企业开始创建和使用知识图谱。与传统的数据库相比,图数据库在知识图谱领域的主要优势在于搜索结果更精准、能更直观地展示其关联性、速度更快更便捷。比如政府机构、培训机构、咨询机构、技术产品等领域都是未来知识图谱的重要应用领域。

在金融风控领域,传统的反欺诈系统主要针对独立的企业进行分析,数据量大且分散,应对突发情况、新威胁的时候无及反馈。利用图数据库可以更好地将繁杂的数据建模,并进行处理。目前金融风控的主要应用领域有保险、电信、医疗等,未来在《数据安全法》的保护和隐私计算的技术下,图数据库还将会在风控反欺诈领域有更多的实践可能。

然而目前图数据库还在刚起步的阶段,在技术和应用场景方面还有漫长的路要走。

首先,目前图数据库还没有标准化的查询语言。目前主流的语言有三种,包括Gremlin(支持Cosmos DB、Amazon Neptune等)、Cypher(支持Neo4j等)、nGQL(支持Nebula Graph等),虽然许多图数据库也是基于这些开源产品开发的,但几种数据库及语言都还没有融合的倾向,只能由数据库开发者基于新开发的数据库提供这几种语言的API接口以适配多种语言。

其次,目前图数据库在具体场景的应用还没有标准化,通常单一部署的图数据库只能实现单一的业务场景,还没有针对行业或全行业的通用产品,数据库的部署和使用效果非常仰赖项目经理和工程师的技术。

面对全球巨大的人口和每天新生产的数据,无论是金融、社交还是内容,数据分析所面对的数据量级都在不断提升。与此同时硬件方面也在不断地更新,GPU、FPGA、ASIC及异构芯片能带来更好的算力,如何利用这些性能、建模成更适配性能和数据的产品,也是对图数据库产品的挑战。

图数据库或数据库的最终目的是为了赋能业务。图数据库的优势在于与业务现实更为接近,如何利用图数据更好地将现实世界抽象为图数据的语言表达,更好地赋能应用,还需要图数据库厂商在具体的每个实践中继续探索。

参考资料:

  1. 艾瑞咨询《2021年中国数据库行业研究报告》
  2. 中国信通院《2021年数据库发展研究报告》
  3. 清华大学AMiner《人工智能之图数据库》
  4. InfoQ直播活动《图数据库的起源、应用与未来》

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网友吃瓜!网传520深夜,某女老师和学生约会被堵,上演名场面…

网友吃瓜!网传520深夜,某女老师和学生约会被堵,上演名场面…

火山诗话
2024-05-21 09:27:34
女性“用手”和“过性生活”有什么不同?不只是人数,还有这3点

女性“用手”和“过性生活”有什么不同?不只是人数,还有这3点

39健康网
2024-05-21 20:00:03
45岁丈夫瘫痪不能下床,仍有生理需求,妻子如此呵护他,让人动容

45岁丈夫瘫痪不能下床,仍有生理需求,妻子如此呵护他,让人动容

四象八卦
2024-05-21 13:24:33
唐斯和森林狼队来了!不再假装,不再成为笑柄!

唐斯和森林狼队来了!不再假装,不再成为笑柄!

体育大集
2024-05-22 00:37:08
王思懿断崖式衰老!胖了得有30斤,膀大腰圆甚至没普通阿姨漂亮!

王思懿断崖式衰老!胖了得有30斤,膀大腰圆甚至没普通阿姨漂亮!

阿芒娱乐说
2024-05-20 19:55:37
广本员工离职:补偿60万,网友立帖:合资车全退,国产敢涨10倍

广本员工离职:补偿60万,网友立帖:合资车全退,国产敢涨10倍

大风文字
2024-05-21 06:49:43
为什么劝中年男人别背“双肩包”出门?看这3组对比,你就明白了

为什么劝中年男人别背“双肩包”出门?看这3组对比,你就明白了

潮人志Fashion
2024-05-19 17:30:10
湖南一书记出轨被抓包!二人私密照被贴车上巡游,男方正脸曝光

湖南一书记出轨被抓包!二人私密照被贴车上巡游,男方正脸曝光

洛洛女巫
2024-05-21 19:54:57
排面!吴艳妮登上英国报纸头条被赞迷人 在日本连续夺冠 扬名海外

排面!吴艳妮登上英国报纸头条被赞迷人 在日本连续夺冠 扬名海外

林小湜体育频道
2024-05-21 16:12:38
《庆余年2》:直到太子爬上李云睿的床,才知自己被她算计有多惨

《庆余年2》:直到太子爬上李云睿的床,才知自己被她算计有多惨

小白兔YY
2024-05-21 15:03:40
把中国排除在外?德国正式表态,人民日报说得很对

把中国排除在外?德国正式表态,人民日报说得很对

科技笛
2024-05-21 23:57:03
【史话】蒋介石说:亡于日本,能为亡国奴;亡于共党,为奴亦不能

【史话】蒋介石说:亡于日本,能为亡国奴;亡于共党,为奴亦不能

年之父
2023-04-27 07:09:23
电诈魔爪伸向留学生群体!诈骗团伙偷渡路径曝光:泰国边境水果市场走“暗门”

电诈魔爪伸向留学生群体!诈骗团伙偷渡路径曝光:泰国边境水果市场走“暗门”

红星新闻
2024-05-21 17:59:17
反制来了,赖清德上任当天,中国商务部出手,4家美企被列入清单

反制来了,赖清德上任当天,中国商务部出手,4家美企被列入清单

王裕庆
2024-05-20 18:16:09
关键时刻,伊朗方面去寻求了美国的援助!这里面至少有五个看点!

关键时刻,伊朗方面去寻求了美国的援助!这里面至少有五个看点!

翻开历史和现实
2024-05-21 23:55:11
难怪陈思诚当年倾心她!谁Hold得了这份天然的美貌啊!

难怪陈思诚当年倾心她!谁Hold得了这份天然的美貌啊!

小米虫侃人物
2024-05-21 10:48:28
外媒:阿根廷通胀飙升,首都地铁票价一夜上涨360%

外媒:阿根廷通胀飙升,首都地铁票价一夜上涨360%

新京报
2024-05-20 15:40:22
没有选择中国,阿联酋亲近韩国,送上2000亿投资,算盘打的很精明

没有选择中国,阿联酋亲近韩国,送上2000亿投资,算盘打的很精明

玉平锅呀
2024-05-21 21:28:00
80万大军、6艘航母战备,美国挑衅已无底线,大陆该如何应对?

80万大军、6艘航母战备,美国挑衅已无底线,大陆该如何应对?

墨笑墨侃本尊
2024-05-21 23:45:29
一错再错,是官僚的独断专行把448团推上了万劫不复的危险境地…

一错再错,是官僚的独断专行把448团推上了万劫不复的危险境地…

平安是福呀
2024-05-19 08:58:52
2024-05-22 01:00:49
朋湖网
朋湖网
科技产业信息资讯平台
206文章数 109关注度
往期回顾 全部

科技要闻

小鹏一季度营收65.5亿,经营亏损16.5亿

头条要闻

美媒:莱希之死基本为小哈梅内伊接替父亲职位铺平道路

头条要闻

美媒:莱希之死基本为小哈梅内伊接替父亲职位铺平道路

体育要闻

兄弟们,为了我,拿下冠军吧!

娱乐要闻

杨洋乔欣聊天记录曝光!还牵扯张天爱

财经要闻

中植系的销售,不退40亿被抓了

汽车要闻

四排八座纯电MPV/续航超过800km 翼真L380开启预订

态度原创

艺术
房产
游戏
时尚
手机

艺术要闻

挖掘艺术界未来的璀璨星辰 | 莱俪青年艺术奖获奖艺术家邓启鹏

房产要闻

教育+医疗+商业连甩王炸,三亚配套大爆发!

《巫师3》官方MOD编辑器现已正式上线

今年夏天最流行的颜色居然是它?

手机要闻

苹果Vision Pro将迎来全新沉浸式视频,《跑酷》即将上线

无障碍浏览 进入关怀版