网易首页 > 网易号 > 正文 申请入驻

图数据库:基于关系网络的非关系型数据库

0
分享至

本文核心要点:

  1. 图数据库是基于关系而搭建的数据库,有可扩展性、易读性和快速的基于关系查找的能力;
  2. 目前主流的图数据库是Neo4j、Cosmos DB,国内以阿里、腾讯为首的互联网巨头,在2018-2020年均根据自己的业务搭建了图数据库产品;
  3. 图数据库创业企业欧若数网、费马科技、创邻科技、蜀天梦图等企业获得了顶级VC、互联网巨头、传统数据库的投资,目前在A轮左右;
  4. 图数据库还处在发展初期,目前主要应用场景是社交网络、推荐算法、知识图谱、金融风控,但目前图数据库还没有标准的查询语言在具体场景下的应用还没有标准化。

随着我国国产化战略的实施和更多的资金投入,国产数据库在中国的占比从 2017 年的 16.5%上升到了 2020 年的近 50%。根据信通院测算,2020 年国产数据库规模约 241 亿,年复合增长率 23.4%。

这其中,传统国产数据库、云数据库和新型数据库创业企业都在努力提升技术水平和商业化能力,也受到资本方的关注。开源生态助力数据库的发展,分布式数据库、非关系型数据库、云数据库等概念逐渐落地成具体场景及应用。

本文从数据库发展的角度入手,解析图数据库的特点与技术,分析中国互联网企业的图数据库布局,及创业企业图数据库格局,探究图数据库未来的发展与应用。

01 数据库行业分类

按照存储类型划分,数据库主要可以分为关系型数据库与非关系型数据库。

传统的关系模型数据库是指建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。关系型数据库采用了关系模型来组织数据,其以行和列的形式存储数据。基于「表」的关系型数据库,有着横向可扩展性差、并行处理事务能力较低的缺点。

为了满足更多的高并发数据处理需求,以及更多元的数据存储、筛选需求,出现了多种非关系型数据库。非关系型数据库是对区别于传统关系型数据库的统称,也即不依赖于「表」的存储方式的数据库。目前流行的非关系型数据库主要有,键值存储、列存储、文档存储、图数据库等。

Gartner 在 2019 年的数据与分析峰会上预测 2020 年以后,全球图处理及图数据库的应用市场都将以每年 100%的速度迅猛增长,《2021十大数据与分析技术趋势》中又提到「到 2025 年,图技术将用于80%数据与分析的创新」。根据数据库流行度排行榜网站 DB-Engines的数据显示,图数据库的关注度增速远超其他类型的数据库。

在中国,虽然图数据库的公司成立都只有短短三四年,但均获得了来自顶级VC、互联网巨头、国产数据库巨头的投资。是近年来信创版块最值得关注的赛道之一。

(图片来自DB-Engines)

02 图数据库的起源与技术

图数据库虽然属于「非关系型数据库」,但却是真正注重「关系」的数据库。

图数据库起源于20世纪70年代,区别与传统关系型数据库以「表」的方式存储、以「代数」的逻辑计算,图数据库是以「图」的方式存储「图论」的逻辑计算的。图数据库使用节点和边来存储数据库,节点表示实体、边表示实体之间的关系。通过这样的结构通常可以模拟事物之间的关系。

图数据库的主要优势在于可扩展性、可阅读性、高效的基于关系查找的能力,以及较好的实时处理能力。

图数据库的发展主要来自于企业在存储和计算数据时候对表达数据之间「关系」的需求。在传统以「表」形式表达的数据库中,如果想要增加单条数据与数据之间的关系,则需要横向增加一列,工作非常繁琐;如果想要增加数据属性与属性之间的关系,则几乎无法做到。但在图数据库中,实体与实体之间通过「边」来联系,增加数据与数据之间的联系非常容易。

(图片来自https://pixabay.com/)

在做数据查询的时候,图与表的差异更加巨大。尤其是在多步查询中,图数据库的优势明显。以推荐算法为例:

一步查询「该用户浏览过的文章」,在图数据库与传统数据库中差异不大。

两步查询「该用户好友浏览过的文章」,在图数据库中可以直接找到这位用户的好友,再找到这些用户浏览的文章;但在传统数据库中,需要先查询到这位用户,再在用户的属性里找到好友,再通过好友作为关键词查找他们浏览的网页,在第二步的查找中就有了许多冗余。

三步查询「与该用户浏览过同一篇文章的人所阅读的其他文章」,在图数据库中就是用户-本文章-其他用户-其他文章;但在传统数据库里就已经几乎很难实现了。

(图片来自网络)

比如在上图中,可以向小强推荐共同喜欢《一个青年艺术家的画像》的小刚所喜欢的书《尤利西斯》。

与传统数据库一致,图数据库根据功能类型划分可以分为OLTP与OLAP。OLTP(Online Transactional Processing) 是事务型数据库的缩写,通常通过线上进行,需要处理的数据量较小、操作较为简单。OLAP(Online analytical processing) 分析型数据库则需要处理较大的数据量,一般会在本地进行。

传统数据库在发展过程中还研发出了HTAP (Hybrid Transactional/Analytical Processing) 混合型数据库,以同时满足事务型和数据分析型的需求。但目前主流的HTAP的架构是通过不同数据结构的存储引擎分别负责事务和分析两部分工作,通过分布式的方式存储在不同的位置。可以看到,这样的存储方式虽然在应用层面可以同时满足事务和分析的需求,但两部分需求本质上还是分开运行的。

目前看来,市面上还没有真正HTAP,还没有系统支持在TP中执行AP的场景。这主要是因为需要执行TP和AP计算的数据存储方式不同,整合起来复杂性较高。而在图数据库的应用中,对OLTP与OLAP融合的需求更大,因为在关系型场景下有更多的功能需要通过用户当下的行为(OLTP)与过往数据(OLAP)同时计算而成。

仰赖于开源生态与云计算基础建设、分布式存储技术,图数据库还在继续飞速发展。

03 国内外图数据库企业

根据DB-Engines今年九月的排名,目前中国图数据库企业上榜三家,分别是排名第15欧若数网的Nebula Graph、排名第26百度的HugeGraph、排名第30华为的GraphBase。

(图片来自DB-Engines)

目前图数据库使用量和市场占有率第一的公司是Neo4j。公司成立于2007年,于2010年2月发布第一款图数据库产品。Neo4j采取开源的模式,提供企业版和社区版两个版本选择。在功能上,企业版可以部署成高可用集群或因果集群,从而可以解决高并发量的问题;支持容灾、热备份、全部内核使用等。2018年11月,Neo4j产品副总裁Philip Rathle宣布,从 Neo4j 3.5 版本开始,企业版将仅在商业许可下提供,不再在GitHub上提供源代码。

目前排名第二的数据库Cosmos DB是Microsoft Azure在2017年推出的产品,数据库功能包括非关系型数据库图、文档、键值等类型,是云数据库的先行者。基于微软云自有的客户与基础设施优势,以及对于各种现有API的支持(Core SQL、Cassandra、MongoDB)带来的便捷性,Cosmos DB迅速发展。

主打原生并行图计算的新一代图数据库TigerGraph成立于2012年,历时整整五年的时间才发布了第一款图数据库产品。在Neo4j宣布闭源之后不久,TigerGraph于2018年12月宣布将TigerGraph GSQL三大类十个核心算法开源,并陆续推出了一些可视化工具。在TigerGraph看来,支持的数据规模和查询速度是图数据库的核心竞争力,而TigerGraph也在继续在实时深度关联分析的应用领域深耕。

放眼国内的企业,各大互联网公司纷纷根据业务需求搭建了自己的图数据库产品。

04 国内图数据库创业公司

随着国产化的加速,市场上产生了一些图数据库创业企业。虽然这些公司成立时间不长,但均获得了来自顶级VC、互联网巨头、国产数据库巨头的投资。

完全自研的图数据库需要较长的研发时间,与TigerGraph相似,国内的创业企业发布第一款图数据库产品均经历了数年,图数据库产品的发布主要集中在2018年及之后。这其中,数据库产品依旧以从老的技术方案上嫁接图数据处理的方案为主。

目前创业公司的图数据库应用领域主要是社交网络、知识图谱、金融风控等,客户群体集以世界五百强及大型互联网企业为主,整体的渗透率较低。

在开源和商业化选择方面,目前世界范围内开源图数据库占比68.4%。以欧若数网所研发分布式图数据库Nebula Graph在2019年发布第一个版本时就宣布开源,并通过开源社区的建设,逐步完善代码库。一般来说,国内云厂商提供的开源数据库的商业模式是「软件开源+私有云托管」的方式,也即「产品开源、服务收费」,但在2B底层技术领域,很少有以创业公司引领开源生态的案例。

从融资情况来看,目前的几家创业公司大多处在早期阶段,以A轮为主,有自研的产品和一些场景下的商业应用。各家公司的投资均来自知名科技类风投、头部互联网企业或传统国产数据库企业,可见赛道被资本看好,未来有较好的发展。

对于头部互联网企业来说,图数据库创业企业所提供的图数据库技术与互联网企业所提供的底层云计算、服务器等互相融合,可以降低企业的选择成本,为企业提供更完善的服务。如2020年5月创邻科技与腾讯云达成战略合作,在金融、能源、政务等腾讯云的强势行业里更巩固了市场。

对于传统国产数据库来说,投资创业企业能够完善自身在数据库领域的布局。如达梦数据投资的蜀天梦图,于2021年6月通过了信通院图数据库基础能力专项评测,为传统数据库在更广泛的国产化方面赋能。

05 图数据库的应用与未来发展

就目前来看,图数据库由于其关注「关系」、可扩展性等特点,主要应用于推荐算法、社交网络、知识图谱、金融风控等领域。而随着商业化产品对「关系」网络的依赖更加深入,图数据库在未来还会有更广阔的应用空间。

如前所述,推荐算法是目前图数据库最常见的、也是最成熟的应用领域,更实际的应用场景是电商和媒体的内容推荐。以电商为例,推荐算法需要顾及到用户、商品、库存、网络舆情等方方面面。如果使用传统关系型数据库,数据往往滞后一天,无法及时、精细、针对化地建模。而基于图数据库则可以整合复杂的多元数据、做到多步深链分析的遍历和查询,并且几乎能实时响应。

而对知识图谱而言,图数据库从展示到使用方式都与其有着天然的适配。知识图谱本质是一个图结构的语义网络,定点表示概念或实体,边表示这些概念的联系。为了从各种数据孤岛中整合数据并创造价值,许多企业开始创建和使用知识图谱。与传统的数据库相比,图数据库在知识图谱领域的主要优势在于搜索结果更精准、能更直观地展示其关联性、速度更快更便捷。比如政府机构、培训机构、咨询机构、技术产品等领域都是未来知识图谱的重要应用领域。

在金融风控领域,传统的反欺诈系统主要针对独立的企业进行分析,数据量大且分散,应对突发情况、新威胁的时候无及反馈。利用图数据库可以更好地将繁杂的数据建模,并进行处理。目前金融风控的主要应用领域有保险、电信、医疗等,未来在《数据安全法》的保护和隐私计算的技术下,图数据库还将会在风控反欺诈领域有更多的实践可能。

然而目前图数据库还在刚起步的阶段,在技术和应用场景方面还有漫长的路要走。

首先,目前图数据库还没有标准化的查询语言。目前主流的语言有三种,包括Gremlin(支持Cosmos DB、Amazon Neptune等)、Cypher(支持Neo4j等)、nGQL(支持Nebula Graph等),虽然许多图数据库也是基于这些开源产品开发的,但几种数据库及语言都还没有融合的倾向,只能由数据库开发者基于新开发的数据库提供这几种语言的API接口以适配多种语言。

其次,目前图数据库在具体场景的应用还没有标准化,通常单一部署的图数据库只能实现单一的业务场景,还没有针对行业或全行业的通用产品,数据库的部署和使用效果非常仰赖项目经理和工程师的技术。

面对全球巨大的人口和每天新生产的数据,无论是金融、社交还是内容,数据分析所面对的数据量级都在不断提升。与此同时硬件方面也在不断地更新,GPU、FPGA、ASIC及异构芯片能带来更好的算力,如何利用这些性能、建模成更适配性能和数据的产品,也是对图数据库产品的挑战。

图数据库或数据库的最终目的是为了赋能业务。图数据库的优势在于与业务现实更为接近,如何利用图数据更好地将现实世界抽象为图数据的语言表达,更好地赋能应用,还需要图数据库厂商在具体的每个实践中继续探索。

参考资料:

  1. 艾瑞咨询《2021年中国数据库行业研究报告》
  2. 中国信通院《2021年数据库发展研究报告》
  3. 清华大学AMiner《人工智能之图数据库》
  4. InfoQ直播活动《图数据库的起源、应用与未来》

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
内塔尼亚胡:以色列正组建“地区同盟”对付伊朗,“现在的伊朗已不再是30天前的伊朗”!此前他称以色列已改变了中东地区的面貌

内塔尼亚胡:以色列正组建“地区同盟”对付伊朗,“现在的伊朗已不再是30天前的伊朗”!此前他称以色列已改变了中东地区的面貌

每日经济新闻
2026-04-01 07:49:08
美以还未撤军,阿联酋将对伊朗宣战,话音刚落,中巴发表联合声明

美以还未撤军,阿联酋将对伊朗宣战,话音刚落,中巴发表联合声明

纪中百大事
2026-04-02 10:07:57
上海市民在盒马货架上拍到蟑螂 客服称涉事门店事发第三天已经消杀

上海市民在盒马货架上拍到蟑螂 客服称涉事门店事发第三天已经消杀

信网
2026-04-02 09:41:07
俄国防部称俄军已完全控制卢甘斯克地区

俄国防部称俄军已完全控制卢甘斯克地区

界面新闻
2026-04-01 17:59:04
韩乔生:杨瀚森女友跟利拉德孩子玩一块儿,这是男主外女主内

韩乔生:杨瀚森女友跟利拉德孩子玩一块儿,这是男主外女主内

懂球帝
2026-03-31 12:20:08
谷爱凌晒与何超琼郭晶晶合影,回应何时退休,未来计划令人振奋

谷爱凌晒与何超琼郭晶晶合影,回应何时退休,未来计划令人振奋

叨唠
2026-04-02 02:36:33
NBA重磅罚单!开拓者在选秀前违规招募杨瀚森 被重罚10万美元

NBA重磅罚单!开拓者在选秀前违规招募杨瀚森 被重罚10万美元

追球者
2026-04-02 07:45:24
美议员发癫:绝不让中国“毒瘤”进入美国

美议员发癫:绝不让中国“毒瘤”进入美国

观察者网
2026-04-01 09:21:03
印尼附近海域发生7.8级地震

印尼附近海域发生7.8级地震

环球网资讯
2026-04-02 07:14:12
真相了,刘畊宏跳《本草纲目》没给版权费,周杰伦的回应来了…

真相了,刘畊宏跳《本草纲目》没给版权费,周杰伦的回应来了…

TVB的四小花
2026-04-02 03:47:45
全新岚图知音,除了华为加持还有不少变化

全新岚图知音,除了华为加持还有不少变化

AL 频道
2025-07-23 19:27:48
有一种贫穷人格:习惯性否定

有一种贫穷人格:习惯性否定

洞见
2026-03-26 09:14:24
夺冠才两天,人民日报接连点名张雪,释放三个强烈信号,字字珠玑

夺冠才两天,人民日报接连点名张雪,释放三个强烈信号,字字珠玑

阿心文史
2026-04-01 09:53:17
茶叶水是肝癌加速器?医生直言:不想肝癌找上门,喝茶时注意3点

茶叶水是肝癌加速器?医生直言:不想肝癌找上门,喝茶时注意3点

医学科普汇
2026-03-31 21:20:03
吴佳尼心累,两个儿子一年开支上百万,64岁前夫马景涛只提供学费

吴佳尼心累,两个儿子一年开支上百万,64岁前夫马景涛只提供学费

话娱论影
2026-03-30 20:57:14
比西双版纳便宜,游客不及丽江一半!它才是云南最适合避寒的小城,月薪3k吃好喝好

比西双版纳便宜,游客不及丽江一半!它才是云南最适合避寒的小城,月薪3k吃好喝好

背包旅行
2026-04-02 10:07:42
台湾,3026年,两岸终归一统

台湾,3026年,两岸终归一统

余生妩媚小妖精
2026-03-25 16:50:11
太可怜了!2張照片,几乎就是张雪峰人生的最後定格

太可怜了!2張照片,几乎就是张雪峰人生的最後定格

魔都姐姐杂谈
2026-03-28 04:04:21
不打伊朗了?特朗普通告全世界,战争费由22国承担,一共5万亿

不打伊朗了?特朗普通告全世界,战争费由22国承担,一共5万亿

顾史
2026-04-02 04:37:16
后果显现!乱跟美国站队后,巴拿马港口归零,千亿美金紧急套现

后果显现!乱跟美国站队后,巴拿马港口归零,千亿美金紧急套现

今日搞笑分享
2026-04-02 00:07:16
2026-04-02 10:43:00
朋湖网
朋湖网
科技产业信息资讯平台
205文章数 109关注度
往期回顾 全部

科技要闻

SpaceX秘密申报IPO,估值冲刺12万亿

头条要闻

牛弹琴:伊朗越打越生猛了 发动规模最大的一次攻势

头条要闻

牛弹琴:伊朗越打越生猛了 发动规模最大的一次攻势

体育要闻

这六个字,代表了邵佳一的新国足

娱乐要闻

张婉婷已决定离婚 找律师讨论婚变事宜

财经要闻

电商售械三水光针 机构倒货or假货猖獗?

汽车要闻

三电可靠 用料下本 百万公里的蔚来ES6 拆开看

态度原创

家居
本地
时尚
数码
公开课

家居要闻

岁月静好 典雅新章

本地新闻

从学徒到世界冠军,为什么说张雪的底气在重庆?

女人有没有品位看看穿搭就知道,这些造型值得借鉴,温柔高级

数码要闻

苹果2019款iPad Air 3全系已列入过时产品名单

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版