网易首页 > 网易号 > 正文 申请入驻

对话杨传辉:国产数据库新战绩背后,OceanBase坚持自研初心与决心

0
分享至

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。

作者 |心缘

编辑 |漠影

国产数据库正在蓬勃发展,借势分布式技术优势,冲进了国际巨头的地盘。

作为管理数据的基础软件,数据库掌握着企业的命脉,牵一发而动全身,尤其是在核心业务中,稍有差错便可能造成无可挽回的损失。随着国产化呼声渐涨,这门长期被海外巨头垄断的关键生意,已成为本土企业势必收复“失地”。

就在近日,全球权威IT咨询机构Forrester发布的2022年度Translytical方向的数据平台厂商选型报告,国产自研原生分布式数据库OceanBase赫然在列。它也是全球唯三具备实现Forrester定义的分布式数据库细分功能(单云、混合云、多云)全覆盖能力的厂商。

OceanBase钻研了长达12年的混合事务和分析处理领域,如今正在数据库行业热度高涨。

凭借能承载高并发事务实时处理与大规模数据实时业务决策的能力,HTAP有望为企业更高效地挖掘数据价值,大幅降低总成本。随着国内相应需求蓬勃而生,投入HTAP方向的数据库从星星之火渐成燎原之势。

作为创始成员之一,OceanBase CTO杨传辉主导了历代数据库架构设计和技术研发,使其挺过支付宝交易系统、“双11”等极致并发量场景的考验,服务超过400家金融、能源、交通等行业客户,并主导OceanBase成为唯一一家在国际数据库基准测试TPC-C和TPC-H上都打破世界记录的国产原生分布式数据库。

在与我们交流的过程中,杨传辉对HTAP数据库如数家珍,深入解读了HTAP的核心技术、研发难点、落地挑战,并为企业如何做出适合业务的数据库架构选择提供了一些参考建议。除此之外,作为深耕数据库逾十年的专家,他也分享了对国产数据库发展机遇和核心瓶颈的观察。

▲杨传辉

一、什么是真正的HTAP?HTAP≠OLTP+OLAP

天下大势,合久必分,分久必合,数据库的发展亦是如此。

早期数据库大包大揽,到上世纪末,因应用场景日趋丰富,逐渐分化成OLTP和OLAP两大类型,前者主管交易,后者专攻分析。如今,这两大功能又走向融合。

随着大数据浪潮奔涌而至,数据量急剧膨胀,许多业务场景需应对不断增长的实时事务处理和分析需求。统一支持两类功能的HTAP数据库横空出世,在企业级市场风头渐盛。

HTAP有两大显著的优势:低成本、低延时。这不难理解,一套同时能做两件事的系统,相比两套系统拥有更高的性价比;而且省去了繁琐费时的ETL过程,降低延时,更好支持实时分析。

一时间,各路数据库都开始贴上“HTAP”的标签,云计算大厂也纷纷摩拳擦掌。

但对于企业来说,给数据库上新,不免要付出试错成本,因此弄清楚HTAP到底怎么用、怎么选型、重点考量哪些因素至为关键。这就涉及一个数据库热门话题——什么是真正的HTAP?

杨传辉的答案是:在高性能OLTP数据库的基础上扩展OLAP的能力,能很好支持实时分析。

国际数据库巨头Oracle、微软SQL Server以及国产分布式数据库龙头OceanBase都采用这种做法,与前两者不同的是,OceanBase底层是原生分布式架构,可扩展性强,因而能处理更大的数据量。

也有不少创企走的路线是在OLAP基础上引入实时写入,形成一个实时数据仓库。走这种路线,如果不具备OLTP核心业务经验,可能很难做到支持完整的事物处理能力。杨传辉解释说,业界有些“HTAP产品”的事务处理性能较差,不是HTAP的问题,而是其产品设计实现的问题。

无论走哪种HTAP路线,都应保证一个前提——一套系统,一份数据

首先,将两套系统简单叠加、缝合的方案,不仅会导致成本上升、存在固有延时,而且两套系统语法会有差别,很难精细控制数据流转和数据一致性问题,到后续升级更会暴露出各种问题,限制企业级应用的发展。

其次,一些采用两份数据的方案,通过ETL机制将OLTP的数据拉到OLAP系统中。这会存在天然的设计缺陷,因为避不开数据搬运,无论是性价比还是延迟都无法做到最优。

这也是为什么从一开始,OceanBase团队就决定做基于“一个系统,一份数据”的HTAP数据库,以将性价比做到极致。

杨传辉说,“一份数据”是从用户角度看的,实际执行中,只要能在满足HTAP处理需求数据的前提下最大程度降低冗余,多个副本或者多种形态都可以被认为是“一份数据”。

为了让OLTP具备大数据量OLAP的能力,HTAP需引入原生分布式架构和低成本存储引擎,支持 OLTP与OLAP间的资源隔离、复杂查询和大数据量查询,以及OLAP的数据开发和建模能力。

须注意的是,鱼和熊掌不可兼得,真正的HTAP系统也不是万能的。

理论上,它不会牺牲分析能力。但由于工程复杂度和产品成熟度问题,基于OLTP研发的HTAP数据库,其OLAP能力会弱于专门的OLAP系统,因此更适合OLTP、OLTP与实时OLAP混合负载处理场景,不适合离线数据仓库或大数据无结构化数据处理场景。

杨传辉建议,企业开始做新业务,或是已有业务遇到一些传统数据库方案难以解决的痛点时,也许正是切入HTAP的好时机。

那么企业选择HTAP时,怎么判断这个数据库方案,值不值得投入试错成本,能不能未来长期用下去,为业务带来价值?

他给出了一些参考维度:首先是看落地经验,在标杆客户核心业务场景中实现规模应用的HTAP方案,说明足够成熟稳定;还要关注核心能力,比如在公开基准测试benchmark中的性能表现如何,生态工具是否完备好用。如果未来业务将发展至较大规模,那么企业还需考虑HTAP采用的技术架构是否存在缺陷、稳定性和容灾能力怎么样、能否实现业务的最佳性价比等。

从这两个角度来看,OceanBase俨然是不可多得的选择。一方面,它是金融场景中最受欢迎的国产分布式数据库,如今已积累涵盖银行、能源、电力、社保等行业的400多个外部企业客户,其金融级容灾、成熟稳定性已经得到充分验证;另一方面,它在过去三年接连打破国际在线事务处理基准测试TPC-C和数据分析型基准测试TPC-H的世界纪录,证明了自身的技术领先性。

取得这些成就的背后,作为分布式HTAP数据库的先行者,自2010年诞生以来,OceanBase一直在摸着石头过河。

▲TPC-C基准测试结果,红框处为OceanBase的成绩

二、12年磨一剑,明年炼出HTAP成熟体

在HTAP这条路上,国产自研原生分布式数据库OceanBase已经努力了12年。

杨传辉认为,坚持自研落地核心业务场景,是OceanBase能将同行甩在身后的“杀手锏”。

只有自主研发,才能完全掌握数据库的内核,真正做出“一套系统,一份数据”的方案。因此OceanBase的每一行代码都由其团队自主编写。其经年累月在各种核心业务场景中持续沉淀的know-how能力,也为OceanBase构筑了愈发坚固的技术及市场竞争壁垒。

在杨传辉看来,其他企业要想仿照OceanBase的路线并追平其能力,会存在一个时间差。

但对于许多国产数据库来说,它们甚至连“模仿”的条件都不具备——有多少像支付宝交易、双11这样关键又拥有超高并发挑战的业务,敢让初出茅庐、未经大量实践检验的新型数据库试练?

回想OceanBase过去12年的历练,用杨传辉的话来说,几乎是“步步难关”。

OceanBase研发分布式HTAP数据库,是一个从0到1的过程,一开始根本没有业务。就在团队焦思苦虑之际,2011年,淘宝收藏夹率先发起落地邀请——数百万、数千万用户同时读取商品信息,导致原有数据库动不动就崩盘,他们需要新的数据库取而代之。于是,OceanBase团队立即为其量身定制了一个特殊架构,第一次证明了其数据库的落地价值。

此时OceanBase团队仍顶着巨大的压力。淘宝收藏夹毕竟不算核心业务,对数据库的要求没那么高,要想长远走下去,OceanBase必须进入核心业务场景,并经受住最严苛的考验。

直到2012年11月,OceanBase获得了一个新的机会——拥有庞大业务数据量、高并发量并对故障几乎零容忍的支付宝打算“去O”(替换Oracle数据库)了。只要OceanBase能接过这个重担,此后它的金融业务之路,将是可预见的畅通。

经过两年的历练,OceanBase在2014年终于迎来核心业务场景的大考——替换支付宝交易系统,扛住全国最大规模流量洪峰“双11”的压力,做到整个系统的“丝般顺滑”。

结果,OceanBase一战成名。

此后便是坦途一片:从蚂蚁集团内部核心业务全面应用,到第一次被外部客户采用,从支撑银行、保险、证券等金融业务,到进入政府、公共事业、国家电网等更多非金融业务的核心偏交易业务场景,OceanBase的落地之路越走越宽。

“做数据库是要靠积累的。”杨传辉说,“这是所有其他国产数据库都拿不到的、无价的经历,对OceanBase今天能够成为分布式数据库领域的引领者,起到了最重要的作用。”

从0起步到服务400多个外部客户,这些经历起到了滚雪球般的正向循环,有了越来越多的客户背书后,OceanBase获得了更多实战历练的土壤,其经验融入到数据库产品的迭代中,使其进一步拉大与同行在性能、稳定性方面的差距。

杨传辉告诉智东西,过去半年,OceanBase又取得一些新的进展,在研发新版本方面进一步优化了分析、资源隔离等能力,在落地方面也收获更多新的行业关键客户。“到明年年底,差不多我们就能有HTAP的成熟体了。

三、国产数据库当打之年,奔赴“分布式”星辰大海

作为“卡脖子”的关键基础软件赛道,国产数据库的兴起已是必然。在杨传辉看来,分布式数据库正承载着其中最大的“弯道超车”机会。

在集中式数据库赛道,微软、Oracle等数据库巨头宝刀未老,开源数据库亦气势如虹,留给国产数据库玩家的市场空间所剩无几。但在分布式数据库赛道,国内外企业起点差距相近,甚至国内面对的业务场景要求比海外更为苛刻,而越是具有挑战的事,也往往能带来倍速的成长。

“以前集中式做得很好,成熟稳定,但这有时候也会成为他们做下一代技术的包袱。”杨传辉说,当分布式成为下一代数据库的主流方向,那么国产数据库厂商的优势就会体现出来。

他谈道,包括OceanBase在内,国产分布式数据库已经由外围场地迈入核心业务场景,其中OceanBase是在核心交易场景应用最多的。在解决一些小数据量问题中,OceanBase也已经能做到跟MySQL、Oracle差不多的性价比。

以前企业可能更多将分布式数据库用在边缘场景作为补充,但近年来,OceanBase已经做到将分布式HTAP用在不同行业的关键客户核心业务场景中,并稳定上线、持续运行。杨传辉相信:“分布式数据库未来市场会特别大,几乎所有的客户都会优先选择分布式。”

随着更多企业走向数字化转型、对实时性产生更高要求,在云原生与分布式叠加趋势的推动下,杨传辉对分布式HTAP的未来预期非常乐观。

他观察到这两年分布式数据库的用户认可度越来越高,但与Oracle、MySQL显然还有很大差距。“比如MySQL Oracle的用户数可能是百万级、千万级,分布式可能是几百级、几千级,这不是一个量级的。”

因此,当前分布式数据库的受认可程度还有待提升,HTAP仍处于发展初期,核心挑战便是生态问题。这毕竟是个新兴技术路线,很多企业或开发者可能对此感到陌生,需要通过开源、社区运营、高校合作等方式来持续培养更多的用户习惯。国产分布式数据库产品,还需解决语言、文档等问题。

也正因此,OceanBase在去年6月宣布开源,一次性将包含300万行代码的全部核心能力开放出来,让更多人成为分布式HTAP数据库的开发者。他们还将持续在公众号上发表解读HTAP技术的系列文章,分享其已经实现的HTAP技术方案和场景价值。“我们有自信OceanBase在分布式行业里的技术遥遥领先,我们需要的是这个行业变得更好。”杨传辉说。

他相信,随着分布式数据库被越来越多的人采用,它又能解决单机问题,未来分布式数据库会在绝大部分场景中取代集中式数据库,他希望未来企业“选数据库就选分布式数据库,选分布式数据库就优先选OceanBase”。

结语:路虽远,行则将至

做国产数据库,是一件需要情怀,也需要敬畏之心的事。OceanBase能游刃有余地支撑更多行业客户的核心交易业务,绝不是仅靠技术优势拉开差距,锚定分布式HTAP赛道、借势移动互联网时代浪潮、持续积累行业know-how等多重因素叠加,才造就了它今日的阶段性成功。

现阶段,国产数据库正步入快车道,在大数据及人工智能时代大展拳脚。据中国信通院测算,2020年中国数据库市场规模约为241亿元,到2025年预计将增至688亿元,市场空间巨大。

但风口之中,难免泥沙俱下,这既需要真正有核心技术的企业在混战中保持定力、坚持自主研发与创新,也需要业界制定更严格的把关标准,为真正有实力的国产数据库厂商保驾护航。

“我觉得所有国产数据库厂商应追求的,是去做一些替代核心系统的事情,”在杨传辉眼中,这可能是最难的、最有社会意义的事,但其商业价值不一定高,因为替代核心技术的投入特别大,与替代一个外围系统不是一个量级。

”但是这件事情不能说等成熟了再去做,永远都不会有成熟的那天,”杨传辉的语调骤然抬高,“就应该跟一些有情怀的企业合在一起,赶紧把这个事情给干出来。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
根本不存在“新冠灭活疫苗之父”

根本不存在“新冠灭活疫苗之父”

基本常识
2024-04-28 21:24:18
伴娘内裤被扒掉,挣扎无效,结婚现场变成集体淫乱!

伴娘内裤被扒掉,挣扎无效,结婚现场变成集体淫乱!

莆农阿
2024-04-29 07:55:18
印大选局势突变,莫迪当不成总理了?印度对华态度大变,紧急改口

印大选局势突变,莫迪当不成总理了?印度对华态度大变,紧急改口

壹号评论
2024-04-28 10:15:58
结束18年恩怨,哈马斯与法塔赫将在北京和解?为何推动者是中国

结束18年恩怨,哈马斯与法塔赫将在北京和解?为何推动者是中国

说天说地说实事
2024-04-26 15:33:02
布林肯在中国遭BBC女记者连怼:你们要求中国停止出口零部件,自己却向以色列提供武器?

布林肯在中国遭BBC女记者连怼:你们要求中国停止出口零部件,自己却向以色列提供武器?

国际在线
2024-04-28 14:52:26
冒死说几句问界!

冒死说几句问界!

林中木白
2024-04-29 11:48:33
女人下面的毛发“茂盛”,就会越“渴望”?有多少人不知道答案?

女人下面的毛发“茂盛”,就会越“渴望”?有多少人不知道答案?

奇妙的本草
2024-04-25 20:00:03
网友爆料电商现状,太悲惨了!1天2000单发货量,最终亏70元…

网友爆料电商现状,太悲惨了!1天2000单发货量,最终亏70元…

火山诗话
2024-04-29 13:13:02
“地下捐精”背后的淫乱“性交易”,800块在宾馆直接面对面!

“地下捐精”背后的淫乱“性交易”,800块在宾馆直接面对面!

奇葩游戏酱
2024-04-29 07:10:02
揭秘!太阳报独家:克洛普与萨拉赫争执是因后者上场前没好好握手

揭秘!太阳报独家:克洛普与萨拉赫争执是因后者上场前没好好握手

直播吧
2024-04-29 12:13:52
哈登末节抛投6中5!东契奇:比赛策略是放他抛投 但显然不好

哈登末节抛投6中5!东契奇:比赛策略是放他抛投 但显然不好

直播吧
2024-04-29 11:28:20
国际奥委会主席:2036年奥运会有两位数的城市申请申办!

国际奥委会主席:2036年奥运会有两位数的城市申请申办!

AI商业论
2024-04-28 19:47:34
贾跃亭,真他娘是个人才

贾跃亭,真他娘是个人才

大猫财经Pro
2024-04-26 16:54:35
一旦开启武统,大陆和台湾谁先垮?柯文哲:大陆恐怕撑不过两周

一旦开启武统,大陆和台湾谁先垮?柯文哲:大陆恐怕撑不过两周

文辰国学
2024-04-28 11:25:54
美国阴谋曝光!美打算在蒙古境内设立军事基地,蒙古回应很清醒

美国阴谋曝光!美打算在蒙古境内设立军事基地,蒙古回应很清醒

布衣的呼喊
2024-04-27 09:46:58
故事:我在阿富汗外派,掀开了一位穆斯林少女的面纱,她非我不嫁

故事:我在阿富汗外派,掀开了一位穆斯林少女的面纱,她非我不嫁

潮河讲堂
2024-04-24 17:09:26
锁定退市!st左江良心股,1.2万股东自愿卖套,主力已经尽力!

锁定退市!st左江良心股,1.2万股东自愿卖套,主力已经尽力!

资本百科
2024-04-29 10:01:41
字节员工:大厂5年存了90万,考公三年上岸。月薪从3万降到4000多

字节员工:大厂5年存了90万,考公三年上岸。月薪从3万降到4000多

蚂蚁大喇叭
2024-04-29 10:04:32
浪5俄罗斯姐真实的退赛原因,其实她说了,字幕君没翻译到!

浪5俄罗斯姐真实的退赛原因,其实她说了,字幕君没翻译到!

娱乐八卦木木子
2024-04-28 15:37:03
郯城县公安局回应“警车进村喊话村民涉嫌嫖娼”:警方让中间人联系当事人 是因多次传唤不到

郯城县公安局回应“警车进村喊话村民涉嫌嫖娼”:警方让中间人联系当事人 是因多次传唤不到

红星新闻
2024-04-28 15:33:22
2024-04-29 15:28:49
智东西
智东西
聚焦智能变革,服务产业升级。
8450文章数 116446关注度
往期回顾 全部

科技要闻

马斯克想把特斯拉中国数据送出国 这事太难

头条要闻

河南夫妻收养的巴基斯坦女孩网络走红:我是中国人

头条要闻

河南夫妻收养的巴基斯坦女孩网络走红:我是中国人

体育要闻

湖人的G4,尽人事得到了回报

娱乐要闻

田馥甄遭抵制,蔡依林却能稳稳捞金?

财经要闻

问界M7追尾起火3人遇难 四大疑问待解

汽车要闻

配置更丰富 静态体验2024款欧拉好猫

态度原创

数码
教育
旅游
时尚
房产

数码要闻

酷比魔方GTBook15 Gen2笔记本上线京东 首发到手价1199元

教育要闻

两数相乘,小明把一乘数21看成12,结果少了135,求正确的结果?

旅游要闻

入境游热度持续攀升 “畅游中国”更便捷

没有“油腻感”的女人,穿衣都有这些特点,学起来才能美到老

房产要闻

力度越来越大!落户两年享本地居民购房政策,海南第16城松绑限购!

无障碍浏览 进入关怀版