网易首页 > 网易号 > 正文 申请入驻

遥遥领先的华为数据库故障,导致中国银行app中断服务

0
分享至

2026,1月1日元旦当天,中国银行APP故障:


故障原因,先有消息说因为连接池满、无法与数据库建立新的连接导致。

但进一步暴漏的信息,这里的“连接池”是数据库内的线程池BUG,导致上层应用无法和数据库建立连接,问题直指GaussDB。

现场曾重启数据库、华为的相关人员也介入解决问题,但故障依久,最终故障持续了超过1个小时,才恢复正常。

我对故障具体细节并不关心,去年(2025年)金融行业IT基础设施问题频发,四大行有两家都未能幸免(工行与中行),支付宝更是在2024双11后,又于2025双12出问题。细看每一次故障原因各不相同,每一次故障也都有独自的特点。

托尔斯泰在《安娜.卡烈林娜》中有一句流传很广的名言:“幸福的家庭千篇一律,不幸的家庭各有各的不幸”。

对应技术层面:“不宕的系统一直运行,宕机的系统各有宕机的原因”。

分析每家故障的原因,试途寻找“中行APP故障原因”、“工行APP故障原因“,“支付宝双11/双12故障原因”,就像分析“这个家庭为什么不幸福”、“那个家庭为什么不幸福”一样没有意义,因为“不幸的家庭各有各的不幸”。

不如提高视角,问一个共性的问题:“为什么现在会有这么多故障”?“我们走错了方向吗”?

这个问题太宏大,我还要聚焦焦,只讨论现代商业管理系统吧。我在这篇中,用最直白的话解释过了,这么多故障的根因,就是数据库不强。

因为数据库不强,不得不把更多的压力转移到上层(应用层),导致应用层架构复杂,出现问题的概率,大大增加。

而且复杂的架构,导致高可用切换行同虚设,事到临头时,无法确保数据一致的切换,导致每次故障时间都是以“小时”为单位。

从底层硬件、操作系统,到数据库,再到中间件、上层应用系统,这一整套现代商业管理系统,是美帝摸索了几十年探索出来的技术路线。

单说数据库,从上世纪七零年代做为一门独立的软件门类开始,到现在发展已逾50多年,美帝在这方面有着深厚的积累,华为又不是上帝,数据库又只是华为的支线业务,比不上美帝本不足为奇。只要我们的技术方向不错,追平美西方就不是问题

但关键就是,我们的技术方向错了

这么频繁的故障频率,四大中两家不足三个月内,接连出问题;

中小银行我都懒的说,故障时间都以“天”为单位了;

支付宝在敏感时间点接连出问题,要是还觉得一切OK,就当我啥也不懂吧。

我们在用开发应用层软件的方法,开发基础软件。先不要急着反驳我,下面我证明给你看,中行与工行的数据库、华为高斯,到底基不基础、强不强。

先说一个问题:“谁最有资格评价一个数据库强与弱”。

不是你也不是我,而是处理器 --- CPU

数据库也是程序,数据库并不是跑在空气中,而是运行在CPU之上。对CPU而言,任何程序不过是一段段代码,数据库也是,它并不例外、并不特殊。

CPU有丰富的手段衡量一段代码的好坏,我们先用一个最简单的例子,牛刀小试一把。我以一条极简单的SQL为例,统计它所用的指令数量。

先以PG为例,先介绍一下基本环境:目标表vage2,大小206MB,共有4列,ID列为主键。当前后台进程为24636。

(1 row)

上面是显示一些基本信息。

按如下步骤,可以得到执行某SQL时所使用的CPU指令数:

步1:使用perf,打开CPU ”指令数“计数器,针对进程24636,统计它执行的指令数:

是不是没想到,CPU内计数器,说起来很玄乎的概念,打开它竟十分的简单,一条perf命令就可以了。

"instructions:u"中的“:u”,是只统计用户态执行的指令数。我们排除于内核态的指令,去除一些干扰,统计结果更精准。

步2:到后台进程24636对应的Session中,执行目标SQL:


步3:回到“步1”的perf命令窗口,Ctrl+C,就能看到结果了:


105,649,就是“步2”的SQL所用指令数。一条极简SQL,使用了10万多条CPU指令。CPU只需不足一秒,就能跑出结果。现代处理器,还是很强悍的。

我不是要说高斯基不基础、强不强吗?跑题了吗?

并没有。

单看一个指令数,确实没啥意义,但横向对比多个数据库,就有意思了。

下面看看同样的表、同样的SQL,在华为高斯数据库中,使用了多少条CPU指令。

在高斯中,目标表大小为196MB:


和在PG中基本相同(PG中是206MB)。

列数量(4列)、行数(300万行)完全相同,连插入的数据都完全一样。

高斯是线程模式,先要得到后台线程号,步骤如下:

步1:得到线程标识:47503107229440


步2:在gdb中调试高斯的进程:


步3:把线程标识47503107229440,转为16进制:0x2b342dd50700


再使用"i thr",列出所有线程

步4:搜索0x2b342dd50700,就能得到线程号:25416


继续步5。

步5:使用perf,打开CPU ”指令数“计数器,这次针对线程25416,统计它执行的指令数:

步6:在线程25416对应的gsql Session中执行目标SQL:


步7:回到perf,Ctrl+C:


在高斯中,执行和PG同样的SQL,使用了989,183条指令。

还记得PG使用了多少条指令吗,105,649条。高斯是PG的9.36倍

数据量相同、列相同、连数据都一模一样,执行相同的SQL,高斯使用的指令数是PG的9倍多。

这意味着什么,表达同样的意思、说同样的话,PG使用了1万个字,高斯使用9万多个字。高斯使用的字数,是PG的9倍多。

说句不好听的话,我听到我儿子幼儿园同学们的谈话,费话极多、还有大量的重复、逻辑略微混乱,能用一个字说清的,可能用了9个字才说清楚。有时候用了9个字也没有说清楚。

华为高斯和幼儿园小朋友不同是,高斯用9个字,把话说清楚了

为什么是这样?

我这里使用的技术极简单,仅用一条perf命令,只观察了一个计数器的结果:指令数。高斯的表现就已经这样了,还需要从L1~L3 Cache、TLB、iCache、前端吞吐、译码效率、ROB/RS/LB/SB使用情况、流水线STALL比例、……,等等方面完整分析吗。(上面这些分析我计划后面开一个系列好好讲讲)

CPU中的计数器可是多达近千个的,可以对程序进行全方面的profilling。

我想表达的意思是:基础软件开发有自己的知识体系,从处理器层对程序进行profilling,也仅是其中的一环。从现实的表现看,华为高斯团队并不掌握基础软件开发的知识体系。

但高斯仍是一个典型的工程实现很棒的应用层软件。

我是说,高斯是一个应用软件,工程质量很棒。但高斯并不是一个基础软件。原因是走错了方向,在按应用层软件的思路,开发基础软件。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
多哈冠军赛:陈幸同大逆转、张本美和出局!四强国乒2人、日乒0人

多哈冠军赛:陈幸同大逆转、张本美和出局!四强国乒2人、日乒0人

越岭寻踪
2026-01-11 02:56:26
麦当劳回应汉堡尺寸像马卡龙:已将尺寸规格有没有变小等问题记录下来

麦当劳回应汉堡尺寸像马卡龙:已将尺寸规格有没有变小等问题记录下来

大象新闻
2026-01-10 21:45:07
4万人观战 日本104届高中足球赛诞生决赛2强:90分钟绝杀 9-8鏖战

4万人观战 日本104届高中足球赛诞生决赛2强:90分钟绝杀 9-8鏖战

风过乡
2026-01-10 17:43:22
日本再次宣布试开采水深6000米的海底稀土,这次仍会“雷声大雨点小”?

日本再次宣布试开采水深6000米的海底稀土,这次仍会“雷声大雨点小”?

红星新闻
2026-01-10 19:09:16
又一行业没落!曾是世界第一,如今18家大国企几乎全军覆没

又一行业没落!曾是世界第一,如今18家大国企几乎全军覆没

朔方瞭望
2026-01-08 09:50:55
绞杀开始!中国强硬下达“逐客令”,仅一招就让4000家日企倒闭

绞杀开始!中国强硬下达“逐客令”,仅一招就让4000家日企倒闭

芯火相承
2026-01-09 20:38:13
美国海岸警卫队登上“奥利娜”油轮

美国海岸警卫队登上“奥利娜”油轮

界面新闻
2026-01-09 21:42:11
比往锅底撒尿更恶心!海底捞再曝大瓜,警方介入,可怕的事在后面

比往锅底撒尿更恶心!海底捞再曝大瓜,警方介入,可怕的事在后面

以茶带书
2026-01-10 13:26:57
16万转卖“中国猪仔”后续:叶文斌妈妈柬埔寨寻子无果,她回国了

16万转卖“中国猪仔”后续:叶文斌妈妈柬埔寨寻子无果,她回国了

江山挥笔
2026-01-10 16:05:59
中国赚钱美国花?老戏骨祖孙三代在美奢华享乐过上“人上人”生活

中国赚钱美国花?老戏骨祖孙三代在美奢华享乐过上“人上人”生活

古事寻踪记
2026-01-08 07:10:52
德黑兰抗议局势失控 拉苏尔清真寺遭纵火受损

德黑兰抗议局势失控 拉苏尔清真寺遭纵火受损

老马拉车莫少装
2026-01-10 20:04:57
伊朗,大的还在后台呢

伊朗,大的还在后台呢

寰宇大观察
2026-01-10 17:10:03
河南一男孩校内离奇死亡,官方通报,知情人曝细节,校方恐担责!

河南一男孩校内离奇死亡,官方通报,知情人曝细节,校方恐担责!

李健政观察
2026-01-09 23:44:49
俄罗斯原油产量降至18个月以来最低,超过1.85亿桶原油在海上漂泊

俄罗斯原油产量降至18个月以来最低,超过1.85亿桶原油在海上漂泊

山河路口
2026-01-10 18:43:16
卷王啊!浙江一48岁外卖男子全年无休,一天12小时一年跑4万多单

卷王啊!浙江一48岁外卖男子全年无休,一天12小时一年跑4万多单

火山诗话
2026-01-10 08:23:41
报告称中国人均存款11万,但有8.37亿人负债,占比达73%

报告称中国人均存款11万,但有8.37亿人负债,占比达73%

爆角追踪
2026-01-10 21:36:39
美国ICE特工射杀女子细节曝光:遇害女子被枪击前曾对执法人员说“我不生你的气”

美国ICE特工射杀女子细节曝光:遇害女子被枪击前曾对执法人员说“我不生你的气”

环球网资讯
2026-01-10 16:58:15
坑爹啊!11中1+6失误,在场球队输21分,网友:没人喊进国家队了?

坑爹啊!11中1+6失误,在场球队输21分,网友:没人喊进国家队了?

金山话体育
2026-01-10 09:21:06
头号内鬼被捕,关闭防空系统出卖马杜罗坐标,5000万没拿到就栽了

头号内鬼被捕,关闭防空系统出卖马杜罗坐标,5000万没拿到就栽了

新冲浪青年
2026-01-10 20:30:14
沛城科技实控人“资本棋局”:赠予员工750万元股权激励,申报前获分红4000万元,借减持估值推高4倍|读懂IPO

沛城科技实控人“资本棋局”:赠予员工750万元股权激励,申报前获分红4000万元,借减持估值推高4倍|读懂IPO

时代投研
2026-01-09 19:12:26
2026-01-11 03:43:00
老冯云数 incentive-icons
老冯云数
数据库老司机,云计算泥石流,PostgreSQL大法师
75文章数 28关注度
往期回顾 全部

科技要闻

必看 | 2026开年最顶格的AI对话

头条要闻

特朗普签署行政令 宣布进入国家紧急状态

头条要闻

特朗普签署行政令 宣布进入国家紧急状态

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

亲子
数码
旅游
公开课
军事航空

亲子要闻

方媛晒三个女儿:大宝趴地上画画,二宝读英文书!三胎睡婴儿车里

数码要闻

熊猫主题圈粉老外,长虹AI家电亮相CES,东方元素成顶流

旅游要闻

12.7亿元营收、15倍增长背后:谁在操盘万岁山武侠城?顶流景区直面“长红”之困|主题乐园资本论

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

海空英雄高翔逝世 曾驾驶歼-6打爆美军机

无障碍浏览 进入关怀版