网易首页 > 网易号 > 正文 申请入驻

这么哇塞的 MySQL 功能,你确定不用么?

0
分享至

大家好,今天我们来聊聊 MySQL 数据库中的压缩功能。

先问一个问题,压缩会导致性能下降么?

通过压缩页面会减少存储空间的开销,但是会有额外 CPU 的开销,因此性能会有影响。

想必大部分同学都是类似如上的回复。

然而,答案却是:以上全错。

这好比你买了套 500 万的房子,贷款 350W。30 年等额本息还款,算上 30 年的利息,实际你要还 700W。

所以你说,买房肯定是亏的。

很显然,这个推理是不对的。

因为 30 年后,随着物价的上涨,你所持有的房子大概率至少涨了 1 倍。

因此你的房子市值将会是 1000W,除去 700W 的连本带利的还款,实际你还赚了 150 万。

有同学肯定会说,万一 30 年没有涨 1 倍呢?

是的,如果你不小心脑残地入手了三亚、丽江、鹤岗等地的房产,入手了号称租售比 10%的沿街商铺,那么的确存在 30 年涨不到 1 倍的风险可能(其实也很小)。

所以,房产取决于你购买标的的选择。

对于数据库的压缩,性能是否下降取决于压缩功能的实现。

的确,MySQL 5.7 版本之前的压缩功能设计存在缺陷,压缩可能会导致性能严重的下降。

但 MySQL 5.7 版本开始 InnoDB 存储引擎提供了一种新的压缩功能,称为透明页压缩(Transparent Page Compression,下简称 TPC )。

下面我们就来讲讲这种对性能几乎没有影响的压缩功能。

旧的 InnoDB 页压缩功能

我们先来看看旧的 InnoDB 页压缩功能。

旧的 InnoDB 压缩页是指在建表或者修改表时加上如下的 KEY_BLOCK_SIZE 选项:

CREATE TABLE `t` (
`a` int NOT NULL,
`b` varchar(128) DEFAULT NULL,
`c` datetime(6) DEFAULT NULL,
PRIMARY KEY (`a`)
) ENGINE=InnoDB KEY_BLOCK_SIZE = 8

KEY_BLOCK_SIZE 可以是 1、2、4、8、16,表示启用页压缩,然后按照 1K、2K、4K、8K、16K 的页大小存储数据。

压缩算法使用常见的 zlib。

由于 InnoDB 页的大小是 16K,zlib 的压缩比通常在 50%左右,因此一般 KEY_BLOCK_SIZE 设置为 8 比较常见。

设置得再小,压缩比例也不一定会提高。

因为其本质是将 16K 的页压缩后,根据 KEY_BLOCK_SIZE 大小存储。

假设页 16K,压缩后的大小是 7K,则设置 KEY_BLOCK_SIZE 为 8,一个 8K 压缩页存储即可。

若 KEY_BLOCK_SIZE 为 4,则拆分成 2 个 4K 页存储。占用存储空间不会有太大的变化。

前面姜老师谈到,旧的 InnoDB 页压缩功能设计存在缺陷,启用压缩功能后,性能下降比较明显。

然而,它的实现思想初衷是提升性能,甚至借用了其他数据库的一些理念:日志即数据

什么意思呢?也就是对于压缩页的数据修改,他首先并不会修改页本身,而是将日志存储在这个页中。

所以压缩页的格式大致如下所示:

的确,这样的实现对于页的变更比较好,无需每次插入记录进行压缩。

但是除了数据库除了写入操作,库还有大量的读取操作。

显然,对于压缩的数据,是无法直接读取的。

因此,旧的 InnoDB 页压缩算法还会在内存中有一个解压后 16K 的页,以供数据的读取,如:

这时你会发现一个页在缓冲池存在两个版本,压缩的版本和非压缩的版本。

这样会导致一个非常严重的问题,即缓冲池中能缓存页的数量大大减少

数据库的性能随之就会有极大的下降。

接着,我们来看下 MySQL 5.7 版本后新的 TPC 压缩是如何实现的,它又是如何保证性能尽可能保持原有水平呢?

新的 InnoDB TPC 页压缩

MySQL 5.7 版本推出的 TPC 页压缩是一种极其高效的压缩算法,其使用相当简单,只要在建表的时候添加压缩选项即可,如:

CREATE TABLE `t` (
`a` int NOT NULL,
`b` varchar(128) DEFAULT NULL,
`c` datetime(6) DEFAULT NULL,
PRIMARY KEY (`a`)
) ENGINE=InnoDB COMPRESSION='zlib'

除了 zlib 压缩,TPC 还可以选择 lz4 压缩算法。

我们来看下 TPC 的具体实现过程:

可以看到 TPC 压缩下,一个压缩页在缓冲池中都是一个 16K 的非压缩页。

只有在刷新到磁盘的时候,会进行一次压缩,对于压缩后剩余的空间,页中都填写 0x00。

最后写入到磁盘后,调用文件系统空洞(Hole Punch)特性对文件进行“裁剪”,释放 0x00 占用的稀疏空间。

当前 Linux 内核以及绝大部分的文件系统,如 XFS、EXT4、ZFS、btrfs、NTFS 等,都支持空洞特性,具体内核版本以经文件系统可见官方文档的具体说明。

TPC 虽然好,但是他依赖的 Hole Punch 有一个限制,即原始文件裁剪后的大小是根据文件系统块大小对齐的,也就是 4K 对齐。

对于上图的例子,压缩后页的大小是 9K,那么实际占用的空间是 12K

可以通过下面的命令查看表空间占用的实际磁盘空间:

SELECT
SPACE, NAME, FS_BLOCK_SIZE,
FILE_SIZE, ALLOCATED_SIZE
FROM INFORMATION_SCHEMA.INNODB_TABLESPACES
WHERE NAME='sbtest/sbtest1'

下面是我写的一段 C 代码,用于描述透明页压缩在内核层的实现,看懂这几行,你也就弄明白 MySQL InnoDB 中代码的实现本质:

图 - 函数 hole_punch_compress

上面的代码和我们之前介绍的 O_DIRECT 写入方式基本一样。不同点在于:

  1. 使用 zlib 的 compress 函数对 16K 的页进行压缩(第 16 行);
  2. 对于压缩后的页剩余部分用 0x00 进行填充(第 19 行);
  3. 调用函数 pwrite 进行原子写入后,再调用函数 fallocate 对文件进行空洞压缩(第 29 行);

好吧,既然姜老师把 TPC 压缩说的这么好,怎么能少得了最具实战意义的测试呢?

接下去,Let's go ~~~

TPC 性能测试

这里我们选择 sysbench 工具进行性能测试。

测试的表是一张有 3200W 行记录的表,数据量 7G,压缩后表的大小分别为:

从压缩比例来看,旧的 InnoDB 压缩算法有着更好的压缩比例,但是实际数据导入时间却是 TPC 压缩算法的数倍。

此外,真实的生产环境下,TPC 的压缩比例和旧的压缩算法其实差不多,都能在 40% ~ 50%之间。

下图就是最为关键的性能测试结果,这里选取了主键读取测试:

可以看到由于 sysbench 测试中有热点,BP 为 8G、4G 基本都能缓存住热点数据,因此两者性能几乎没有区别,都能跑到 100W QPS。

但是老的压缩算法即便在 8G 的缓冲池大小下,性能也有较为明显的下降。

所以说,这么香的 TPC 压缩功能,你确定不在生产环境中使用么?

总结

今天姜老师带大家深入浅出了 InnoDB TPC 页压缩的实现,总结来说:

  1. TPC 压缩不占用额外的缓冲池空间,所有压缩页在缓冲池中都是 16K;
  2. 页的压缩仅在写入磁盘时进行,不会在缓冲池中对一个页进行反复的压缩尝试;
  3. 使用文件系统空洞特性进行压缩,释放磁盘空间;
  4. 对比旧的压缩算法,性能极其优秀。

最后,老规矩,留几个思考题,以小伙伴们供茶余饭后约上三五知己,讨论一下:

  1. 如何不压缩表,预估出启用 TPC 压缩后,表的压缩比例大概有多少?please show me your code
  2. 对于图中函数 hole_punch_compress,尝试编写单元测试,验证函数的正确性。please show me your code

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
统一台湾后,第一任省长由谁担任最合适?五人上榜,一人脱颖而出

统一台湾后,第一任省长由谁担任最合适?五人上榜,一人脱颖而出

知鉴明史
2026-04-24 20:05:03
余承东预言应验?尊界S800暴跌80%撕开豪车残酷真相:V8信仰如何碾压科技参数

余承东预言应验?尊界S800暴跌80%撕开豪车残酷真相:V8信仰如何碾压科技参数

娱乐圈的笔娱君
2026-04-25 07:06:59
别高估英伟达,别低估DeepSeek

别高估英伟达,别低估DeepSeek

虎嗅APP
2026-04-25 00:21:16
托万:我们错过了拿3分的机会,争冠这个话题基本已经结束

托万:我们错过了拿3分的机会,争冠这个话题基本已经结束

懂球帝
2026-04-25 06:48:05
只要有陌生电话问你“您是不是本人”,这样反问一句,防骗超实用

只要有陌生电话问你“您是不是本人”,这样反问一句,防骗超实用

今日搞笑分享
2026-04-23 18:21:05
用了小苏打才知道:原来清洁可以这么简单又省钱,真的厉害!

用了小苏打才知道:原来清洁可以这么简单又省钱,真的厉害!

家居设计师苏哥
2026-04-22 13:22:48
小玥儿12岁生日冷清!汪小菲马筱梅毫无表示,往年大排场反差刺眼

小玥儿12岁生日冷清!汪小菲马筱梅毫无表示,往年大排场反差刺眼

人间烟火记事本
2026-04-25 06:25:08
快讯!委内瑞拉上演了最魔幻的一幕!

快讯!委内瑞拉上演了最魔幻的一幕!

有态度的何总
2026-04-25 07:11:56
火箭队再遭重创,杜兰特G3伤缺!乌度卡明牌变阵+全新首发破纪录

火箭队再遭重创,杜兰特G3伤缺!乌度卡明牌变阵+全新首发破纪录

锅子篮球
2026-04-25 07:52:12
铜梁龙董事长:俱乐部首先是要活着;跟刘建业说第一不能喝酒

铜梁龙董事长:俱乐部首先是要活着;跟刘建业说第一不能喝酒

懂球帝
2026-04-25 00:06:57
上海富商花2000万,让情人生3个孩子,2019年后得知娃都不是他的

上海富商花2000万,让情人生3个孩子,2019年后得知娃都不是他的

汉史趣闻
2026-04-24 18:35:46
打起来了,以色列本土被炸,内塔尼亚胡或被逮捕?特朗普态度转变

打起来了,以色列本土被炸,内塔尼亚胡或被逮捕?特朗普态度转变

通鉴史智
2026-04-25 08:59:29
13-3!世锦赛首个8强诞生 8位中国球员出局 丁俊晖4-4追平赵心童

13-3!世锦赛首个8强诞生 8位中国球员出局 丁俊晖4-4追平赵心童

侃球熊弟
2026-04-25 00:29:19
20余万元尚未解救被困缅甸园区女孩,同园区逃生者讲述惊魂一刻

20余万元尚未解救被困缅甸园区女孩,同园区逃生者讲述惊魂一刻

界面新闻
2026-04-24 13:05:29
2015年,97岁溥任离世,溥仪永远不知,弟弟的三个儿子有多厉害

2015年,97岁溥任离世,溥仪永远不知,弟弟的三个儿子有多厉害

边城少爷
2026-04-25 00:20:31
广东91-93输福建真因曝光!杜峰隐藏一人,球迷看完都愤怒了!

广东91-93输福建真因曝光!杜峰隐藏一人,球迷看完都愤怒了!

桃叶渡春
2026-04-25 08:01:10
连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

橙星文娱
2026-04-23 18:58:44
宁夏一位36岁女博士未婚未育,吐槽无人问津:已彻底放弃结婚!

宁夏一位36岁女博士未婚未育,吐槽无人问津:已彻底放弃结婚!

番外行
2026-04-23 07:43:15
拳打特斯拉,脚踢丰田!国产保姆车杀疯了,拿捏一众中产富豪

拳打特斯拉,脚踢丰田!国产保姆车杀疯了,拿捏一众中产富豪

品牌观察官
2026-04-22 16:59:59
芯片股大爆发!英特尔暴涨23%,英伟达重返5万亿,中国资产闪耀

芯片股大爆发!英特尔暴涨23%,英伟达重返5万亿,中国资产闪耀

第一财经资讯
2026-04-25 07:18:12
2026-04-25 09:35:00
破产码农 incentive-icons
破产码农
IT圈最会讲故事的码农
161文章数 7037关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

两届奥运冠军、中国羽协主席张军"失联" 知情人士发声

头条要闻

两届奥运冠军、中国羽协主席张军"失联" 知情人士发声

体育要闻

上海男篮23连胜+主场全胜 姚明之后最强一季

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

LG财阀内斗:百亿美元商业帝国争夺战

汽车要闻

零跑Lafa5 Ultra北京车展上市:11.88-12.48万

态度原创

健康
艺术
亲子
家居
公开课

干细胞如何让烧烫伤皮肤"再生"?

艺术要闻

吴邦国致法大60周年信曝光,书法天赋引热议!

亲子要闻

34岁男星喜得女!妻子试管成功保胎三月,28周早产

家居要闻

自然肌理 温润美学

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版