网易首页 > 网易号 > 正文 申请入驻

数据写入中的高吞吐量与低延迟:两者兼得的方法

0
分享至

基于 Flink 流将数据移动到 Doris。

本文介绍 Apache Doris 如何基于Flink Streaming帮助您从 MySQL 等上游数据库向 Doris 导入数据并进行变更数据捕获(CDC)。但首先,您可能会问:Apache Doris 是什么,我为什么要费心这样做?

那么,Apache Doris是一个开源的实时分析数据仓库,同时支持高并发点查询和高吞吐量的复杂分析。提供亚秒级解析查询能力,在多维分析、仪表盘等实时数据服务中大显身手。

概述
  1. 如何秒级完成端到端的数据同步
  2. 如何确保实时数据可见性
  3. 如何让海量小文件的写入更流畅
  4. 如何保证端到端的Exactly-Once处理
实时性
  1. 流写入
Doris 中的 Flink-Doris Connector 曾经遵循“缓存和批量写入”的数据摄取方法。但是,这需要明智地选择批大小和批写入间隔;否则事情可能会出错。例如,如果批大小太大,则可能会出现OOM 错误。另一方面,频繁的写入可能会导致生成过多的数据版本。
为了避免这样的麻烦,Doris 实现了一个 Stream Write 方法,其工作原理如下:

  1. Flink 任务一旦启动,就会异步发起 Stream Load HTTP 请求。
  2. 数据通过 HTTP 的分块传输编码机制传输到 Doris。
  3. HTTP 请求在 Checkpoint 结束,即 Stream Load 任务完成。同时,异步发起下一个 Stream Load 请求。
  4. 重复以上步骤。

  1. 事务处理

  1. 数据版本快速聚合
小文件的高并发写入会在 Doris 中产生过多的数据版本,导致数据查询变慢。因此,Doris 增强了数据压缩能力,以便快速聚合数据。

首先,Doris 介绍了 Quick Compaction。具体来说,一旦数据版本增加,就会触发数据压缩。同时,Doris 通过扫描 tablets 的元数据,识别出数据版本过多的 tablet,并进行相应的 compaction。

其次,针对高并发、高频率的小文件写入,Doris实现了Cumulative Compaction。它从调度的角度将这些压缩任务与重量级的Base Compaction隔离开来,避免它们之间的相互影响。

最后但同样重要的是,Doris 采用了分层数据聚合的方法,可以确保每次聚合只涉及相似大小的文件。这大大降低了聚合任务的总数和系统的CPU占用率。

恰好一次

Exactly-Once 语义意味着数据将被处理一次且仅一次。即使机器或应用程序出现故障,它也可以防止数据被重新处理或丢失。

Flink 实现了一个 2PC 协议来实现 Sink 算子的 Exactly-Once 语义。基于此,Doris 中的 Flink-Doris Connector 实现了 Stream Load 2PC 来传递 Exactly-Once 处理。详情如下所示:

  1. Flink 任务一旦启动就会发起 Stream Load PreCommit 请求。然后会开启一个事务,通过HTTP的chunked机制,源源不断的向Doris发送数据。

  1. HTTP 请求在 Checkpoint 结束,Stream Load 完成。事务状态将设置为预提交。此时数据已经写入BE,对用户不可见。

  1. Checkpoint 发起请求,并将事务状态更改为 Committed。在此之后,数据将对用户可见。

  1. 在Flink应用失败的情况下,如果之前的事务处于Pre-Committed状态,Checkpoint会发起回滚请求,将事务状态变为Aborted。
Doris在高并发场景下的表现
场景描述

使用 Flink 从 Kafka 导入数据。在 ETL 之后,使用 Flink-Doris Connector 将实时数据摄取到 Doris 中。

要求

上游数据以每秒 10 万条的高频率写入 Doris。为实现数据实时可见,上下游数据需要在5s左右同步。

Flink 配置

并发数:20

检查点间隔:5s

以下是 Doris 的做法:

压缩实时性
结果显示,Doris 设法快速聚合数据,并使平板电脑中的数据版本数保持在 50 个以下。同时,Compaction Score 保持稳定。

CPU使用率
在优化了小文件的压缩策略后,Doris 将 CPU 占用率降低了 25%。

查询延迟
通过降低 CPU 使用率和数据版本数量,Doris 将数据排列得更加有序,从而实现更低的查询延迟。

Doris在低延迟场景下的表现(高阶压测)
描述
  1. 客户端单BE、单片Stream Load压力测试
  2. 数据实时性<1s

以下是优化前后的压缩分数:

Doris 使用建议
低延迟场景
对于需要实时数据可见性的场景(比如秒级数据同步),每次摄取的文件通常比较小。因此,建议将cumulative_size_based_promotion_min_size_mbyte默认值 64 减少到 8(以 MB 为单位)。这可以大大提高压实性能。
高并发场景
对于高并发的写入场景,建议通过将Checkpoint间隔增加到5-10s来降低Stream Load的频率。这不仅增加了 Flink 任务的吞吐量,也减少了小文件的产生,从而避免了额外的压缩压力。另外,对于实时性要求不高的场景(比如分钟级数据同步),建议将Checkpoint间隔增加到5-10分钟。这样,Flink-Doris Connector 仍然可以通过 2PC+Checkpoint 机制保证数据的完整性。
结论
Apache Doris 通过其 Stream Write 方式、事务处理能力和数据版本的聚合来实现数据的实时性。这些技术有助于减少内存和 CPU 使用率,从而降低延迟。此外,为了数据的完整性和一致性,Doris 实现了 Stream Load 2PC 以保证所有数据都恰好被处理一次。这就是 Doris 如何促进快速和安全的数据摄取。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一边握手韩国,一边挥手揍日本,中国种下新亚洲格局的种子

一边握手韩国,一边挥手揍日本,中国种下新亚洲格局的种子

观察者网
2026-01-08 09:30:17
世界真是草台班子,小米官方表示新款 SU7 标错了价格!

世界真是草台班子,小米官方表示新款 SU7 标错了价格!

XCiOS俱乐部
2026-01-07 19:38:42
广州一网红餐厅直播顾客用餐,网友质疑侵犯隐私:怎么不直播后厨?门店回应

广州一网红餐厅直播顾客用餐,网友质疑侵犯隐私:怎么不直播后厨?门店回应

扬子晚报
2026-01-07 23:37:25
穆雷22+8+17生涯新高掘金终结绿军4连胜 沃特森30分布朗33分

穆雷22+8+17生涯新高掘金终结绿军4连胜 沃特森30分布朗33分

醉卧浮生
2026-01-08 10:32:22
库里你太狠了,37岁仍是超巨,又刷新21世纪NBA第一的纪录

库里你太狠了,37岁仍是超巨,又刷新21世纪NBA第一的纪录

大西体育
2026-01-08 15:24:49
四川一男子被3枪打死,100辆豪车为其送葬,沿途抛撒人民币

四川一男子被3枪打死,100辆豪车为其送葬,沿途抛撒人民币

纪实录
2024-01-26 21:17:15
赵今麦泳装展好身材,小麦肤色尽显青春活力

赵今麦泳装展好身材,小麦肤色尽显青春活力

原梦叁生
2026-01-06 16:04:42
中东国家都意识到了,就算中国高端武器再多,也没办法保护他们!

中东国家都意识到了,就算中国高端武器再多,也没办法保护他们!

近史博览
2026-01-05 20:40:01
江苏1女子,专挑高速堵车玩“仙人跳”,6年产5子,捞金700万

江苏1女子,专挑高速堵车玩“仙人跳”,6年产5子,捞金700万

马尔科故事会
2024-06-16 12:46:23
国家这次动真格严惩,1600万老赖要慌了!子女也要受牵连!

国家这次动真格严惩,1600万老赖要慌了!子女也要受牵连!

今朝牛马
2026-01-07 21:29:00
就在刚刚,23家A股上市公司发布重大利空消息,看看都有哪些?

就在刚刚,23家A股上市公司发布重大利空消息,看看都有哪些?

股市皆大事
2026-01-08 08:05:36
美国评出世界空军前三甲,中国在迫近式追赶,已经无力再拉开距离

美国评出世界空军前三甲,中国在迫近式追赶,已经无力再拉开距离

小熊侃史
2026-01-05 10:37:37
火箭三大败因出炉,杜兰特苦不堪言!乌度卡很不满,阿门三人该批

火箭三大败因出炉,杜兰特苦不堪言!乌度卡很不满,阿门三人该批

鱼崖大话篮球
2026-01-08 14:58:07
谁干的?中国若抛售7000亿美国国债,作为武器,美国将跌落神坛

谁干的?中国若抛售7000亿美国国债,作为武器,美国将跌落神坛

咖啡店的老板娘
2026-01-08 11:44:20
分手8年,自曝私密事的Coco,没给谢贤留体面,原来谢霆锋没说谎

分手8年,自曝私密事的Coco,没给谢贤留体面,原来谢霆锋没说谎

娱说瑜悦
2026-01-06 17:28:42
身材火辣,眼神迷人,拥有K级别身材的短发女神—桃果明里

身材火辣,眼神迷人,拥有K级别身材的短发女神—桃果明里

吃瓜党二号头目
2026-01-08 10:11:33
刘涛带儿女吃烤肉喝红酒!18岁紫嫣胖到140斤,17岁儿子又高又帅

刘涛带儿女吃烤肉喝红酒!18岁紫嫣胖到140斤,17岁儿子又高又帅

阿雹娱乐
2026-01-08 11:34:01
丁威迪:东契奇是世界上进攻最好的球员,我不在乎别人说什么

丁威迪:东契奇是世界上进攻最好的球员,我不在乎别人说什么

懂球帝
2026-01-08 08:48:15
又一个巨头崛起!年入8715亿,超越华为,成第三民营企业!

又一个巨头崛起!年入8715亿,超越华为,成第三民营企业!

牛牛叨史
2025-12-23 23:07:38
做最坏打算!中国055大驱第二批加速,美媒:还有被美军扣船隐忧

做最坏打算!中国055大驱第二批加速,美媒:还有被美军扣船隐忧

时时有聊
2026-01-08 07:28:37
2026-01-08 15:52:49
墨谈科技 incentive-icons
墨谈科技
业务数码玩家.无聊的博主
5647文章数 611关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

中方被指正考虑进一步收紧中重稀土出口 日本业界慌了

头条要闻

中方被指正考虑进一步收紧中重稀土出口 日本业界慌了

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

2026春节档将有六部电影强势上映

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

本地
旅游
房产
艺术
公开课

本地新闻

1986-2026,一通电话的时空旅程

旅游要闻

6万羽候鸟 20万游客 东古湖,凭什么出圈成为全国观鸟胜地

房产要闻

三亚新房,又全国第一了!

艺术要闻

颐和园金光穿洞

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版