网易首页 > 新闻中心 > 新闻 > 正文

700PB数据的数仓依然“快稳省”!ByteHouse这本白皮书揭秘关键

0
分享至

(原标题:700PB数据的数仓依然“快稳省”!ByteHouse这本白皮书揭秘关键)

12月10日,《火山引擎ByteHouse云数仓产品白皮书》在线上发布。

在数字经济蓬勃发展的今天,企业面临着数据量爆炸性增长、数据分析需求日益复杂的双重挑战。传统的数据仓库解决方案已经难以满足企业对数据处理速度和灵活性的高要求。为了应对这些挑战,火山引擎于2021年正式推出ByteHouse——专为云原生环境设计的高性能数据仓库产品。早在2022年初,ByteHouse在抖音集团内部的部署规模已超过1万8000台,最大的集群规模在2400余个节点,管理总数据量超过700PB,并且依然在不断增长,对外也经过游戏、汽车、泛互联网等众多行业,数百个应用场景和数万用户锤炼,

本次发布《火山引擎ByteHouse云数仓产品白皮书》从设计理念、产品架构、核心能力、场景优势等多维度介绍ByteHouse在OLAP领域的产品和技术先进性,以及如何实现高性能、高稳定、高安全。不仅仅聚焦OLAP领域,通过集成向量检索、全文检索、GIS等功能,ByteHouse持续拓展能力边界,并建设涵盖集成、开发、应用的上下游生态。除此之外,基于SSB 和 TPC-DS 标准测试集,白皮书也公开了ByteHouse在OLAP、ELT等场景下的最新性能成果。在应用场景方面,白皮书则从OLAP中台建设、行为分析、车联网IoT三个场景为企业提供数据分析最佳实践参考。

据介绍,ByteHouse云数仓版具备“快”“稳”“省”三个核心特点,不仅能保障高效处理海量数据,即时响应复杂查询,还能降低多系统的各种冗余和复杂度,提升整体稳定性,并实现资源、运维成本最优。

有多快?公布标准测试集下性能最新成果

在数据处理和分析的领域,提升查询效率始终是一项关键挑战。在选择OLAP引擎时,性能是重要衡量因素。高性能的OLAP具有快速的数据处理能力,并缩短响应时间,提供更好的用户体验,使数据分析和查询更加流畅和便捷。

SSB 和 TPC-DS 是常用于测试分析型数据库/数据仓库的数据集,被广泛应用于数据仓库领域。在白皮书中,通过采用以上数据集,ByteHouse展示了OLAP、ELT、湖仓一体场景中,与行业同类产品相比的性能表现。

在OLAP场景中,以TPC-DS数据集测试为例,通过将模拟生成的1000G 数据导入测试产品,在99个查询中,ByteHouse 对比行业某主流开源产品D*,整体查询性能达到该产品1.16倍。在ELT场景中,BSP模式下ByteHouse 对比某主流开源产品 S* ,整体查询性能达到该产品6.05倍。在湖仓一体场景中,ByteHouse 对比开源产品 S*,Hive Parquet外表查询(冷读),整体查询性能达到该产品1.18倍。

TPC-DS 1TiB: ByteHouse云数仓(2.2) 228s, 开源产品D(2.1.1) 264s,超越16%

除此之外,在Vector及GIS分析场景中,ByteHouse对比行业同类产品也有明显性能优势。这意味着,ByteHouse让企业在享受极致性能的同时,无需引入其他架构,就能使用文字检索、地理空间分析、向量检索能力。企业只需用一套架构就能满足多元化分析需求,节省企业资源人力成本,提升数据效能。

ByteHouse技术专家高大月也在发布会上揭秘了性能提升的关键技术。在OLAP性能提升方面,ByteHouse从RBO(基于规则的优化能力)、CBO(基于代价的优化能力)、分布式计划生成方面推出了自研优化器,能够准确的计算出效率最大化执行路径,大幅度降低用户查询时间。同时,ByteHouse也通过高并发点查解决索引计算繁重、点查读放大严重、执行链路冗长、锁竞争激烈等问题,进一步提升数据处理效率。

能多稳?将任务成功率提升至100%

数据在加载进入数据仓库之前,往往要经过复杂的数据清洗和转换过程,由此需要引入外部引擎,导致架构相对复杂,而ByteHouse全面支持Extract-Load-Transform (ELT)的能力,把数据加工的过程转移到ByteHouse内部,用户只需将数据导入,用自定义SQL语句进行数据转换,降低多系统的各种冗余和复杂度,提升用户体验,并进一步增长了系统稳定性。

据介绍,为了简化数据链路、提升任务并行度,ByteHouse在传统的MPP调度模型之外,新增了BSP调度模型(Bulk Synchronous Parallel),通过各个stage逐层调度、数据写盘,使得每个阶段和任务都更加独立,降低了任务失败的概率,并提高了资源使用的效率。除此之外,ByteHouse还在离线任务加工中的任务级重试功能,当作业的某个任务失败时,无需整个作业重新执行,仅重试失败任务,显著降低了重试的成本,提升了作业的成功率。针对业务数据频繁更新的特点,ByteHouse对写入流程进行了大量优化。通过并行化最耗时的数据写入部分,并在写入过程中标记需要后续去重作业的数据,实现高效的数据更新。

ByteHouse技术专家游致远以某数字娱乐公司举例,该公司通过引入ByteHouse来构建一体化数仓,从2024年10月15日、16日、17日数据来看,任务的成功率在分别提高了6.6%、4.4%和2.9%,整体成功率为100%。通过对关键大表增加并行度,该公司的离线任务整体内存峰值降低了约40%,有效减少了内存溢出的风险,整体提升了数据处理的实时性和稳定性。

如何省?打造新一代“弹性”云数仓

当下企业的业务流量往往具有很大的不确定性。例如,电商平台在 “618”“双11” 等促销活动期间,访问量会呈爆发式增长,可能是平时的十倍甚至百倍,导致系统无法承载如此高负载而崩溃。这就要求底层数据库具备“弹性”机制,能根据流量情况自动伸缩资源,在满足业务波峰需求同时节省成本。

而弹性正是云原生架构的核心特性。ByteHouse云原生弹性能力允许企业根据实际需求动态调整资源,只在需要的时候分配资源,实现随开随用,不使用时自动暂停,暂停期间不收取任何计算层费用,从而降低了成本。

ByteHouse自动启停策略,帮助用户成本节约20%+

在白皮书发布会上,ByteHouse产品经理孔柏林介绍到,在存储层面, ByteHouse采用 Serverless 架构,具有低成本、无限扩展的能力。在计算层面,ByteHouse则基于PaaS 模式,通过容器化实现无状态或弱状态,将整个计算组包装成租户和应用呈现给用户,保证租户之间不会发生资源征用冲突或性能劣化,让计算资源在秒级内实现弹性拉起和弹性扩缩容。正是由于采用计算资源采用PaaS 方式,ByteHouse能让用户有效避免不规范 SQL 造成的过多资源消耗,且计价模式采用资源用量(CPU)方式,确保用户对账单可预期。

以中国某知名游戏厂商为例,该厂商基于ByteHouse构建了一体化实时数仓平台,具备实时数据接入、实时 ETL 数据加工、实时维表关联和实时数据服务等能力,不仅能支持20万+QPS高并发点查,性能提高2倍以上,在资源用量上,比之前架构减少了30%成本。

相关推荐
热点推荐
祖院长早期下基层照片被挖出!儒雅帅气,网友:桃花眼好"闪亮"

祖院长早期下基层照片被挖出!儒雅帅气,网友:桃花眼好"闪亮"

鋭娱之乐
2025-11-10 21:19:11
重庆通报:初步判断被污染,正全面排查

重庆通报:初步判断被污染,正全面排查

澎湃新闻
2025-11-11 01:01:05
600303,定增筹划一年突然终止!

600303,定增筹划一年突然终止!

中国基金报
2025-11-11 08:23:06
重返安菲尔德倒计时?克洛普:如果还要执教,我只会选择利物浦

重返安菲尔德倒计时?克洛普:如果还要执教,我只会选择利物浦

K唐伯虎
2025-11-11 07:04:27
女面试官:“我肚子疼,能帮我接杯热水吗?”男子一句话,当场被录用!

女面试官:“我肚子疼,能帮我接杯热水吗?”男子一句话,当场被录用!

上海约饭局
2025-11-05 21:57:07
金价,突然猛涨!

金价,突然猛涨!

证券时报
2025-11-10 23:35:04
风向变了!2026年房价三大信号已明确!内行建议:买卖房做好准备

风向变了!2026年房价三大信号已明确!内行建议:买卖房做好准备

巢客HOME
2025-11-10 11:55:03
释永信被女徒弟爆料,凌晨4点去他房间,拿到皈依证就算师徒关系

释永信被女徒弟爆料,凌晨4点去他房间,拿到皈依证就算师徒关系

汉史趣闻
2025-07-30 09:57:38
来到土库曼斯坦,女性的噩梦,世界上最难进入的神秘小国

来到土库曼斯坦,女性的噩梦,世界上最难进入的神秘小国

朝子亥
2025-10-12 03:30:03
拓媒:斯普利特没有比卢普斯了解杨瀚森,因此连续让他不上场

拓媒:斯普利特没有比卢普斯了解杨瀚森,因此连续让他不上场

懂球帝
2025-11-11 10:57:19
黑色幽默!电诈园区办公室中文标语,简直是天大的讽刺

黑色幽默!电诈园区办公室中文标语,简直是天大的讽刺

麦大人
2025-11-06 08:32:30
她曾任上海市革委会副主任,78年被免职,成为地毯厂副厂长

她曾任上海市革委会副主任,78年被免职,成为地毯厂副厂长

诺言卿史录
2025-11-11 09:08:43
蒋经国心里很清楚,如果连陈诚都不放过的话,蒋家王朝还能指望谁

蒋经国心里很清楚,如果连陈诚都不放过的话,蒋家王朝还能指望谁

标体
2025-10-28 21:39:25
安东尼奥:王钰栋身体和精神都很疲劳,我们决定让他休息

安东尼奥:王钰栋身体和精神都很疲劳,我们决定让他休息

懂球帝
2025-11-11 14:39:05
中国外交官“斩首说”震动日本,民众热议:该强硬还是克制?

中国外交官“斩首说”震动日本,民众热议:该强硬还是克制?

特特农村生活
2025-11-11 10:53:39
假如日本出兵介入台海,中国大陆可以攻打日本本土吗?

假如日本出兵介入台海,中国大陆可以攻打日本本土吗?

知鉴明史
2025-10-26 08:30:03
英国已做好准备,随时参战,它的动机是什么?

英国已做好准备,随时参战,它的动机是什么?

高博新视野
2025-11-09 17:03:08
“最丑建筑”再次拍卖,潮汕富豪梦碎一地

“最丑建筑”再次拍卖,潮汕富豪梦碎一地

说财猫
2025-11-10 23:10:53
深圳首个九年一贯制“钱学森班”落地

深圳首个九年一贯制“钱学森班”落地

北青网-北京青年报
2025-11-11 12:23:03
武大“永远的校长”刘道玉去世,他被免武大校长的真实原因解禁

武大“永远的校长”刘道玉去世,他被免武大校长的真实原因解禁

神州扫描
2025-11-10 09:58:55
2025-11-11 15:24:49

头条要闻

牛弹琴:高市早苗创了纪录 上台20天中方两次强烈抗议

头条要闻

牛弹琴:高市早苗创了纪录 上台20天中方两次强烈抗议

体育要闻

重返诺坎普!梅西:希望有一天能回来

娱乐要闻

何超莲窦骁真的没离婚?

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

亲子
时尚
本地
健康
教育

亲子要闻

血脉和冠姓权到底哪个更重要呢

静奢风,有品位的都在穿

本地新闻

这届干饭人,已经把博物馆吃成了食堂

超声探头会加重受伤情况吗?

教育要闻

傲慢与偏见英文原版语音课09:你总是偏向伊丽莎白

无障碍浏览 进入关怀版
×