来源:DataFunTalk
导读随着数据量的爆炸性增长,现代企业在数据存储、处理与分析上面临巨大挑战。在 IT 架构中,数据仓库承担着企业中关键的数据存储和分析任务,如果不能高效运作,必将导致成本飙升和决策效率低下。因此数据仓库的降本增效是企业IT部门持续的命题。
作为面向实时数据处理的工具,OLAP(联机分析处理)系统能帮助企业充分挖掘数据价值、辅助决策。然而,OLAP 在追求高效数据分析的同时,往往难以平衡成本与效率矛盾。
快节奏的商业环境要求 OLAP 系统在保证数据准确性的前提下,尽可能缩短数据处理和分析的时间。但高效的数据处理往往伴随着更复杂的系统架构和更高的资源消耗,企业需要投入高昂的计算资源、服务器、存储资源等硬件成本以及大量算法优化、运维、迁移等软性成本。
分享嘉宾|火山引擎ByteHouse团队
出品社区|DataFun
01
问题与挑战
企业使用一款数据仓库产品,成本项可以区分显性成本与隐性成本:
1. 显性成本挑战
硬件成本:代表了部署数据仓库软件的所需的硬件成本,包括计算资源成本(CPU)与存储资源成本(磁盘、存储集群)。毫无疑问数据仓库涉及 TB 甚至 PB 级数据的存储与分析,对硬件的要求颇高。
性能成本:单位能效不高,导致在完成任务或处理数据时,需要配备更多的资源以弥补这一不足。一方面,在计算能效上,需要增加更多的高性能计算单元或优化现有的计算能力,以确保在合理的时间内完成复杂的计算任务,避免处理速度的滞后;另一方面在存储能效上,需要部署更大容量的存储设备以应对日益增长的数据量,同时减少能耗,提高数据存储和检索的效率。
2. 隐性成本挑战
运维成本:代表了运维数据仓库的人力与时间成本。
数据仓库作为极其复杂的软件产品,对运维人员的专业要求和精力消耗本身极高。如果在数据系统中运行多款组件,如 ClickHouse、Elasticsearch、GreenPlum... 则会让复杂性指数级增加,运维人员的技能要求也指数级增加。
迁移成本:代表了从旧的数据仓库或分析型数据库迁移到 ByteHouse 的人力与时间成本;
数据仓库之前的语法,架构差异通常极大,搬迁数据难于搬家,带来了极高的替换成本。
02
解决方案
1. 关于 ByteHouse
ByteHouse 是火山引擎数智平台VeDI旗下的一款云原生数仓产品,以 ClickHouse 技术路线为基础,从 2017 年内部立项开始,截止到 2022 年 3 月,ByteHouse 节点总数已经达到了 18,000,最大的行为分析集群超过了 2,400 个节点,数据量超过 700PB。
ByteHouse 在架构上遵循新一代云原生理念,实现了容器化、存储计算分离、多租户管理和读写分离等功能,同时支撑实时数据分析和海量数据离线分析,尤其对高吞吐、高并发、复杂查询等多种实时数据分析场景进行优化,能为用户提供极速分析体验。
ByteHouse 具备存储、计算分离,高弹性扩展的特点,其计算层采用 Shared-nothing 架构,存储层采用 Shared-everything 架构,能更好地支持计算和存储层的水平扩展。基于 ByteHouse 高性能的实时数据分析决策能力,数据从导入到分析决策仅需几秒,99% 的查询都能得到秒级保障。除了高可用的基础能力,ByteHouse 还提供免托管运维服务,包括丰富的集群管理工具、全面的系统监控能力,帮助企业轻松了解业务状态,让故障排查与问题诊断变得简单。
文章选自:《一本朴实无华的大数据电子书》第一篇
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.