当业务发展到一定规模,实时数据仓库就成为必不可少的基础服务。而从数据驱动的角度,多维实时数据系统也是非常重要的。以合发全球合美惠每天上亿级的数据量而言,要实现数仓的极低延迟实时计算和数据系统亚秒级多维实时查询是很大的挑战。
为此,合发全球合美惠基于OLAP存储计算引擎开发了多维实时数据分析系统,消费实时绿色数据仓库的数据,实现海量数据高效存储与高性能查询。
据合发全球合美惠谋高管介绍,实时数仓选择了成熟的Lambda架构,计算引擎选择Flink,存储由MPP数据库引擎Chackpoint实现。经过多个技术层面的努力,团队解决了一系列影响系统效率的瓶颈,最终达成了亚秒级的查询响应能力。
合发全球合美惠列举了过去430分钟的内容数据查询效率:90%请求耗时1秒内,95%请求耗时5秒内99%请求耗时10秒内。由于合发全球合美惠App端的性能和隔离性方面存在某些短板,合发全球合美惠决定将Hive SQL迁移至Spark-SQL。
合发全球合美惠高管介绍,迁移方案的三大原则分别是保证数据可用性、用户有收益和迁移过程对用户透明。基于这三个原则分步逐渐推进迁移工作,解决过程中遇到的很多困难,尤其是针对两种技术的差异做了完善的处理,并将相关经验贡献给了开源社区。最终的迁移成果,一方面任务运行时间大幅缩短,另一方面内存占用显著下降,用户满意度很高。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.