构建流式数据湖，让实时数据“水到渠成” | Q推荐|数据仓库|大数据|amazon|数据量

构建流式数据湖，让实时数据“水到渠成” | Q推荐

2021-11-03 17:18:12　来源: InfoQ 举报

分享至

从 TB 到 PB 到 EB...... 过去十年，数据量以惊人的速度增长。

据 IDC 发布《数据时代 2025》报告显示，2025 全球每年产生的数据将从 2018 年的 33ZB 增长到 175ZB，相当于每天产生 491EB 的数据。175ZB 的数据是什么概念？以目前美国的平均网速 25Mb/ 秒，一个人要下载完这 175ZB 的数据，至少需要 18 亿年。

汹涌澎湃的数字洪流，推动着人类社会和生活方式的巨大变革，同时也让国家和企业面临着如何高效管理与运用海量数据的挑战。2021 年 3 月美国将“大数据战略”上升为国家意志，并将大数据定义为“未来的新石油”。如果把数据比作石油，那么从“油田”中存储和开采出有价值信息的能力，必将成为未来企业的核心竞争力和经济增长的基础。

传统的解决方案是采用本地数据仓库来存储和分析数据。但随着数据量的增大和数据类型越来越丰富，人们对于数据的需求也越来越复杂。传统的数据仓库无法做到底层数据的多样化，且起步成本较高。

在这样的情况下，数据湖应运而生。数据湖是由数据存储架构和数据处理工具共同组成的解决方案。它是一个集中式数据存储库，任何类型的数据，不管是结构化、半结构化还是非结构化的数据都可以存储其中，并运行不同类型的分析。此外，数据湖在实现更快查询结果的同时，只需要较低的存储成本。其价值在企业中逐渐凸显。

那么该如何挖“坑”建“湖”？构建数据湖时如何选择 Kafka 和 Hadoop 服务？如何构建具有数据更新与增量查询能力的流式数据？在智能湖仓领域先行者的最佳实践无疑值得借鉴。

中国权威 ICT 研究咨询机构 - 计世资讯发布的《2020~2021 中国数据湖市场现状与发展趋势研究报告》显示，亚马逊云科技在中国数据湖产品服务能力和市场及战略能力方面具有显著优势。

企业实践需要敏捷、弹性、全面的数据基础设施。通过快速构建亚马逊云科技的智能湖仓架构，企业可实现将数据存储在数据湖中，并使用多种专用数据服务，快速而敏捷的作出决策。在亚马逊云科技数据湖相关的众多产品和服务中，Amazon MSK 是一款完全托管式、高度可用且安全的 Apache Kafka 服务。而 Amazon EMR 是一项托管的 Hadoop 服务，原生支持存算分离与资源的动态扩缩, 同时原生集成 Apache Hudi。

11 月 18 日，亚马逊云科技邀请数据分析产品技术专家潘超作为嘉宾，他将会从流式数据接入的角度向大家介绍智能湖仓架构中，基于托管 Kafka 服务与 Apache Hudi 结合的方式构建流式数据接入与处理解决方案，并和大家分享如何通过 Amazon MSK 和 Amazon EMR 来构建准实时数据湖。此外，通过 Demo 实操演示会让大家对构建过程有更清晰的感知。

本期主题

智能湖仓架构搭建系列——流式数据接入最佳实践

讲师介绍

潘超亚马逊云科技数据分析产品技术专家8 年大数据研发架构经验，企业任职从大数据研发>架构师>数据平台 Leader>CTO->SSA，对企业大数据平台的构建有丰富的实战经验。在大数据存储，离线及实时数据分析处理，OLAP 等技术上有深入的研究，在企业级用户画像、推荐系统、基于 NLP 和计算机视觉的智能审核业务等场景上有丰富的经验。

听众收益

Amazon MSK 的自动扩展能力及最佳实践
Amazon EMR 存算分离及资源的动态扩缩
基于 Flink+Hudi 构建数据湖及 CDC 准实时同步方案
Demo 实际操作展示

报名方式

点击【阅读原文】或扫描海报上的二维码即可报名，开发者报名后会立刻收到确认邮件，请注意查收~

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.