网易首页 > 网易号 > 正文 申请入驻

亚马逊云科技运用云原生助力敦煌网成功构建端到端数据分析平台

0
分享至

敦煌网(DHgate)成立于 2004 年,是领先的 B2B 跨境电子商务交易平台,在品牌、技术、运营、用户四大维度上已建立起竞争优势,为来自 225 个国家和地区超过 5960 万名注册买家提供服务,将他们与超过 254 万卖家连接。平台每年有超过 3400 万个在线商品,拥有 100 多条物流线路和 10 多个海外仓,71 个币种支付能力,在北美、拉美、欧洲等地设有全球业务办事机构。面对敦煌网的大数据战略需求,亚马逊云科技助其构建起端到端的一站式数据分析平台,完成了 Apache Hudi on Amazon Elastic MapReduce (Amazon EMR) 900 张表入湖,并支持每天 5TB 增量数据入湖,最终实现 IT 维护成本降低 30%,开发效率提升 40%,成功帮助客户打造了数据驱动型企业。目前,敦煌网使用的亚马逊云科技服务包括:Amazon Simple Storage Service (Amazon S3)、Amazon EMR、Amazon Redshift、Amazon OpenSearch Service 等。

机会 | 建设大数据云底座,加速企业数据洞察

如今,在各种不确定因素影响下,跨境电商是否依然是一片蓝海?对此,敦煌网集团技术中心副总裁刘文涛给予肯定答复,他表示:“各垂直类跨境电商所关注领域并不同,且国家政策鼓励将中国制造输出海外,此外,社交电商赛道的蓬勃发展,也激发了跨境电商更多可能性。”

值得敦煌网挖掘的空间还非常大,也充满想象力,刘文涛认为首要一点,是从企业内部出发,对敦煌网沉淀了近 20 年的大数据资产进行深度挖掘、洞察和使用。随着平台业务日趋成熟,经营范围持续扩大,品类和渠道的增加,以及 AIGC 等行业新技术在运营提效场景下的广泛应用,敦煌网迫切需要打造集数据集成、开发、资产管理和服务等功能为一体的一站式大数据平台,对多年积累的海量数据进行分析挖掘,激活数据价值,带动服务水平和业务反应速度的提升。

敦煌网之前采用的是传统 IDC 大数据集群,维护成本高,计算存储耦合,算力瓶颈无法实现弹性伸缩,技术架构相对保守封闭。因此,敦煌网亟需构建一套现代化的智能湖仓架构,作为大数据平台的云底座,确保数据无缝流转,并通过精细化运营和成本优化,实现资源能够随业务灵活扩缩,达成数据驱动决策,算法增长业务的目标。

为了实现大数据战略,敦煌网通过前期调研,对离线集群、数据仓库引擎、对象存储等进行多个维度、多家厂商及开源方案深入评估测试后,最终选择亚马逊云科技为其建设大数据云技术底座。选择亚马逊云科技的原因有两点:第一、亚马逊云科技生于零售,拥有强大的电商创新经验,与敦煌网的业务模式非常契合,为电商行业专门构建的产品和服务经过自身多年检验,从架构兼容性、算力、维护成本、开放性、扩展性等角度都能够很好满足敦煌网的需求。此外,安全合规已成为各国政府持续监管重点,亚马逊云科技满足全球范围内严苛的合规标准,能够有效保障敦煌网全球范围的数据安全和隐私保护。

通过使用像 Amazon EMR,Amazon Redshift 这样的云原生数据分析组件,我们构建了‘更准、更全、更快、更稳’的端到端数据分析平台,使大数据的 IT 维护成本降低 30%,开发效率提升 40%,解决了算力瓶颈,让我们可以把更多精力和资源投入到提升数据化运营能力和增长洞察上。”

刘文涛,敦煌网集团技术中心副总裁

解决方案 | 智能湖仓架构 + 大数据平台,实现数据价值可持续释放

借助亚马逊云科技,敦煌网完成了从 Apache Impala + Apache Kudu 存算耦合架构向 Apache Spark on Amazon EMR + Hudi + Amazon S3 智能湖仓架构的升级改造,实现海量数据的入湖,并与合作伙伴滴普科技共同构建了符合敦煌网当前业务需求和未来发展的新一代端到端大数据分析平台,确保其数据和应用准确无误地云上迁移。

智能湖仓架构替换存算耦合架构,数据无缝流转

智能湖仓以 Amazon S3 作为中心数据湖,实现数据的集中存储和管理,并针对不同的场景,选择最具性价比的计算引擎,使数据能够在湖仓和计算引擎之间无缝流转,而在入湖方式上则采用基于 Hudi 实现 CDC (Change Data Capture 变更数据获取) 数据入湖。在构建智能湖仓过程中还进行了多项优化调整,包括:

  1. 计算优化 —— 以基于 Amazon EMR 的 Apache Spark SQL 替换原来的基于本地 IDC 部署的 Hive on Spark,并完成 Spark2 到 Spark3 的升级,亚马逊云科技协助实现数据字段的适配和调整,使计算性能进一步提升;
  2. 存储优化 —— 通过 Amazon S3、Amazon Elastic MapReduce (Amazon EMR) 实现存算分离和智能分层。敦煌网的搜索推荐、用户召回等业务场景,需要实时多任务的计算调度,相比传统 IDC 的自建存储,Amazon S3 更具成本优势,EMR File System (EMRFS) 可以无缝和 Amazon S3 智能分层集成,保证在高性能前提下,进一步节省存储成本;
  3. 基于 Apache Hudi on Amazon EMR 的准实时数据湖改造 —— 基于本地 IDC 部署的大数据集群,每天会将 Kudu 数据通过 Impala 导出到 HDFS,Kudu 是依赖磁盘的存储引擎,存储、运维成本较高,且仅是数据的一个中间层,很难满足业务场景对实时数据分析的要求。为了实现准实时、分钟级别延迟写入,敦煌网选择了 Hudi,并希望通过 Amazon EMR 完成准实时数据湖架构升级,Amazon EMR 上的 Hudi 包与 Spark 已进行了代码适配,因此 Apache Hudi on Amazon EMR 成为了合适的选择,在架构的改造升级上能够实现无缝支持;
  4. BI 分析改进 —— 电商经常会通过 RFM 模型(客户价值模型)做用户召回、购物券分发等营销活动,需要进行大量的数据分析工作, 云原生数据仓库 Amazon Redshift 很好地满足了敦煌网 BI 报表的日常收藏和查询需求。其中,Redshift Spectrum 可直接做外表查询,Redshift CC Scalling 支持几乎无限的并发用户和并发查询。刘文涛表示:“此前我们的报表数据查询周期是 T+1、T+2,现在可以实现 T+0 的准实时分析和回归,查询效率提升了 100%。“

敦煌网基于亚马逊云科技的架构示意图

“快、准、全、稳” 的端到端数据分析平台,响应业务快速发展

为了更好地分析数据并获取洞察,亚马逊云科技为敦煌网建设大数据云底座的同时,也协调滴普科技共同打造匹配跨境电商体系的端到端数据分析平台,以解决电商数据源多样、数据量大、数据类型多的管理难题,并在云上借助 Amazon S3 统一数据湖与 Amazon EMR 统一的数据框架服务,完成数据的快速采集、存储、安全管理与大数据处理,“快、准、全、稳 ” 地帮助敦煌网全面整合从数据源到数据分析以及数据价值实现的完整链路。

日夜攻关突破,完成 1000 + 作业、PB 级全量数据迁移上云

伴随组件生产环境、大数据平台部署与调配完成,数据入湖和云上迁移提上日程。根据规划,敦煌网需要将源表 8 万张合并到 Hudi 900 张表,并且实现每天增量 5TB 数据入湖;此外,还要完成 PB 级全量数据、3000 余张数据表、1000 多个计划任务以及 400 多个业务报表的上云迁移,这在整个业界都是无经验可循的复杂业务场景。
亚马逊云科技团队与敦煌网和滴普科技的工程师们日夜攻关突破,最终成功实现数据入湖的目标,并在 3 个月内完成数据和应用的准确无误上云迁移。

驾驭云支出,实现精确的成本管控

敦煌网对成本控制非常严格,亚马逊云科技多次为其提供系统性的成本优化培训服务,敦煌网也在借助 CFM (云上财务管理) 产品有效观察产品使用率,通过合理配置 RI、Saving Plan 进行最佳成本控制,并且从数据层面完善自动化的生命周期管理,在计算层面规划数据任务调度分布。如,利用 Amazon EMR 实现业务高峰期生产环境资源的扩展,并可在集群空闲时自动实现缩放节点和关闭集群,将此前高昂的基础设施成本转化为更灵活的业务运营成本。

业务成果 | 数据驱动业务,实现 T+0 近实时分析,提升 40% 开发效率

“通过使用像 Amazon EMR、Amazon Redshift 这样的云原生数据分析组件,我们构建了‘更准、更全、更快、更稳’的端到端数据分析平台,使大数据的 IT 维护成本降低 30%,开发效率提升 40%,解决了算力瓶颈,让我们可以把更多精力和资源投入到提升数据化运营能力和增长洞察上。” 刘文涛如是说。

搭建智能湖仓架构后,敦煌网数据集群的运行硬件和维护成本降低了 30%,解决了 IDC 大数据集群无法通过扩展节点来增加算力、存储和网络流量的瓶颈问题。

电商是一种季节性很强的业务,如黑五、双十一流量会暴涨,潮汐效应明显。此前,为了满足欧美市场商家 “圣诞季 “的采购需求,敦煌网每年 8 月底就提前部署设备应对流量洪峰,之后则会变成冗余资源。同时,电商也是深度数据驱动行业,多种 BI 处理、数据分析需求高度依赖数仓查询。Amazon EMR 一次性集群和 Amazon Redshift 的定时、分钟、秒级多种动态弹性扩缩容方式,能够很好满足业务负载的周期起伏,提高数据查询效率达到 100%。

敦煌网的数据架构完成云原生的改造和升级后,实现了数据实时入湖、存算分离架构,能够支撑未来更多实时和离线业务场景需求,如 AIGC、实时用户画像搜索推荐等。而端到端数据分析平台的上线,使数据开发、测试、发布、运维流程规范化,提高了 40% 的开发效率,数据资产管理的数据地图、数据血缘等功能提高了数据探查效率,有效降低了数据使用沟通成本。此外,东西向隔离、表级别权限细分这些线下管理难以实现的安全功能,通过亚马逊云科技解决方案,敦煌网也将权限管理细化到了极致。

未来,敦煌网希望继续与亚马逊云科技合作,比如,利用专为电商行业构建的个性化推荐服务 Amazon Personalize 实现千人千面的产品推荐,使用 Amazon Interactive Video Service(Amazon IVS)试水数字人直播业务,并尝试 AI 一键选品、AI 一键生成直播话术、个性直播间装修、直播间选品等功能,为客户提供更灵活的购物服务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股三大指数均跌超1%

A股三大指数均跌超1%

每日经济新闻
2024-05-23 10:16:09
云南检察机关依法对李志勇提起公诉

云南检察机关依法对李志勇提起公诉

最高人民检察院
2024-05-23 16:03:48
突然!从反华到亲华,从友好到“断交”,这个国家变脸也太快了

突然!从反华到亲华,从友好到“断交”,这个国家变脸也太快了

新财迷
2024-05-23 09:47:53
央视开播!36集谍战大剧来袭,越看越上头,终于有对味的谍战剧!

央视开播!36集谍战大剧来袭,越看越上头,终于有对味的谍战剧!

雨天华夏
2024-05-23 13:47:40
“85后”江西省委委员黄娜,就任抚州市东乡区副区长

“85后”江西省委委员黄娜,就任抚州市东乡区副区长

澎湃新闻
2024-05-23 15:54:33
出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应?

出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应?

老白调研室
2024-01-23 12:11:51
英国国防大臣沙普斯:大国已经或准备向俄罗斯提供致命援助

英国国防大臣沙普斯:大国已经或准备向俄罗斯提供致命援助

老马拉车莫少装
2024-05-22 22:44:37
台媒关注:侯佩岑、欧阳娜娜等岛内艺人转发大陆官媒微博,内容包含“中国终将实现完全统一”

台媒关注:侯佩岑、欧阳娜娜等岛内艺人转发大陆官媒微博,内容包含“中国终将实现完全统一”

环球网资讯
2024-05-23 09:42:55
“最帅央视男主持”:与母亲通完电话后,跳楼身亡

“最帅央视男主持”:与母亲通完电话后,跳楼身亡

柴叔带你看电影
2024-05-22 17:30:20
刚刚,惊天丑闻曝光!美西方信用彻底崩塌!

刚刚,惊天丑闻曝光!美西方信用彻底崩塌!

一个坏土豆
2024-05-22 21:28:20
网友劝森林北:千万别给汪峰生孩子,康作如就是前车之鉴

网友劝森林北:千万别给汪峰生孩子,康作如就是前车之鉴

七阿姨爱八卦
2024-05-22 17:21:06
要逆市涨价?新特斯拉Model Y曝光,配置终于赶上国产了

要逆市涨价?新特斯拉Model Y曝光,配置终于赶上国产了

看看娱乐与体育
2024-05-23 15:18:23
国家卫健委发布:开展人体器官获取与移植的医疗机构,网友都炸了

国家卫健委发布:开展人体器官获取与移植的医疗机构,网友都炸了

雪莉故事汇
2024-05-22 09:21:07
记者:橡树资本不打算立即出售国米,希望成为有耐心的投资者

记者:橡树资本不打算立即出售国米,希望成为有耐心的投资者

直播吧
2024-05-23 08:03:14
葛荟婕接连炮轰汪峰:有本事再生一个!森林北凌晨5点不睡忙澄清

葛荟婕接连炮轰汪峰:有本事再生一个!森林北凌晨5点不睡忙澄清

娱乐白名单
2024-05-22 12:49:33
内塔利亚胡的申请逮捕令和普京的逮捕令还是区别蛮大

内塔利亚胡的申请逮捕令和普京的逮捕令还是区别蛮大

历史总在押韵
2024-05-23 00:01:19
伊朗画家的新作:苏莱曼尼迎接莱西的到来。

伊朗画家的新作:苏莱曼尼迎接莱西的到来。

人情皆文史
2024-05-21 14:22:51
撤销ST第3天!连续3个天板,300万手封单,股民惜售明显

撤销ST第3天!连续3个天板,300万手封单,股民惜售明显

惜别的海岸
2024-05-23 10:25:56
郭有才必须停播,说他是教育界的毒瘤,其实是名副其实

郭有才必须停播,说他是教育界的毒瘤,其实是名副其实

平老师666
2024-05-22 21:39:53
爆料!重庆渝北区!抓获40多名淫秽表演主播!坦胸露乳的!

爆料!重庆渝北区!抓获40多名淫秽表演主播!坦胸露乳的!

天天娱乐工作室
2024-05-23 15:08:15
2024-05-23 16:34:44
亚马逊云科技
亚马逊云科技
第一时间获取关于亚马逊云科技国内外服务的资讯。
199文章数 0关注度
往期回顾 全部

科技要闻

黄仁勋业绩会万字实录:我们的压力太大了

头条要闻

岛内关注东部战区联合演训:围岛军演比想象中更快出现

头条要闻

岛内关注东部战区联合演训:围岛军演比想象中更快出现

体育要闻

张氏父子的一场大梦

娱乐要闻

大S儿子被学校退学,张兰称孙子没人管

财经要闻

宗馥莉接棒100天,钟睒睒站在大门外

汽车要闻

上汽大通大家7超混/大家9超混将于6月7日正式上市

态度原创

本地
教育
手机
亲子
军事航空

本地新闻

强制措施展铁腕 “交叉执行”勇亮剑

教育要闻

重庆:农业科技知识进小学校园

手机要闻

网传一加Ace 3 Pro 7月底发布:搭载骁龙8 Gen 3

亲子要闻

果然生个孩子就是为了玩的,网友:娃都睡了,你不困吗

军事要闻

以军继续杰宁攻势 巴武装组织打击以目标

无障碍浏览 进入关怀版