网易首页 > 网易号 > 正文 申请入驻

恒丰银行:数据湖建设项目

0
分享至

来源:鑫智奖·2024第五届金融机构数智化转型优秀案例评选

获奖单位:恒丰银行

荣获奖项:数据管理优秀案例奖

一、项目背景及目标

2021年7月,恒丰银行发布了“建设一流数字化敏捷银行”的新战略,明确了未来5年乃至到2035年全面推进数字化转型的时间表与路线图。根据战略规划,恒丰银行将围绕“建设一流数字化敏捷银行”的发展愿景,抓住生产力和生产关系两个战略方向,加快数字化转型,构建先进生产力,以敏捷组织重塑新型生产关系,推动数字银行先进生产力更高效释放、金融供给能力跨越式跃迁。数据湖建设项目完全沿用企业的存量基础设施和数据资产,提高新的基础设施(数据湖)建设效率,兼顾国产信创及自主可控的技术目标。通过更加灵活和具有开放性的数据湖,为全行加快数字化建设注入新动能。

二、创新点

(一)切片式需求拉动实施工艺

数据湖采用分片式建设实施工艺,在数据湖建设无独立立项、无独立费用情况下,从部门及企业级的重要项目中,确定数据湖实施需求范围。根据以下实施步骤完成:

1.需求收集访谈

从业务、数据、应用、技术4大方面进行需求收集。包括:业务描述及痛点、数据集成及加工需求、数据质量及安全要求、异构等技术特殊需求。根据每个目标的数据集成及加工需求进行详细评估(入湖清单、生产容量、利旧方案、迁移方案等)。

2.公共能力评估

结合访谈中的问题及技术特殊要求做公共能力评估,如现有数据线公共能力无法支撑项目建设,则与访谈目标沟通建设意向。

3.投入资源沟通

确定每个企业级项目投入目标,满足整体数据集成需求,数据湖搭建目标。

4.技术实施

数据入湖实施,数据湖逐步扩容升级等。

(二)异构数据库互联互通技术突破:

目前恒丰银行数据湖采用星环科技的Hadoop大数据组件TDH&ArgoDB,企业级数据仓库采用酷克公司的MPP数据库HashDdata。为了实现湖仓的数据互访,恒丰银行在业内首次打通了Hashdata与TDH&ArgoDB的技术壁垒,成功实现了两个商业数据库之间的互连互通。为同业推进湖仓一体建设提供了借鉴,具有良好的行业推广能力,模式可复制具备较高经济价值。

1.实现方案

HashData 通过Hive Connector连接器组件访问 TDH&ArgoDB。TDH&ArgoDB采用数据联邦的方式访问HashData 中数据,通过两种技术手段实现异构数据库互访。

(1)Hive Connector连接器

Hive Connector通过HiveMetaStoreClient连接Hive Metastore Service,获取Hive 表的元数据信息,利用获取的元数据使用HashData中gphdfs外部表来访问TDH&ArgoDB中数据。目前Hive 连接器支持Hive表格式为TEXT和ORC,主要用于Hive联邦查询、数据湖访问等场景。

(2)数据联邦

通过数据联邦能够自动优化执行计划,将执行语句优化并下推至数据源,只需获取计算结果而不需要获取全部数据,在避免数据重复存储的同时能够提升整体计算性能。

性能测试结果表明,HashData与TDH&ArgoDB使用Hive Connector和数据联邦的方式进行访问,比通过传统ETL模式整体性能提升40~50%,初步满足日常跑批时效性。但各应用需根据实际使用场景进行设计和优化,尤其上亿级表关联。同时随着并发的增加,表关联时长变长,运行性能下降,实际生产环境应根据资源配置选择最优并发,避免对批量作业产生影响。

2.应用成效与亮点

基于TDH&ArgoDB与HashData 的异构数据库互联互通方案,主要用于支撑以下应用场景:

(1)构建数据联邦,无需搬迁数据,可以通过标准SQL实现多数据源联邦查询;

(2)连接各类数据源,完成数据采集,且满足企业批量和实时的时效性要求。通常来说,HashData外部表可以满足企业对跑批业务的需求,而Hive Connector连接器可以很好地满足对实时性比较高的业务需求;

(3)实现Data Fabric架构,在混合云或者多云的环境中,实现动态管理不同数据源,并基于MPP 引擎进行并行、高速的数据访问,实现混合数据生态的无缝集成。

该方案采用Hadoop与MPP的湖仓混合架构,打通了两者间的元数据和数据互访,将数据仓库的高性能及管理能力与数据湖的灵活性、开放性融合。底层支持多种数据类型并存,能实现数据间的相互共享,上层可以通过统一封装的接口进行访问,同时支持实时查询和分析。该方案能高效发挥湖仓混合低成本、高可用、易拓展等优势,为我行海量数据存算、共享、分析和治理带来了更大的便利性。

三、项目技术方案

(一)数据湖建设规划

演进路线:基于Hadoop生态的融合数据平台,未来逐步演变为数据湖仓混合架构:

1.双线并行

搭建数据湖,新一代数仓与数据湖并行加载源数据文件,整合模型需要的贴源数据采用双写模式,新增贴源数据仅入湖。

2.数据湖扩容

继续扩充入湖资产,并完成数仓的供数需求。

3.贴源切换

新一代数仓贴源数据区切换至数据湖。

4.湖仓混合

Hashdata与ArgoDB产品数据互访,两区模型互访共享。打破产品限制,数据经过数据湖和数据仓库加工后,统一对外提供服务。

(二)数据湖技术实施方案

1.第一阶段

完成数据湖的基础建设。首先基于测评情况和资源评估情况,释放利旧资源,基于星环大数据平台TDH完成数据湖的搭建。其次首批业务数据入湖,基于数据湖完成审计、市场风险等需求实施,对外提供服务。最后对数据湖节点进行扩充,完成老数仓历史数据迁移,老数仓进行下线。本阶段采用双写模式,数据湖和数仓分别加载存储需求的贴源数据。

2.第二阶段

完成数据湖并行期建设,首先完成新一代数仓的贴源切换,所有贴源数据先入湖再入仓,数据湖聚焦所有贴源结构化数据,半结构化及非结构化数据的存储及简单加工,数据仓库集中做数据模型加工、计算。依据硬件资源情况,完成目标态160+80节点的数据湖及ArgoDB数仓扩容。基于Hashdata与ArgoDB两个产品数据能互访,实现湖仓混合技术路线,双方模型可以无差别共享,对应用无感。

具体实施方案为

(1)数据湖环境准备

利旧资源释放,数据湖产品及实施POC验证。

(2)TDH数据湖产品安装

完成核心技术验证;完成数据湖节点安装;数据湖逻辑分层设计及开发;完成数据湖SIT及正式对外发布。

(3)首批业务数据入湖

贴源入湖规范及双写范围确认,整合模型需要的数据采用双写模式,新增贴源数据仅入湖;企业级项目需求、总分行需求及需求入湖;

非结构化、结构化数据入湖开发。

(4)数据湖扩容

完成升级扩容任务,完成灾备集群搭建。

(5)历史数据迁移

完成老仓数据的迁移工作。

(6)贴源切换,升级扩容,湖仓混合

hashdata采用hiveconnect连通TDH;扩大贴源入湖范围并确认切换范围及准则;贴源切换新一代数仓;完成贴源切换。完成数据湖160+80的升级扩容任务;完成ArgoDB数仓升级扩容任务,实现湖仓混合技术路线。

(三)技术架构

数据湖建设,严格遵守恒丰应用架构、技术架构、安全架构、数据架构对于新建设(重构)系统制定的多项技术标准:

1. 可集成:国产TDH星环大数据平台,基于组件化建设,对接行内各公共技术及业务组件。

2. 高可用:双中心主备部署。无单点故障隐患,符合应用组件失效恢复时间要求(MTTR)5分钟;符合应用APM监控规范;应用日志满足日志规范;错误码编码遵循错误码设计规范;应用服务器CPU利用率<60%; 内存利用率<60%,支持横向及纵向扩展。

3. 国产化:基于信创技术构建数据湖,构建在信创云基础环境之上。

4. 应用安全:落实网络安全等级保护三级要求,敏感数据脱敏使用。

5. 数据安全:依托商用密码技术建立敏感信息加密传输、存储和访问使用的数据安全技防体系。

(四)实施工艺

1.需求范围确认

数据湖采用分片式建设实施工艺,数据湖建设无独立立项、无费用情况下,最终明确各个企业级项目支持数据湖建设。从部门“10+1”、领导讲话中的重要项目,确定访谈需求范围。

2.实施访谈

由“湖仓一体化”令主及数据架构师牵头,与项目负责人、业务负责人、科技研发和需求进行访谈,从业务、数据、应用、技术4大方面(24个点)进行访谈:

(1)建设现状及项目实施计划

(2)业务描述及痛点

(3)数据集成及加工需求

(4)数据质量及安全要求

(5)异构等技术特殊需求

3.数据建设评估

根据每个目标的数据集成及加工需求进行详细评估:

(1)新增数据集成表清单及生产容量

(2)数据线计算及容量方案设计

(3)数据迁移方案

(4)入湖必要性

(5)利旧可行性及方案

(6)云化可行性及方案

4.公共能力评估

结合访谈中的问题及技术特殊要求做公共能力评估,如现有数据线公共能力无法支撑项目建设,则与访谈目标沟通建设意向。

5.投入资源沟通

确定每个企业级项目投入目标,满足如下目标:

(1)企业级项目数据集成需求

(2)支持湖仓搭建工作

6.技术实施

技术资源评估与验证、实施准备、数据入湖、数据湖扩容、历史数据迁移等。

四、项目过程管理

项目各阶段的实施周期

五、运营情况

1.数据湖运行情况

目前数据湖运行良好,截止2023年底,累计完成11847张表入湖,涉及到155个系统、23个归属部门,满足审计部做数据建模、分析、评估、预警、审计的需求,满足零售金融部和个贷部的板块经营决策,营销分析,数据挖掘等工作提供统一数据服务需要,为交易银行部、公司/同业金融部、外部数据、风险管理部提供数据支撑,满足审计、风险、授信、对公、零售等领域赋能数据支撑。

2.数据湖资源使用情况

当前数据湖共50个节点,43计算存储节点,其中:总存储1537321G,CPU3200核,内存25492G,资源满足数据湖存储计算要求,系统平稳高效运行。

六、项目成效

数据湖建设项目,解决数据孤岛现状,实现全行统一的、可共享的数据平台。 数据湖统一整合行内、外部各类业务系统数据。数据湖全行数据最全且唯一。赋能业务部门,促进敏捷开发,快速响应业务需求,加速业务价值实现:数据湖通过提前接入数据源,覆盖全部业务领域数据,快速找到业务所需数据表,快速响应业务需求。当前数据湖已在如下场景实现数据支撑,产生实际业务成效:

1.支撑行内审计调阅

审计系统需要几乎覆盖接入全部行内系统数据,数据湖统一集成了审计系统所需数据,满足审计集市访问多业务系统数据进行审计分析,避免跨系统系统分析取数,极大降低审计获取数据难度,审计集市基于数据湖贴源数据进行进一步加工,满足审计部门高效的数据建模、分析、评估、预警的需求。

2.支撑机器学习数据探索

行内模型管理平台系统对接数据湖,目前各部门已实现通过模型管理平台访问数据湖进行数据探查,构建板块经营决策看板,营销分析挖掘,风险数据挖掘。数据湖数据覆盖存款、贷款、国债、基金、理财、银证通、客户及渠道、商户信息、手机银行、资金交易资产管理、信用卡申请、审批、卡片、合约账户、客户、账单、交易、分期、供应链系统、支付结算、现金管理、对客资金交易、保理、代收、对公存款、贷款、客户信息管理、营销及销售和价格管理、资金监管、客户评级及细分、征信、评级、风控集中平台、资产计量及管理、IFRS9、经济资本、外部数据等系统数据。满足行内统一数据服务需要。

3.支撑历史数据查询,统一数据调取

数据湖存储大量历史数据,目前可以通过统一数据查询系统对接数据湖进行历史数据查询,从而释放各应用系统数据存储压力,降低历史数据查询复杂度,提升效率,满足业务对于历史数据查询需要,实现降本增效。

4.支撑下游应用用数需求

数据湖集成海量数据源,将逐步支撑包括数据仓库在内的监管报送、经营分析、营销支持、风险管理等百余个行内系统的数据用数需求。

七、经验总结

数据湖实施成功关键点:

1.统一规划,有序推进

数据湖项目总共涉及到30多个需求,总涉及人员超50+,包含各业务部门领导、企业级项目ITBP、需求、开发经理、实施厂商,人员多、路径长给管理带来极大困难。通过制定详细跟踪计划,建立专项沟通群,特事特办,确定事项Face To Face沟通。合理制定总计划,拆分子任务,分析各个需求,按照计划严格执行,并执行周例会机制,有序同步计划执行情况。

2.团队协作,有效沟通

跨团队建立专项沟通群,针对不统一的问题及时会议沟通形成统一意见。数据湖在成立之初就存在无独立立项无费用情况,部门领导跟各企业级项目多次沟通费用情况,最终明确各个企业级项目支持数据湖建设。各团队分工通力协作,数据湖项目设立项目管理组,技术支持组,产品支持组,需求分析组,开发实施组,实施运维组,制度规范组。各组分工协作,从制定技术路线和开发框架,到产品安装运维优化,业务需求分析,系统开发优化,缺陷修复,系统测试,以及系统实施、运维、故障处理的及时响应和处理工作。各组的高效协作,保障项目平稳上线,顺利运行。

3.深耕湖仓,步步为赢

数据湖建设过程中,项目组攻坚克难,基于我行现状以及业内主流数据架构,制定湖仓混合架构,即数据湖和数据仓库互相补充、融合,协同的架构为用户提供了数据湖的灵活性和数据仓库的诸多特性,能够将大数据的总体成本进一步降低。项目实施过程中,有效解决了异构数据库的同步和互操作性问题,数据技术研发团队攻坚克难,利用4个月的时间,实现了HashData与TDH&ArgoDB通过Hiveconnector、数据联邦机制等混合模式的互访。为该方案能高效发挥湖仓混合低成本、高可用、易拓展等优势,为我行海量数据存算、共享、分析和治理带来了更大的便利性。


更多金融科技案例和金融数据智能优秀解决方案,请在数字金融创新知识服务平台-金科创新社案例库、选型库查看。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奇迹!3:0大胜10人越南,国足U23杀入决赛,赛后一幕:令人动容!

奇迹!3:0大胜10人越南,国足U23杀入决赛,赛后一幕:令人动容!

话体坛
2026-01-21 02:09:47
怒批罗永浩,就能解决问题吗?

怒批罗永浩,就能解决问题吗?

木蹊说
2026-01-21 12:33:54
国家卫健委重磅会议!2026年医务人员固定薪酬、绩效工资大变化

国家卫健委重磅会议!2026年医务人员固定薪酬、绩效工资大变化

医客
2026-01-21 12:11:56
欧洲资金开始大规模撤离

欧洲资金开始大规模撤离

贩财局
2026-01-21 22:18:11
国资委公布7户中央企业14名领导人员职务任免

国资委公布7户中央企业14名领导人员职务任免

界面新闻
2026-01-21 19:45:28
日本版水浒传公开最新宣传照,将于2月15日正式开播

日本版水浒传公开最新宣传照,将于2月15日正式开播

随波荡漾的漂流瓶
2026-01-21 22:28:29
曝嫣然医院房东张毅:履历被扒,涨租金或想收回来自己搞医美

曝嫣然医院房东张毅:履历被扒,涨租金或想收回来自己搞医美

古希腊掌管月桂的神
2026-01-21 12:41:44
难以置信!一家长称已放弃初二女儿的学习,并退出家长群,引争议

难以置信!一家长称已放弃初二女儿的学习,并退出家长群,引争议

火山诗话
2026-01-21 06:07:03
福建一首饰店被抢劫监控画面曝光:店主遭嫌疑人电击大声呼救,警方正调查

福建一首饰店被抢劫监控画面曝光:店主遭嫌疑人电击大声呼救,警方正调查

扬子晚报
2026-01-21 20:12:06
“女生遭4170元天价开锁”事件:开锁商户屡查屡犯,被罚款9550元并吊销营业执照

“女生遭4170元天价开锁”事件:开锁商户屡查屡犯,被罚款9550元并吊销营业执照

红星新闻
2026-01-21 18:02:27
离谱!越南博主:中国队全场奔跑+犹如怪兽 建议拉他们去测兴奋剂

离谱!越南博主:中国队全场奔跑+犹如怪兽 建议拉他们去测兴奋剂

风过乡
2026-01-21 22:11:05
特变电工:黄金年产量约2.5-3吨

特变电工:黄金年产量约2.5-3吨

财联社
2026-01-21 15:47:08
“国民神车”连续两个月 0 销量之后,搞了个骚操作

“国民神车”连续两个月 0 销量之后,搞了个骚操作

蓝字计划
2026-01-20 15:13:01
国内媒体:向余望打进关键一球,其父亲喝酒庆祝到早上

国内媒体:向余望打进关键一球,其父亲喝酒庆祝到早上

懂球帝
2026-01-21 16:30:14
日本对中国最大的帮助是什么?

日本对中国最大的帮助是什么?

多村来信
2026-01-21 11:26:09
俄罗斯发动大规模空袭,导弹中途居然还会转向,基辅一半地区停电

俄罗斯发动大规模空袭,导弹中途居然还会转向,基辅一半地区停电

碳基生物关怀组织
2026-01-20 19:48:05
委内瑞拉代总统会见美国中情局局长,特朗普:她会来但现在不合适

委内瑞拉代总统会见美国中情局局长,特朗普:她会来但现在不合适

合赞历史
2026-01-21 16:27:56
美政府首次回应“斩杀线”

美政府首次回应“斩杀线”

新京报政事儿
2026-01-21 00:16:19
赚了一百万的外卖员

赚了一百万的外卖员

中国青年报
2026-01-21 07:14:51
“三评西贝关店事件”,人民日报有6个问题说错了

“三评西贝关店事件”,人民日报有6个问题说错了

黔有虎
2026-01-21 16:52:45
2026-01-22 01:32:49
金科创新社
金科创新社
金科创新社
1522文章数 132关注度
往期回顾 全部

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

头条要闻

西安高校创始人两女儿争继承权 判完才发现公证书造假

头条要闻

西安高校创始人两女儿争继承权 判完才发现公证书造假

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

首位捐款的明星 苗圃现身嫣然医院捐款

科技要闻

给机器人做仿真训练 这家创企年营收破亿

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

教育
时尚
旅游
房产
数码

教育要闻

数据显示:本科生的学习更多停留在浅层

缔造仙女梦的人,去了天堂继续缝制星光✨

旅游要闻

不必跟风“杀猪宴”,乡村旅游没有“标准答案”|新京报专栏

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

数码要闻

微星首款610Hz显示器“MPG 242R X60N”降至3999元

无障碍浏览 进入关怀版