2021年10月,中国人民银行等联合发布了《关于规范金融业开源技术应用与发展的意见》(银办发〔2021〕146 号),规范金融机构合理应用开源技术,提高应用水平和自主可控能力,促进开源技术健康可持续发展。前期,为助力成员单位做好开源技术应用与发展工作,北京金融科技产业联盟开源专委会组织了金融业开源技术应用、创新等方面的案例征集,现对部分优秀案例进行宣传,发挥先进典型示范引领作用。
【金融机构开源技术应用创新成果案例 第十五期】
中国农业银行——数据湖建设
技术领域:大数据
技术产品:Hudi、Alluxio、Flink、Atlas、Monaco Editor、AntvX6
业务场景:实时经营管理、实时运维管理、数据运营管理、数据开发
应用时间:2021年12月
一、案例背景
十三五期间,农业银行全面推进数字化转型,业务数据量不断增长,各部门用数需求愈发旺盛。数据种类方面,用户行为日志、客服语音、凭证图像、监控视频等半结构化和非结构化数据,能够为客户营销、风险控制等业务场景提供更多的数据参考,提升数据分析结果的精准度。数据时效方面,各部门对数据加工、数据开发、数据流转、数据治理的响应时间提出了更高的要求。资源成本方面,随着数据量的持续增长,如何提高大数据存储和计算资源利用率,节省资源成本,成为必须面对的现实问题。
金融行业的大数据平台通常按照数据仓库的理念建设,以结构化数据批量处理为主。在新的发展阶段下,大数据平台迫切需要提升以下四方面的能力:一是扩充数据处理范围,支持半结构和非结构化数据的自动化采集、存储、加工、服务;二是提升数据处理时效,加强实时数据采集、存储、计算、服务能力;三是提升数据开发和管理效率,数据需求到达后能够快速完成分析、映射、开发;四是提升大数据资源利用率和交付速度。
数据湖作为大数据新型解决方案,通常具备多源异构数据的采集能力、强大的数据存储和计算能力、完善的数据管理和服务能力,可以满足新形势下灵活多样的数据需求。
二、创新成效
技术方案
农业银行数据湖创新融合存算分离、流批一体、湖仓一体多元技术架构,引入六项开源技术,孵化出一套数据湖开源技术栈,构建了存储云+计算云+工具云的大数据新型技术架构。
湖存储层引入数据湖软件Hudi,实现流批一体存储、事务管理、快速更新等能力;湖加速层引入数据编排软件Alluxio,一是支持多芯异构存储统一管理,二是利用软件加速技术实现计算加速;湖计算层引入流批一体引擎Flink并实现容器化部署,同时支撑实时处理和批量处理场景;湖管理层引入元数据管理软件Atlas,实现元数据准实时采集和数据血缘智能解析;湖消费层引入Monaco Editor代码编辑器和AntvX6图编辑引擎,提供大数据可视化低代码开发体验。
说明图示
技术创新
一是实现流批一体存储计算,基于一套环境、一套程序、一份数据,数据处理时效由T+1提升至分钟级,并有效降低开发运维成本;二是实现大数据存算分离及上云,支持存储计算资源独立扩缩容,计算资源交付速度由周压降至秒级;三是实现多芯异构存储统一管理,存储规模扩充至EB级;四是通过低代码开发和多租户管理实现大数据应用快速构建。
业务创新
一是集中汇聚结构化与非结构化各类数据,可构建以“客户为中心”的全景视图;二是新增实时入湖及ETL处理链路,支撑热点交易监测、智能运维等实时分析场景;三是实现元数据智能解析,大幅提升数据管理人力效能,有效加强数据质量和数据安全管理水平;四是实现数据冷热分区,冷数据存储成本下降约50%。
三、产业价值
农业银行数据湖建设创新应用多项开源技术,基于鲲鹏ARM处理器、银河麒麟操作系统等新的基础技术栈进行投产部署,一是落地存算分离技术架构,二是实现湖仓一体技术能力,三是完成流批一体采集、存储、计算、服务能力建设,四是实现计算引擎上云,五是支持大数据多芯异构部署模式,六是构建数据资产、质量、安全智能化管理能力,七是实现大数据可视化低代码开发体验,验证了大数据新型技术栈在金融场景的可行性,有效提升大数据处理能力、大数据精细化管理水平和企业数据治理水平,为其他金融同业机构提供了可借鉴、可推广的示范案例。
本文来源:开源专委会
投稿邮箱:News@bfia.org.cn
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.