文 / 中国工商银行软件开发中心上海开发一部
银行业数据资产管理与运营的困难
数据是数字经济时代关键的生产要素,也是推动经济社会高质量发展的重要引擎。工商银行全面贯彻落实“十四五”规划要求,推出“数字工行(D-ICBC)”品牌,主动融入“数字中国”建设大局,推动我国“数字经济”健康发展。数据资产是银行业加快数字化转型的新动能,工商银行作为金融业首家获得DCCM最高等级认证的企业,建设了全集团全量贴源数据的数据湖,形成了百余个主题聚合、千余个客户标签、百万个统计指标等海量数据资产,并深化建设了企业级数据资产管理体系,全面推动数据管理工作和数据平台建设升级转型。
在数据资产的管理与运营上,银行业存在普遍的痛点。在数据资产查询方面,数据资产数量众多,用户在海量资产中寻找资产难度较大,无法快速精准找到目标资产。在数据资产理解方面,数据资产盘点、数据资产画像构建等任务因工作量较大而难以开展,海量资产之间也缺乏清晰可视化的链路关系,对用户理解使用数据资产也造成了困扰。在数据资产运营方面,缺乏智能化、自动化的运营指标和运营策略。针对上述问题,工商银行运用人工智能和大数据技术,建立统一的数据资产全生命周期管理机制,建设了数据资产管理系统(如图1),集中解决“查询难、理解难、运营难”等数据资产痛点问题。
AI和大数据技术在数据资产管理中的运用
1.依托AI大模型技术构建用数助手,支撑各类用户快速定位所需数据资产,解决数据资产“可查询”的问题
工商银行数据资产管理系统通过首页搜索和数据资产目录的形式,实现数据资产的检索,但随着时间的推移,数据资产越来越多,单一的搜索引擎调教和资产目录的查找路径已经无法适应总分行业务人员的探查需求,亟需推出一种新的检索方式。此时,ChatGPT大模型技术应运而生,在业务语言和数据资产之间架起了具有里程牌式的桥梁。工商银行依托AI大模型技术构建用数助手(如图2),解决总分行业务在做研究分析、数据探查等工作时找数难的问题,事前,通过梳理相关知识数据,完成数据清洗并导入大模型预训练。事中,通过“提示词调整”大模型技术,对知识数据微调训练。事后,通过数据埋点,收集对话内容等信息,供事后进行自动积累和迭代更新。用数助手大模型上线后,总分行业务在做研究分析、数据探查等工作时,等待时间预计由原来2天以上缩短至30分钟以内,科技支持人员处理工单效率预计提升50%。
2.通过建立数据资产凭证、标签体系、全链路血缘溯源机制,构建数据资产多维画像,解决数据资产“可理解”的问题
(1)建立数据资产凭证,构建数据资产画像,降低用户理解门槛。依托大数据技术全面采集、融合数据资产技术元数据信息、管理元数据信息和业务元数据信息,数据来源包括工商银行内部数据资产、以及合法采购的外部数据元数据信息。基于大数据和可视化分析处理技术,对数据资产结构、数据资产描述信息等静态元数据、以及数据资产容量、最新数据日期、批量运行日期、查询使用次数、用户访问次数等动态元数据信息进行全面采集、融合计算和分析,面向贴源数据、主题聚合、统计指标、客户标签等各类数据资产设计和建立相应的数据资产凭证,构建数据资产画像(如图3),使数据资产更加可阅读、易理解。资产要素信息盘点周期可以从原先按月盘点提升到按日盘点,盘点准确性可以达到100%、数据资产盘点的成本降低了50%,盘点效率提升了70%。
(2)建立数据资产标签体系,实现数据资产向用户的快速触达。基于数据资产属性信息,建立数据资产内容、质量、安全、场景等多纬度的标签库,助力描绘数据资产多维画像。基于数据资产标签信息实现搜索、推荐等智能化应用,实现从“人找数据”到“数据找人”。将原有查找数据、理解数据的效率从1~2天缩短到分钟级,数据资产洞察和理解成本降低了70%,服务效率提升了50%。
例如在数据安全标签方面,工商银行目前基于自动化数据安全分级分类识别服务,开展全域数据资产贯标。通过构建自动化数据安全分级分类识别服务,对各系统元数据信息以及业务系统数据进行扫描。内置工行分类分级模版及识别规则,依据数据分类分级策略,自动识别出敏感数据及分类分级结果,辅助数据安全打标工作,识别结果用于控权、脱敏、审计等场景。技术上采用自然语言处理(NLP),结合正则匹配、关键字匹配、文本分类、相似度AI模型,构建智能数据识别能力。数据安全分级分类自动贯标解决了业务系统在开展数据资产分级工作中,敏感数据识别难、人力成本高且识别质量难以保证的问题。引入智能敏感数据识别能力后,通过工具对数据库实体表抽样扫描,自动完成打标,大幅降低人工打标成本,同时配以少量数据治理人员的人工复核,大幅提升敏感数据识别质量,有效支撑工行的数据资产分级工作。
(3)基于大数据平台构建数据资产血缘解析和分析技术,实现端到端的全链路可视化分析能力。建立全链路血缘可视化溯源机制,快速厘清数据资产来龙去脉。打通从源头端到目标端整个数据资产加工链路的、跨多种数据资产类型的血缘信息,有效、全面、准确回答数据从哪里来、数据到哪里去的问题。利用解析工具将脚本语句解析成语法树,通过对解析出来的tokens进行分类、提取、判断,找出目标表所有字段的来源,包括源表、源表字段、加工逻辑等。在血缘分析粒度方面,在数据表粒度的基础上突破实现字段级细粒度的分析能力,全面刻画表与表之间、字段与字段之间的逻辑链路关系,提升血缘分析的准确性、精准性。在分析形式方面,实现可视化自助分析为数据资产质量问题溯源、核心数据资产智能定位、数据资产问题影响性分析等场景提供抓手和支撑,提升血缘分析的便捷性、易用性。
3.以数治数,开展数据资产常态化运营治理,解决数据资产“可运营”的问题
夯实数据运营基础数据采集,健全数据资产运营指标体系,基于大数据处理与分析技术,以图形或图像可视化形式与用户交互,挖掘出运营数据背后所反映的问题,实现通过数据驱动的方式治理数据。依靠数据长效运营机制(如图4),护航数据要素建设有序发展。
(1)运用数据质量监测引擎技术,实现海量数据资产的质量守护能力。首先,大幅减低数据质量监测部署门槛。基于BI自助脚本部署工具,实现线上灵活部署规则,规则审批通过后,监测引擎自动识别问题实现预警等能力,即使不会编码的业务人员也可以轻松完成部署工作,实现所见即所得的部署效果。其次,提升数据质量治理时效。部署的规则可即时生效,突破原有需要技术研发人员通过研发、测试、投产的固有模式,快速满足全行各专业条线的数据质量治理需求。第三,面向海量数据动态、全面守护和监控数据质量。通过将监测引擎与大数据平台中的数据湖、数据仓库、数据集市等海量数据高效对接,对各类数据开展动态、实时监控,及时发现数据不准确,不完整,不及时,不一致等异常,并以邮件等多种方式进行智能预警,有效掌控数据风险。
(2)运用大数据分析技术建立数据资产运营指标体系,驱动数据时效治理、数据资产低效退出。工商银行经过多年的数据资产运营实践,提炼总结出了数据资产运营架构体系,实现数据资产的统一管理、运营数据的统一采集及指标加工处理,面向数据运营人员提供数据支撑,驱动数据时效、低效资产退出。指标采集贯穿引数、建数、治数、管数、用数五个环节,基于外部数据信息、贴源数据等统计外数共享率等引数指标;基于数据资产管理系统资产盘点结果统计数据资产规模、数据服务规模等建数指标;基于大数据服务平台作业日志信息统计数据资产时效等管数指标;基于数据质量规则部署信息统计资产质量规则数等治数指标;基于大数据服务平台、企业级日志中心等日志信息,统计数据资产调用量等用数指标。运营人员可基于运营指标情况,部署运营分析策略及定制可视化看板,形成时效提升任务、资源分配调优任务、低效退出资产清单、优质资产推荐清单等,并完成进度跟踪反馈,实现运营工作日常化和标准化。
探索未来新兴技术应用场景,提升数据资产管理效率
综上所述,工商银行运用一系列的AI和大数据技术,建立了统一的数据资产管理体系,围绕全面盘点、数据质量、安全合规、价值成效、找数体验等方面,持续提升数据资产的质量和价值,降低数据成本。
未来,工商银行将继续探索新兴技术应用场景,持续提升数据资产管理效率:一是夯实数据资产建设,利用id-mapping等大数据分析技术,融合行内、行外等数据,打通数据要素,依托流批一体、实时数仓等技术,支撑数据资产准实时加工,驱动数据服务时效全面提升;二是高效协同用数赋智,运用大模型技术以用户视角构建差异化的数据资产视图,降低找数门槛;三是深耕数据运营治理,通过大数据平台持续完善数据资产运营指标体系,根据业务策略,智能化地输出运营治理清单,进一步释放数据资产价值。
(此文刊发于《金融电子化》2024年1月上半月刊)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.