网易首页 > 网易号 > 正文 申请入驻

联邦学习在工行的实践

0
分享至

5月26日,由北京金融科技产业联盟秘书处与与中国银联联合推出的线上直播栏目“金融科技慕课学院”第一期开播。在本期直播中,工商银行大数据与人工智能实验室资深经理、英国爱丁堡大学运筹优化专业博士强锋从行业视角切入,介绍中国工商银行在联邦学习技术的相关实践和未来展望。

隐私计算技术因其能够实现数据的“可用而不可见”,从而能在源头保证数据流通的合规性。近年来,随着人工智能、大数据为代表的应用技术在金融行业越来越多场景落地,以联邦学习为代表的隐私计算技术作为数据共享、交易、流通的关键技术支持,也被越来越多的金融科技从业参与者所重视。工行积极与业界开展交流合作,结合自身对金融行业的理解,推进联邦学习技术在金融行业的落地应用,加速行业标准制定,构建联邦技术生态,助力以数据为生产要素的数字经济发展。

直播回顾:本次分享从数据生产要素的国家战略为起点,介绍了联邦学习在数据生产要素流动中的重要作用和基本概念。并就工行在相关标准的制定思路、技术路线规划的思考、场景建设经验和未来生态建设展望进行了分享。

背景分析

数据要素的利用有两个核心问题,一是实现数据价值计算,二是保障数据隐私安全。从传统角度来说,数据利用通常有“不愿”、“不敢”、“不便”三大难点,其分别缘于数据持有方主观上不愿共享数据、数据共享可能存在法律风险、数据合作双方应用难度大且实施周期长。上述三个难点造成了数据孤岛现象,极大限制了数据价值的发挥。为了挖掘数据中蕴藏的巨大价值,消除行业数据孤岛现象,在保障数据隐私安全的前提下,使数据之间相互协作是未来的发展趋势,而明确数据的所有权,并将所有权和使用权分离,也成为开展普遍数据流通的前提。

近年来,数字经济蓬勃发展,已成为带动中国经济增长的核心动力。中国已步入数字经济时代,数据成为新的关键生产要素。2017年,习近平总书记在中共中央政治局第二次集体学习中强调“要构建以数据为关键要素的数字经济”。2019年10月,党的十九届四中全会指出“数据等生产要素由市场评价贡献”。2020年3月、5月和6月,国务院先后提出“加快培育数据要素市场”、“完善数据权属界定、开放共享、交易流通等标准和措施”和“数据安全有序流动”;同年,商务部亦提出“探索跨境数据流动分类监管模式”。鉴此可以看出,国家已将数据列为生产要素。

在金融领域,“要素”从初始阶段的货币要素,逐步转向资本要素、信息要素,进一步发展为数据要素—金融已迎来数据要素时代。数据进入社会化大生产阶段,成为推动金融业务发展的核心要素投入。作为数据密集型产业,金融数据要素势必起到愈发重要的作用。

随着大数据的进一步发展,重视数据隐私和安全成为世界性的趋势。2019年10月至2020年9月间,央行等机构出台多项数据法规政策,金融数据隐私合规要求日趋全面和严格。

联邦学习技术简介

隐私计算是指在保证数据方不泄露隐私数据的前提下,对数据进行计算并能验证计算结果的信息技术。隐私计算让开展普遍的数据流通成为可能,其提供了一种技术手段,从源头保证数据流通的合规性,做到数据“可用不可得、可用不可见、可用不可拥”。隐私计算目前有三大主流门派:联邦学习、多方安全计算、可信执行环境。联邦学习技术的初级形态可以溯源到1978年“同态加密思想”的提出,2016年,谷歌最先提出“联邦学习”。

联邦学习的理想化状态是数据丰富、数据特征充足、数据共享,然而它又面临着数据量不足、缺乏数据特征、数据孤岛、隐私保护等现实。以反洗钱为例,在现有条件下,各银行之间无法在不可见对方数据的前提下完成共同建模,现有模型效果依赖于各自持有数据,这将很难提升跨机构反洗钱的效果。联邦学习需要挑战数据孤岛和数据隐私制约人工智能应用,进而实现打通数据孤岛,释放数据价值之目标。

联邦学习分为横向联邦纵向联邦,横向联邦是指在数据集的样本特征重叠较多,而样本ID重叠较少的情况下,把数据按特征维度对齐,取出双方样本特征相同而用户不完全相同的数据进行训练,其样本ID不同,特征相同,常运用在与同业共建联合模型。纵向联邦是指在数据集的样本ID重叠较多,而样本特征重叠较少的情况下,把数据按样本ID对齐,取出双方数据ID相同而数据特征不完全相同的数据进行训练,其样本ID相同,特征不同,常运用在运用跨行业数据提升自身模型效果的场景中。

联邦学习的模型训练态可分为四步,第一步是特征工程,即使用平台联邦工具箱完成分箱、WOE值,IV值计算等,过程中平台工具保证数据隐私不泄露;第二步是联邦样本对齐,仅应用于纵向联邦,即完成数据特征基于双方ID的对齐,过程保证双方交集外样本ID不泄露;第三步是联邦模型训练,即联邦各方加密交互中间计算结果,完成模型的学习和收敛,过程保证梯度不可被反推,原始数据不出域,原始样本数据不可被反推;第四步是生成联合模型,即横向、纵向两类联邦模型推理过程,都能够保证样本数据不泄露,推理过程中对方的模型部分计算过程不泄露。

横向联邦和纵向联邦模型的推理态有所不同。横向联邦推理过程不需要其他参与方,推理的隐私保护较易控制,模型的管理和运营模块可以复用现有图灵底座能力;纵向联邦推理过程需要连接数据提供方的生产数据,在推理过程中,联邦学习平台利用密码学协议保证过程中数据提供方数据不出域,推理的模型计算过程不泄露,不可通过计算过程的密文参数交换反推数据提供方的原始数据或者数据提供方的模型计算过程。

联邦学习和多方安全计算并不相同。从来源上说,二者分别来自人工智能和密码学;从定义上说,二者分别基于机器学习和联合计算一个函数;就场景而言,二者的功能分别为联合建模、推理和拟定一个函数;就标准而言,二者分别遵从于联邦学习技术、互通标准和多方安全计算标准。在工信部2020年12月发布的《电信和互联网行业数据安全标准体系建设指南》中,认定多方安全计算、联邦学习为数据交换标准建设类目下的不同技术,明确了联邦学习是一个单独的技术

对比传统机器学习,联邦学习在数据处理、训练和推理等方面均与之存在差异。传统数据变形、脱敏主要针对原始数据进行,而联邦学习数据本身不出本地,数据加密主要针对ID对齐和中间计算结果的加密交互。联邦推理受制于合作方,在联邦推理阶段,横向联邦独立推理合作方异常不影响推理,纵向联邦联合推理合作方异常将导致推理服务异常。联邦学习整体建模流程与传统机器学习类似,在具体各环节上因涉及与合作方交互亦存在差异。

联邦学习的应用流程以联邦数据探查为开端,通过联邦模型训练,完成联邦模型推理。联邦学习的架构分为四层,第一层是支撑层,它为联邦学习提供数据支撑和硬件支撑;第二层是框架层,主要包括深度学习框架和联邦组网框架;第三层是核心组件,包括常见机器学习算法的联邦化实现及安全增强协议;第四层是服务能力,包括联邦学习建模流水线调度和生命周期管理工具、可视化工具和在线模型服务。

相关标准

当前,针对隐私计算技术行业,各类相关标准相继出台。在我国,中国人民银行发布了《多方安全计算金融应用技术规范》,工信部信通院中国通信标准协会发布了多方安全计算、联邦学习、可信执行环境等多个关于数据应用与安全的团体标准,国际上,IEEE已发布《联邦学习架构和应用规范》,正在制定《多方安全计算推荐实践》,ISO正在制定《多方安全计算标准》,ITU正在制定《多方安全计算技术指南》。

随着隐私计算行业的快速发展,不同厂商纷纷推出联邦学习平台产品等隐私计算产品,行业产品的差异化给应用带来了新的挑战;由于安全标准不统一以及技术实现细节的差异,基于不同产品的平台所托管的数据在实际应用中无法跨平台进行交互和计算,从而限制了行业的融合和发展。平台互联亦面临着技术挑战和功能挑战,一是不同产品之间的差异化制约了跨平台数据合作,其仍需依赖有话语权的一方主导合作,二是跨行业数据合作的商业模式有待探索,不同类型数据要素融合的跨平台推广受到限制;三是受制于法律法规的约束,数据流通共享的主体权益和责任仍需业务层面进一步制定配套行业政策、管理机制。

工行的数据资产体量庞大,业务复杂性相对较高,其既有作为数据使用方的需要,也有作为数据提供方的场景。因此,无论是保持业务与技术上的领先,还是提升业界影响力,工行都有必要加大隐私计算工作的投入,以便参与和推进数据要素快算便捷流通的生态体系建设,协助人行开展相关工作。

为最终实现联邦学习技术在金融行业安全、高效、合规落地,降低数据要素在行业内以及跨行业的流转成本,工行通过北京金融科技产业联盟数据专委会联合同业大行、股份制银行以及隐私计算领域科技公司共同制定联邦学习技术在金融行业的规范标准,即《联邦学习技术金融应用规范》

场景应用现状

工行的联邦学习已应用于多个场景。比如引入北京金控的不动产数据,与行内贷款企业的时点贷款余额、注册资本、账户余额等数据联合建立企业贷中预警监测模型,预计此联邦模型提升准召率约4%,从而提升了工行风险监测业务能力。另外,工行也过联邦学习与互联网公司的客户特征数据完成了联合建模,并将信用卡申请泛欺诈模型的K-S值提升了25.1%。此外,工行还基于联邦学习在保险营销场景中的应用打造相应的联邦建模方案,通过验证联邦迁移技术挖掘集团的潜在客户实现集团客户向子公司的导流。

未来规划及技术展望

未来,工行将从三部分开展与联邦学习相关的工作,一是构建联邦学习技术能力,即与业界领先合作方共同打造联邦学习技术平台,与行内现有模型运营、监控管理组件融合,打造联邦学习场景建设专业团队。二是试点联邦学习业务场景,即在数据和模型驱动力强、有对外合作需求的信贷、风控等关键业务领域上,逐步试点联邦学习技术在业务场景上的实践应用。三是推进联邦学习生态建设,即联合制定金融业联邦学习标准,推进建立联邦学习对外合作的常态化机制和联合场景合作建设模式。

当前,联邦建模因数据的密文运算和相关通讯成本,其建模速度与明文建模还有数量级的差距,但是我们与也观察到相关隐私计算技术正在高速发展,相信随着硬件加速的方案逐渐成熟应用,联邦建模的易用性将接近明文建模,赋能金融机构更便捷、合规的引入外部数据、打通集团各子公司数据完成联合建模,从而促进数据要素在行业的高效利用和流通。

更多精彩内容欢迎扫码进入课程回看:

本文来源:人工智能专委会

设计制作:会员服务部

投稿邮箱:News@bfia.org.cn

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

北京金融科技产业联盟
北京金融科技产业联盟
由中国金融电子化公司倡议发起
443文章数 63关注度
往期回顾 全部

专题推荐

洞天福地 花海毕节 山水馈赠里的“诗与远方

无障碍浏览 进入关怀版