网易首页 > 网易号 > 正文 申请入驻

技术应用 | 机器学习模型可解释性在银行智能营销场景的应用实践

0
分享至

文 / 中国光大银行智能运营中心 曾凌 黄成

近年来,在银行业数字化转型的大背景下,机器学习模型已被广泛应用于银行营销业务中,帮助银行实现精准获客、活客、留客,提高营销效率。机器学习模型与传统统计模型相比,能够达到更高的精准度,但其所用算法多为黑箱,内部原理较为复杂。业务人员难以理解模型的内在运作机制和输出结果的依据,对模型的信任度和执行效果也会大打折扣。针对模型算法可解释性问题,2021年3月中国人民银行发布的《人工智能算法金融应用评价规范》也对人工智能算法在金融领域应用的安全性、可解释性等做出了明确要求,指出“算法可解释性是判断算法是否适用的重要依据”。因此,无论是出于提升模型应用效果考虑,还是出于满足监管要求、保护消费者权益考虑,银行智能营销场景中的机器学习模型都应具备可解释性。

模型可解释性的定义及分类

1.模型可解释性定义

关于模型可解释性的严格定义,目前学术界尚无定论。但基于业务应用角度考虑,可解释就是把复杂的算法逻辑结构转换成人类可以直观理解的语言,让人们能够了解模型输出结果的依据,知其然并知其所以然。比如给出每个特征对模型结果的影响程度,而不需要给出全部详细的计算公式,就可以满足业务人员的模型使用需要。

2.模型可解释性分类

实现模型可解释性有多种角度和方法,可按照以下几个维度进行分类。

(1)按解释来源,分为内在可解释性和事后可解释性。内在可解释性指算法本身是可解释的,如逻辑回归算法,可通过特征系数判断对模型结果的影响。该类算法通常结构较为简单,但精确度有限。事后可解释性指在模型训练完成后,应用解释方法对预测过程进行贡献度或重要性的计算及业务解读,如特征重要性分析及可视化等,适用于多种机器学习算法(如图1所示)。

(2)按解释范围,分为全局可解释性和局部可解释性。全局可解释性指基于全量数据集,对模型整体的结构和参数等做出解释,帮助人们理解模型运作机制。局部可解释性指基于单个观测,对模型如何根据特定输入得到输出结果进行归因解释,用于分析个体差异。

(3)按与模型算法的依赖关系,分为模型相关可解释性和模型无关可解释性。模型相关可解释性,指根据不同算法的原理和结构,提取其结果或者计算过程中的参数或指标作为解释,如线性模型中的p-value、R-square,以及树模型中特征作为分裂依据的次数、影响观测值的个数、增益贡献等。模型无关可解释性,指用适用于所有算法的统一方法来衡量特征的影响程度,比如通过输入特征扰动来观察输出结果的变化。

SHAP解释方法

在银行智能营销领域的机器学习模型应用场景中,我们既希望模型整体可解释,也希望对每个客户的模型结果进行归因分析,即需要模型同时具备全局可解释性和局部可解释性。同时,为避免算法选择局限,以及对比不同算法的解释结果,我们希望采用模型无关的事后解释方法。满足以上条件的一种业界常用解释方法是SHAP方法。

SHAP(Shapley Additive Explanations)方法的核心是Shapley值,其概念源于博弈论,用于解决合作博弈中的各个成员的贡献和收益分配问题,主要思想是通过计算合作中个体的边际贡献来衡量个体的重要程度。应用在模型可解释性中,便是将每个特征都视为个体贡献者,用某个特征的边际输出值,即模型纳入这一特征后输出结果的变化量,作为该特征的量化贡献度。

对于某个样本的某个特征,边际输出值的计算方法是在所有可能的特征子集排列组合情况下,用相同的数据集、算法、参数训练模型,分别计算模型纳入某个特征时的输出值与纳入该特征之前的输出值之差,再加权平均。假设某模型共有M个入模特征,xj为样本x的第j个特征,S为不包含特征xj的特征子集,f为某个特定特征组合下的模型输出值。那么xj的shapley值计算公式为:

其中权重

为特征子集S及其余(M-|S|-1)个特征排列组合情况的个数占全部特征排列组合情况个数的比例。

以一个包含三个特征的模型为例,每一种特征组合下的模型输出值分别为:

不包含特征A的特征子集共有4种:

故特征A的Shapley值

Shapley值具有可加性,在基准值(建模样本的预测平均值)的基础上加上所有特征的Shapley值,就是模型输出的预测结果。这一点也使SHAP方法具有更好的业务解释性。

对于模型整体,某个特征的贡献度就是对该特征在每个观测上的Shapley值的绝对值取平均值。

SHAP在银行智能营销场景的应用实践

SHAP解释方法给出了影响模型输出结果的每个特征的重要程度。但对业务人员来说,还需将其转换为通俗易懂的语言描述,才能真正指导业务理解和决策。光大银行在零售业务智能营销场景中积极探索SHAP方法的应用实践,取得了良好成效。下面以某客群升级私行预测模型为例进行具体介绍。

该模型的建模目标是预测该客群未来一个月资产提升、升级为私行客户的可能性,业务目标是希望利用模型帮助业务从该客群大量客户中精准定位高潜力目标客户,进行主动营销,促进私行客户数提升。SHAP方法的应用步骤如下。

1.贡献度计算

在建模完成后,输入预测模型的相关信息,包括入模特征、算法、参数、输出结果等,计算单个样本以及模型整体的每个特征的Shapley值,得到量化的特征贡献度。对于本模型而言,模型输出值为预测概率的对数几率,即logodds=log(p/(1-p))。

(1)单个样本。图2以瀑布图的形式展示了某个客户的各特征贡献度计算结果,红色指向右侧的箭头代表该特征的取值对模型结果有正向影响,蓝色指向左侧的箭头代表该特征的取值对模型结果有负向影响。特征自上而下按照贡献度的绝对值降序排列。模型对全部建模样本客户的输出均值是-3.776,最下行的58个相对不重要特征的取值使得该客户的输出值相比没有这些特征减小了0.1,即它们使模型预测该客户升级私行的可能性更低。第9重要的特征“当前资产月日均增长率”取值为0.397,使得该客户的输出值增加了0.12,即它使模型预测该客户升级私行的可能性更高。同理,最上行第1重要的特征“当前资产余额”取值为5230913.82,使得该客户的输出值增加了1.88;在所有特征的叠加影响下,该客户最终输出值为0.884,相比均值增加了4.66,在全部建模客户中排名前1%,即模型最终预测该客户升级私行的可能性相比客群整体水平来说极高。

(2)模型整体。图3、图4展示了全部客户汇总后的模型特征贡献度和贡献关系。图3是每个特征的整体贡献度,可以直观地看出特征的重要性排序情况,前5个特征影响较大,之后的特征影响相对较小。图4展示了每个特征的取值与贡献度的关系,图中每一行是一个特征所有客户的特征取值与贡献度的散点图,变宽处为有大量样本堆积。点的颜色由红到蓝代表客户在该特征的取值水平由高到低,红右蓝左趋势说明该特征取值高的客户其特征贡献度多数为正,取值低的客户其特征贡献度多数为负,即该特征对模型预测结果具有正向影响;反之红左蓝右趋势代表该特征对模型预测结果具有负向影响。散点分布的离散程度也再次印证了特征重要性的大小。在模型业务评审环节中,相关信息可用于判断模型合理性、适用性,并揭示哪些客群更容易升级私行。

2.重要特征选择

业务人员通常更关心影响模型结果的最主要因素,也就是贡献度最高的几个特征,而无需了解全部特征的详细情况(全部入模特征通常有几十甚至上百个)。并且从贡献度排序情况来看(无论是单个样本还是模型整体),特征贡献度通常在第4~6个开始呈现断崖式下降。此外,上述结果虽然对特征贡献度进行了解析,但仍不够通俗易懂,业务人员需要具备一定的专业知识才能理解。因此,我们对每个客户选取其贡献度最大的前5个特征,做进一步的解读释义。

3.特征分箱

除了描述重要特征是什么,我们还希望对特征取值水平进行定性描述,最简单的方法就是分箱。虽然建模时可能已经做了分箱,但这里不宜采用完全相同的分箱规则,因为建模时分箱的主要原则是使模型预测准确,而这里的分箱主要是为了描述特征取值的相对水平,便于业务理解。所以我们对同一数据类型的特征采用尽量统一简单的分箱规则进行处理。

(1)数值型特征,按照建模范围客户的四分位数分为4箱,并对一些特殊取值进行单独处理,比如类似999999的异常值可能具有特殊业务含义,应将其单独分为1箱。

(2)字符型特征,按照取值种类数直接分为N箱。

(3)布尔型特征,按照取值情况直接分为2箱。

4.业务解读

根据分箱结果对特征进行分类描述和业务解读,将其转换成可理解的文字描述。

(1)数值型特征,根据分箱分别描述为“大”“较大”“较小”“小”等四类。比如某个客户“近1个月交易金额”特征的取值大于该特征的3/4分位数,则将其描述为“该客户近1个月交易金额大”。

对于特殊取值,根据其业务含义进行描述,比如“理财产品持有最小到期时长”特征的取值为999999,描述为“当前未持有理财产品”。

(2)字符型特征,根据分箱直接转换为描述。比如某个客户“当月末持有金额最多理财类型”特征的取值为“外币理财”,则将其描述为“当月末持有金额最多理财类型为外币理财”。

(3)布尔型特征,根据分箱直接转换为描述。比如某个客户“当月是否持有私募产品”特征的取值为1,则将其描述为“该客户当月持有私募产品”。

将每个客户前5个重要特征的业务解读组合成对该客户模型输出结果依据的业务解释,形成千人千面的客户描述。如“该客户近1个月交易金额大,当月持有私募产品,……故模型预测有很高可能性次月升级为私行”。

5.营销应用

经过前期探索实践,光大银行针对私行客户价值全生命周期分层经营已搭建一套数字化驱动的营销体系,针对各生命周期阶段客群,应用模型筛选目标客户,并辅助以客户画像信息,形成精准营销线索,通过智能营销平台、对私客户经理工作台等系统工具推送至客户经理,进行外呼营销。在现有模式的基础上,我们将解释性描述信息嵌入营销线索中,为一线营销人员便捷、直观地展示每个客户的模型影响因子,不仅可以打消他们心中对于黑箱算法的疑虑,并且可以挖掘客户差异化的金融需求,制定有针对性的营销策略和话术,提高营销成功率。比如,针对当月末九资余额大的客户,与达标私行差距较小,客户经理可推荐门槛较低的优势产品,以实现资产快速提升并促成转化;针对近期交易次数、金额大的客户,可能在行外有较多资产,可以结合客户资配偏好、消费偏好等特征,匹配相应的产品与权益,吸引客户将资金转入我行、提升客户黏性。数据表明,优化线索后该客群营销成功率比优化前提升2个百分点。

同时,将模型整体特征贡献情况以可视化看板的形式展示给总分行业务管理人员,可以帮助其了解客群整体画像结构并监控其变动情况,分析经营方向、指导业务决策。

结语

光大银行将模型解释方法广泛应用于智能营销场景实践中,如客户资产等级提升、稳固转化与防流失、产品持仓提升等,打破了黑箱算法与业务人员之间的屏障,强化了模型对业务的支撑作用,延伸了模型策略的应用深度。未来,光大银行将持续探索模型可解释性的业务应用,让机器学习技术更加有效地赋能银行数字化转型发展、创造业务价值。

(此文刊发于《金融电子化》2024年4月上半月刊)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
村书记135万接盘集体厂,儿子资本运作套现13亿,全家狂捞17亿

村书记135万接盘集体厂,儿子资本运作套现13亿,全家狂捞17亿

复转这些年
2026-01-14 22:37:51
1935年方志敏被俘,狱中用米汤致信鲁迅求救,不料鲁迅拒绝援手

1935年方志敏被俘,狱中用米汤致信鲁迅求救,不料鲁迅拒绝援手

唠叨说历史
2026-01-14 11:30:28
油轮背后的静默屠杀:中方七十二小时的底层逻辑重构

油轮背后的静默屠杀:中方七十二小时的底层逻辑重构

宇视天下
2026-01-15 23:14:30
官方:傅明将执法U23亚洲杯1/4决赛澳大利亚vs韩国

官方:傅明将执法U23亚洲杯1/4决赛澳大利亚vs韩国

懂球帝
2026-01-16 12:32:46
力挺华与华!西贝创始人贾国龙喊话有关部门:应监管网络乱象

力挺华与华!西贝创始人贾国龙喊话有关部门:应监管网络乱象

南方都市报
2026-01-16 09:42:11
趁你病要你命,特朗普刚要炸伊朗,叛军先全面反攻,真要变天了?

趁你病要你命,特朗普刚要炸伊朗,叛军先全面反攻,真要变天了?

小陈讲史
2026-01-15 14:02:48
孩子为买电话手表和父母签离谱协议,网友:李鸿章来了也不敢签啊

孩子为买电话手表和父母签离谱协议,网友:李鸿章来了也不敢签啊

新东方
2026-01-16 17:32:03
齐达内:教练是为球员而存在的,在皇马我们随时为球员服务

齐达内:教练是为球员而存在的,在皇马我们随时为球员服务

懂球帝
2026-01-16 03:28:49
手戴1000多万名表,坐拥3.6亿私人飞机,“沪上皇”秦奋啥来头?

手戴1000多万名表,坐拥3.6亿私人飞机,“沪上皇”秦奋啥来头?

小熊侃史
2026-01-12 07:40:07
“消失”的王小海,揭穿玖月奇迹的尴尬处境,印证了凤凰传奇的话

“消失”的王小海,揭穿玖月奇迹的尴尬处境,印证了凤凰传奇的话

丰谭笔录
2025-12-24 00:06:58
邻居拿错车厘子吃掉后续:直接失联,警方介入赔款,真相耐人寻味

邻居拿错车厘子吃掉后续:直接失联,警方介入赔款,真相耐人寻味

丁丁鲤史纪
2026-01-15 18:01:12
阿斯:皇马高层将告诉球员,在阿隆索下课后他们要为现状负责

阿斯:皇马高层将告诉球员,在阿隆索下课后他们要为现状负责

懂球帝
2026-01-16 02:01:09
越扒越有,被人民网点名后,闫学晶又被曝身份造假,成名史太精彩

越扒越有,被人民网点名后,闫学晶又被曝身份造假,成名史太精彩

奇思妙想草叶君
2026-01-14 21:18:53
高市早苗把自己玩进去了,日本大选没按剧本走,在野党或直接上位

高市早苗把自己玩进去了,日本大选没按剧本走,在野党或直接上位

策略述
2026-01-16 15:13:38
U23国足踢乌兹别克前瞻,三大看点不容错过,或创造历史进四强

U23国足踢乌兹别克前瞻,三大看点不容错过,或创造历史进四强

懂个球
2026-01-16 17:26:04
单伟健1100亿鲸吞万达,王健林30年帝国终成资本代运营平台

单伟健1100亿鲸吞万达,王健林30年帝国终成资本代运营平台

流苏晚晴
2026-01-06 18:25:30
马斯克这招太绝了:砍掉FSD买断制,表面是降门槛,背后其实藏着三个心眼

马斯克这招太绝了:砍掉FSD买断制,表面是降门槛,背后其实藏着三个心眼

新浪财经
2026-01-15 11:24:04
马未都:我身价至少100亿,但这点钱,跟我母亲比,我就是个贫农

马未都:我身价至少100亿,但这点钱,跟我母亲比,我就是个贫农

忠于法纪
2026-01-15 22:08:28
曾经就业率100%的王牌职业,年轻人舍不得它落寞

曾经就业率100%的王牌职业,年轻人舍不得它落寞

新周刊
2026-01-15 16:10:07
2026年央视春晚首次彩排顺利落幕,全名单出炉!圈内人曝9大看点

2026年央视春晚首次彩排顺利落幕,全名单出炉!圈内人曝9大看点

除夕烟火灿烂
2026-01-14 10:08:45
2026-01-16 18:24:49
金融电子化 incentive-icons
金融电子化
中国金融信息科技类主导期刊。
2475文章数 524关注度
往期回顾 全部

科技要闻

传小米传音Ovi四家手机厂下调全年出货预期

头条要闻

70后张迎春跨省履新新疆 曾是湖南湘潭史上首位女市长

头条要闻

70后张迎春跨省履新新疆 曾是湖南湘潭史上首位女市长

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

关店102家贾国龙喊被污蔑 罗永浩回应

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

时尚
艺术
游戏
旅游
军事航空

年度最扎心电影,看得中年男女坐立难安

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

100万份达成!类魂+刷子:这款ARPG未来真的可期!

旅游要闻

藏在骑楼里的时光密码:中国南方老街的百年风华与当代新生!

军事要闻

欧洲多国向格陵兰岛派遣军事人员 白宫回应

无障碍浏览 进入关怀版