
转载于:银行家杂志 | 作者:周庆霞、牛竹林、朱洁|责任编辑:孙爽(邮箱:976639255@qq.com)
在金融科技(以大数据、云计算、人工智能等为代表)蓬勃发展、移动互联网普及和移动支付广泛应用的推动下,金融服务的可获得性大幅提升,用户可以通过智能终端随时随地获得信贷、财富管理等金融服务。商业银行之外,各大电商和社交平台依托互联网平台生态,纷纷提供嵌入式信贷服务,促进信贷服务模式的平台化发展,实现了个人信贷市场的快速数字化、线上化,推动了线上个人信贷业务的爆发式增长。
目前,线上信贷业务的渗透率不断提高,各类互联网科技公司和商业银行纷纷布局线上个人信贷市场。前者依托庞大的用户群和数据优势推出消费信贷产品,后者通过数字化加持和网点布局优势,开发并推广多种线上信贷产品,覆盖了个人消费、个人经营、小微企业等多客群、多场景的金融需求。在多方参与的推动下,线上渠道发放的个人贷款余额和笔数占比显著上升,线上信贷服务的受众从习惯使用数字技术的年轻群体,逐步扩大到了县域、老年等以往难以触及的长尾客户,金融的普惠性进一步深入。
文献综述
与传统信贷业务相比,线上信贷业务具有“快速自动化准入、授信模型化、贷款信用化”等特点,在运作流程上突出批量化,具有更复杂的风险结构。从欺诈风险看,线上信贷业务不需要客户经理与借款人见面,仅通过网络平台快速撮合、缺乏当面交叉核验,使得身份欺诈和恶意骗贷等操作性风险增大。从数据风险看,线上信贷的借款人数据特征发生了变化,借款人往往更加年轻化、首次信贷者居多,传统信用记录有限,需要依赖交易流水、设备指纹、社交媒体等非结构化数据来刻画其信用状况。同时,用户在线行为模式也有别于线下,例如,借款人在网络平台上的信息披露和交流方式多样,语言风格和表述存在较大差异,部分借款人提交的文本信息质量参差不齐,存在口语化、错别字甚至故意隐瞒等现象,增加了模型解读难度。基于此,监管部门对线上个人信贷业务也提出了更高的合规要求,既鼓励数字普惠金融的发展,又强调风险可控和信息安全。由此可见,线上个人信贷场景下风险管理面临独特的背景和挑战,传统信贷风险评估方式难以适应现阶段的线上信贷风险管理,商业银行需加强智能风控体系建设,积极采用先进的科技手段,以最终实现信贷业务全方位、全流程的数字化、智能化、线上化管理。
信贷业务是商业银行的核心业务,在满足社会融资需求的同时也承担着风险,如何准确评估并有效管理信贷风险始终是商业银行日常经营的关键课题。为应对这一挑战,众多国内外学者以此为课题进行研究,使得信贷风险评估模型经历了从简单到复杂的漫长演进过程。早期商业银行采用信用评分卡模型(如FICO评分),通过对借款人的财务指标和信用历史进行加权打分,为放贷决策提供量化依据;该模型具有操作简便、可解释性强的特点,但权重选择却高度依赖对应领域的专家。随着计算能力的提升和数据积累的增加,先进商业银行逐步引入了更加复杂的统计模型和机器学习方法,如逻辑回归、决策树、支持向量机和神经网络等,这些方法能够捕捉信贷违约概率与多种特征之间的复杂非线性关系,大幅提升了风险预测的精度,然而,这些模型存在一定的局限性:一是过度依赖历史结构化数据,对“信用历史空白”群体或新兴行业的借款人缺乏有效的风险判断依据,无法解决线上个人信贷普及面广、借款人客群差异大的问题;二是高复杂度模型的“黑箱”特性导致可解释性欠佳,不仅难以满足监管的合规要求,还容易造成风险误判后工作人员难以介入的尴尬局面;三是模型对宏观经济形势和行业周期变化的适应性不足,基于历史经验训练的模型在外部环境出现结构性变动时无法及时调整。这些局限性促使学界和业界不断探索更全面的数据维度和更先进的建模方法,以提升信贷风险评估的准确性和稳健性。
非结构化数据处理技术的突破
传统信贷评估主要依赖结构化数据,而大量与借款人相关的信息以文本、图像、社交网络等非结构化形式存在,这些非结构化数据包含了大量的风险信号,如在贷款申请材料中的贷款用途预示了借款人可能的资金流向,客服对话记录和社交媒体帖子展现了借款人的生活状态和行为模式,企业公告和财经新闻一定程度上可以反映某些具有稳定工作的借款人贷款的合理性等。通过自然语言处理进行文本情感分析,可以捕捉企业舆情或借款人描述中的积极或消极倾向,为信用风险预测提供前瞻性信息。Yunchuan Sun等人发现利用非传统文本数据(如财务报告披露的文本、新闻媒体舆情和社交媒体信息)可以实现更及时、高效的信用风险评估;财经新闻中的负面情绪会导致信用违约掉期(CDS)利差扩大,反映出市场对企业违约风险预期的上升。这些研究说明,非结构化数据的引入可以弥补传统结构化数据的不足,为风险评估提供更全面的视角。特别是在线上个人信贷业务中,借款人在申请时填写的借款用途描述、与信贷员或客服的在线交流记录等容易被忽视的文本信息,构成了重要的“软信息”来源,对于理解借款动机和信用状况至关重要。
2022年底ChatGPT的横空出世,标志着自然语言处理(Natural Language Processing,NLP)技术达到了一个新的台阶,词向量、卷积神经网络及Transformer架构的发展,使得对海量文本数据的自动化处理和深层语义理解成为可能,为金融领域利用非结构化数据进行风险评估提供了技术支撑。但现阶段将NLP技术直接应用于信贷风险评估仍面临诸多挑战:一是非结构化数据存在噪声和异质性,如口语化表达、错别字及行业术语等,这些因素会干扰模型,降低准确性;二是金融文本具有专有特性,通用NLP模型直接应用于金融场景时效果有限,需要针对性地选择金融语料、构建专业词典并进行模型微调,构建金融领域的专用大模型;三是非结构化信息与传统结构化特征难以有效整合,这也是提升最终风险评估模型性能的关键难题。
大语言模型在金融领域的前沿应用
LLM作为NLP领域的重大突破,通过在海量文本语料上的自监督预训练,具备了前所未有的语言理解与内容生成能力。以GPT-3和BERT为代表的大语言模型问世后,国内外金融机构纷纷探索其金融领域的应用潜力,如将LLM融入信贷风险管理全流程,在贷前调查阶段,使用LLM从借款人申请信息中快速提取借款意图、消费倾向及潜在欺诈风险信号,及时叫停高违约风险的信贷申请,降低具有一定违约风险的信贷申请额度;在贷后管理环节,通过LLM持续监控借款人在社交媒体、电商消费及其他网络平台上的行为变化,动态捕捉借款人可能出现的收入波动、消费异常或负面信用事件等风险信号,对于能大幅提高违约概率的事件进行预警,以及时派出工作人员进行贷后检查;在客户服务方面,基于LLM的智能问答系统能够通过与借款人的交互对话,在常规的对话之外,敏锐地捕捉隐藏在字里行间、借款人打字频率、所处地点、手机震动等细微之处的信息。
当前,一些大型金融机构和科技公司已研发出面向金融领域的专用大语言模型,如Bloomberg开发了参数规模达500亿参数的金融专用模型BloombergGPT,用海量财经数据训练以支持多样化金融任务;互联网开源社区也出现了金融大模型FinGPT,其采用以数据为中心的方法整合互联网金融数据,为学术界和业界提供了可开放使用的金融垂直领域基础模型。然而,大语言模型在金融领域的应用还处于早期探索阶段,实践中仍存在不少问题。例如,模型训练和应用涉及海量敏感金融数据,而未经过某金融机构特定数据集训练的大模型又难以被该金融机构应用于实际业务中,如何在保障数据隐私和安全的前提下开展大规模模型训练仍需深入研究。大语言模型还可能继承训练语料中的偏见,如果缺乏适当约束,可能导致歧视性决策,引发公平性争议。鉴于上述风险,许多银行采取谨慎策略,将LLM作为辅助工具,与传统可解释性强的评分卡或机器学习模型结合使用,既发挥LLM在非结构化数据处理的优势,又保证决策过程的透明合规。
金融监管机构对于人工智能在风控领域的应用表示支持的同时,强调风险可控和合规要求,原银保监会在《关于银行业保险业数字化转型的指导意见》中指出,商业银行应积极运用大数据和人工智能提升风险管理,但需加强模型风险管理,确保算法决策公正透明。麦肯锡的一项调查显示,全球约20%的银行信贷风控团队已试点应用生成式AI,另有60%的机构计划在短期内部署相关应用。这一趋势表明,大模型在信贷风险领域具备广阔的发展空间,但商业银行需要在创新应用与风险可控之间取得平衡。
研究空白与理论突破
当前大语言模型在信贷风险评估领域主要存在以下研究空白:首先,结构化与非结构化数据融合的方法有待完善,现有研究往往将两类数据割裂处理,没有形成融合机制,更无法发挥协同增益作用。其次,通用大语言模型在金融专业知识应用上存在局限,大语言模型虽具备语言理解能力,但直接进行准确的风险预测仍面临技术困难。此外,缺少兼顾准确性与可解释性的模型架构,而银行业实际应用要求模型既要精确预测,又要便于理解,满足合规性。针对此三大不足,本文提出了一种基于大语言模型的“双模型融合”信贷风险评估框架,包括如下几个方面。
一是基于双大语言模型的融合架构,通过一个擅长推理的大语言模型对包括非结构化信息的全部信息进行推理分析,得出分析报告;然后用另一个嵌入大语言模型将分析生成的报告转化为语义嵌入向量,与原始结构化特征拼接,从而融合结构化与非结构化数据进行风险评估。
二是引入会话模板指导大语言模型结合金融领域知识进行风险分析,并记录逻辑推理大语言模型的推理过程以增强决策的可解释性,提升风险判断的准确率和可信度。
三是给出两种评估方案,包括面向可解释性的特征融合+XGBoost方案和追求高性能的端到端微调方案,以满足不同业务场景的需求。
通过在LendingClub公开借贷数据集上进行实证检验,结果显示,本文提出的架构显著优于仅利用单一结构化数据源的传统模型。其中,特征融合+XGBoost的曲线下面积(Area Under Curve,AUC)指标值达到0.867,相比仅用结构化特征的模型提升了4.3%;而基于端到端微调的AUC值达0.872,在各项指标上均表现最佳。实证检验结果验证了大语言模型在信贷风险评估中的应用价值,为传统信贷风控向智能化评估体系的转型提供了可行方案。
模型介绍
本文构建的信贷风险评估框架包含DeepSeekR1和Stella两个大语言模型,具体细节如下。
模型框架设计
框架包含四个核心模块,分别是数据处理、文本分析、特征融合和模型预测,数据处理模块负责数据预处理,其中,对结构化数据进行缺失值填补、标准化、类别编码转换,对非结构化文本数据进行清洗和格式转换。文本分析模块用两个大语言模型处理预处理过的数据。首先,使用DeepSeek-R1①对贷款文本进行逻辑分析(Reasoning),分析前需要将预处理过的数据填入设计的对话模板,对话输入给DeepSeek-R1后会得到思考过程和观点;然后将DeepSeek-R1观点与原始对话共同输入给Stella模型②,这一过程将文本转化为768维语义嵌入向量。特征融合模块将语义嵌入向量作为基本特征与原始结构化数据拼接,形成统一的结构化数据特征,输入模型预测模块进行违约风险预测;风险预测模块基于XGBoost算法,是传统风险评估中的常用算法,其精度高、效率高、可解释性强。另外,在风险预测模块中,本文也尝试了直接微调Stella模型,端到端的直接从文本输出违约风险,也就是在Stella模型后直连接一个线性层进行训练(见图1)。
![]()
图1 大语言模型信贷风险评估架构图
DeepSeek-R1文本分析
框架的第一阶段使用DeepSeek-R1对贷款文本构成的模板对话化进行逻辑分析,形成风险评估的观点。本研究所使用的版本为DeepSeek-R1-Distill-Llama-70B,其网络架构为Llama,包含约700亿参数,通过满血版DeepSeekR1蒸馏数据训练得到模型参数,虽然参数量是满血版DeepSeekR1的十分之一,但其仍具有很强的推理深度和准确性。为了充分挖掘DeepSeek-R1的逻辑思考能力,本文设计了一套结构化的对话提示模板,包括贷款申请详情、借款人信息和信用历史信息三方面内容,用于引导模型捕捉贷款申请中的关键信息。其中,贷款申请详情包括贷款金额、期限、利率、贷款等级、用途及每月还款额等;借款人信息包括住房拥有状况、年收入、工作年限、职业职位、债务收入比等;信用历史信息包括FICO信用评分区间、信用记录长度、过往不良记录数量、信用账户数目和信用卡利用率等。DeepSeek-R1的输出包含推理过程和风险评估的观点,推理过程(Thinking)包含模型对各项贷款特征与风险关系的逻辑分析过程,包括归纳、反思等模式;风险评估是模型根据前述分析给出贷款的违约风险的评判以及原因。DeepSeek-R1透明的思考路径能提供详实的分析依据,从而提升最终结论的可解释性。
Stella嵌入向量生成
框架的第二阶段使用Stella模型将文本信息转换为数值向量。本文采用基于“gte-large-en-v1.5”与“gte-Qwen2-1.5B-instruct”实现的Stella_en_1.5B_v5模型,参数规模约15亿。数值向量生成过程中,先将DeepSeek-R1生成的风险分析报告与原始贷款申请文本进行拼接,形成综合文本;然后将拼接后的综合文本输入Stella模型,生成对应的768维语义嵌入向量。最终,Stella模型输出的嵌入向量融合了原始文本和DeepSeek-R1分析结论的信息,形成对借款人风险状况的全面表征。
特征融合与XGBoost模型
XGBoost是传统常用的违约预测机器学习算法,在信用风险建模中有广泛应用,主要优点包括:预测精度高,能够有效捕捉特征间复杂的非线性关系;计算效率高,通过并行化和优化算法加速模型训练;可解释性较强,可通过特征重要度等手段了解模型决策依据。训练过程中,XGBoost以逻辑损失(对数损失)为目标函数,并加入L1/L2正则化项防止模型过拟合。通过调节树模型的复杂度,XGBoost在保持高精度的同时实现了良好的泛化能力。本文将结构化特征向量与Stella输出的非结构化特征的语义嵌入向量融合,也就是首尾拼接,然后使用XGBoost进行违约预测。
Stella微调模型
上述特征融合+XGBoost是传统机器学习违约预测范式,本文还探究了使用Stella模型进行端到端微调的方案。具体来说,该方案在预训练的Stella模型后添加一个全连接分类层,直接将文本嵌入向量映射为违约概率,这样构建了一个端到端的学习模型。输入的数据同样是DeepSeek-R1分析报告与原始申请文本的拼接,输出为借款人的违约概率。在该方案的模型训练中,采用交叉熵损失函数,并使用AdamW优化器进行参数更新。设定学习率为1e-5、批量大小为32、训练轮数为5,并引入早停机制来防止过拟合。从原理上分析,预训练的Stella编码器负责提取高层语义特征,新加入的线性层学习这些特征与违约概率之间的映射关系。交叉熵损失通过衡量二分类预测的准确性,促使模型学习文本特征与违约风险的内在关联。与传统方案相比,端到端微调方案的优势在于省去了中间特征拼接和独立训练预测模型的步骤,将整个预测过程整合为一个神经网络模型,降低了人为干预。但其劣势是模型的可解释性相对较弱,难以直接提取各特征的重要性。
实证研究
本文采用美国一家网络借贷平台LendingClub的公开贷款数据集进行实证研究,该平台提供了2007年至2018年间约226万笔借款记录,数据集包括借款人的个人信息、财务状况、借款详情、还款记录等。
数据基础与特征构成
为了保证研究样本的时效性和经济环境相对稳定,本文选取了2015年至2017年期间发放的贷款数据约60万条作为研究对象。在样本标签的定义上,本文依据贷款最终状态字段,将“ChargedOff”(核销)、“Default”(违约)以及“Late(31—120days)”(逾期31—120天)这三类状态的贷款记为违约(标签=1),其余正常还清或正在偿还的贷款记为未违约(标签=0)。
针对原始数据,本文进行了如下预处理:
针对数据不平衡问题(违约样本约占15%),采用随机下采样的方法平衡正负样本数,以避免模型训练时过度偏向多数类;
为避免未来信息泄露(前视偏差),本文剔除了贷款发放时无法获知的后验变量,例如还款历史记录长度、逾期天数等贷后行为数据;
对结构化特征执行缺失值填补、数值标准化和类别变量编码处理,尽可能保证输入特征的质量和同质性。
具体来说,结构化特征主要包括以下几类:一是借款人基本信息(如年收入、就业年限、住房所有权状态、所在地区等),用于反映借款人的社会经济地位与稳定性;二是信用历史特征(如FICO信用评分范围、信用记录长度、过往逾期或违约记录数量、信用卡利用率等),用于刻画借款人的历史信用表现和风险偏好;三是偿债能力特征(如债务收入比、月还款额占收入比等),衡量借款人的当前财务压力和偿债能力;四是贷款属性特征(如贷款金额、期限、利率、信用等级、贷款用途等),展示贷款本身的风险特性和用途。以上结构化特征共涉及20余个变量。
非结构化文本特征则来自借款人在申请贷款时提供的文本信息,主要包括:贷款用途描述(Loan Description),借款人用一段话说明贷款资金的用途,例如“债务合并”或“装修房屋”等;贷款标题(LoanTitle),借款人为贷款起的简短标题,概括贷款意图;借款人职业信息(Employment Title),如“销售经理”“教师”等,用于侧面反映借款人的职业稳定性和收入潜力。这三部分文本信息长度不一,内容包含借款人的叙述和自我陈述,属于典型的软信息来源。
实验设计与模型配置
为全面评估双模型架构的性能,本文设计了六组对比实验,通过控制变量的方法验证不同特征组合和建模路径的效果差异。
实验1,仅使用传统结构化特征训练XGBoost模型。本文通过网格搜索和交叉验证确定XGBoost的超参数设置:最大树深为6,学习率0.1,L1正则化系数0.01,L2正则化系数0.1,子样本率0.8。该组实验提供了传统风控模型的性能基线。
实验2,仅使用Stella模型生成的文本嵌入向量作为特征训练XGBoost模型。模型输入包括贷款描述、标题、职业信息等原始贷款数据,向量维度为768。XGBoost模型的超参数与实验1保持一致,以确保结果具有可比性。该实验用于评估大语言模型处理非结构化文本后,在独立预测违约风险方面的能力。
实验3,仅使用Stella模型生成的文本嵌入向量作为特征训练XGBoost模型。与实验2相比,输入Stella模型的信息加入DeepSeek-R1分析文本。
实验4,将结构化特征与文本嵌入向量拼接融合后输入XGBoost模型进行训练,该模型参数设置与前两组相同。本实验用于检验“结构化+非结构化数据”融合对模型性能的影响,探究两类信息的互补作用。
实验5,采用端到端的深度学习方法,对预训练Stella模型进行微调训练,直接输出违约风险预测。模型输入包括贷款描述、标题、职业信息等原始贷款数据。训练参数为:学习率1e-5,批次大小32,训练轮次5,并使用早停策略防止过拟合。
实验6,采用端到端的深度学习方法,对预训练Stella模型进行微调训练,直接输出违约风险预测。与实验5相比输入Stella模型的信息加入DeepSeek-R1分析文本。
本文采用多种指标进行实验评估,包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1值和AUC值。其中,AUC(Area Under ROC Curve)作为综合评价指标,能够反映模型在不同阈值下的区分能力;F1值则是精确率与召回率的调和平均,适用于类别不平衡场景。本文将数据集按照6:2:2的比例划分为训练集、验证集和测试集,并采用分层抽样确保各子集中违约比例一致。模型在训练集上训练,在验证集上调参并根据早停准则确定最优迭代轮次,最终在测试集上评估性能。
实验结果与分析
六组模型的测试结果如表1所示,对比分析可以发现,Stella微调模型性能最好。其中,Stella微调模型的AUC值达到了0.766,F1值为0.762,显著高于其他模型。这表明通过微调训练后大语言模型能够更准确地捕捉借款信息中与违约风险高度相关的深层语义特征,从而带来显著的性能提升。
表1 六组实验模型性能对比
![]()
实验结果还表明,结构化特征与文本语义信息之间存在明显的互补效应。将这两类信息融合后,模型能够获取更全面的风险信号,提升违约风险识别的覆盖度和准确性。例如,与仅使用结构化特征的基准模型相比,特征融合模型的总体预测准确率由0.619提升到了0.727,这表明引入借款人的非结构化信息有助于减少错判,能够拟补传统结构化数据的不足。
同时,基于大语言模型文本嵌入的模型(包括DeepSeek-R1的分析)已经取得了接近结构化特征模型的表现。具体而言,仅利用文本信息的模型实现了约0.680的AUC,已经接近仅使用结构化特征模型的0.733。这表明非结构化文本中确实蕴含有价值的风险信号。然而,仅依靠传统机器学习算法(如XGBoost)对文本嵌入特征进行建模仍存在局限,上述文本嵌入模型相对于结构化模型仍有一定差距。这也从侧面印证了通过端到端微调大语言模型来更充分挖掘文本语义信息的必要性。
此外,对不同贷款类型情境下模型表现的进一步分析发现,特征融合模型和Stella微调模型在某些特殊场景下表现尤为突出。尤其是对于债务合并类贷款场景,借款人在文本中对债务用途和财务状况的详尽说明对判断其偿债意愿至关重要,上述两种模型利用文本信息捕捉到了这些关键风险信号。在特征融合模型中,笔者对特征重要性进行了分析,结果发现来自LLM文本嵌入的特征总体贡献度约为41.3%,进一步证明了非结构化文本信息在信贷风险评估中的重要价值。
结论与建议
本文针对商业银行线上个人信贷风险评估,构建了“双大语言模型”的评估框架,并通过实证检验了其有效性,证明了双模型架构能够满足线上个人信贷场景的风险评估需求,与传统评估模型相比具有显著优势。双模型架构不仅可以更准确地评估线上个人信贷的违约风险,及时发现潜在高风险借款人,降低信贷资产的不良率;还可以通过LLM生成分析报告的方式获得良好的可解释性,减少了黑箱问题在监管合规方面的顾虑,大大提升了落地实施的可能性。
随着新一代大语言模型的演化,其在金融领域的表现有望进一步提升。伴随更大规模、更高智商的LLM出现,将赋予风险评估模型更深层次的理解能力和更严密的逻辑推理能力;庞大的应用需求督促着金融垂直领域的预训练模型不断涌现,多数金融机构都可以使用专用大语言模型更精确地刻画信贷风险特征、更有针对性地提出风险防范手段。此外,未来的LLM还将融合知识图谱、联邦学习等技术来解决数据孤岛问题,增强对金融因果关系和领域知识的掌握,实现从相关性判断向因果性分析的跨越、从定性分析到定量分析的提升,大幅度解决商业银行线上个人信贷风险评估问题。
注:①DeepSeek-R1是幻方量化旗下AI公司深度求索(DeepSeek)研发的推理模型。
②Stella模型NovaSearch公司开发的嵌入模型。
作者单位:徽商银行研究发展部,其中周庆霞系该部门总经理
THE END
转载声明:本微信公众号刊登的文章仅代表作者本人观点,不代表中国普惠金融研究院及本微信公众号观点
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.