网易首页 > 网易号 > 正文 申请入驻

智能财务风险预警方法—随机森林

0
分享至

前言:随着我国资本市场的快速发展,许多企业正面临着大量的有形和无形的风险。资本市场上的竞争日益激烈,公司生存风险也日益增大。因此若能通过预测风险的方式,发现公司有不同寻常的异动,即可提早预防公司财务风险的发生并做好相应的措施,以期有效控制风险。目前现有的财务预警模型大多利用逻辑回归、SVM支持向量机模型以及上篇推文中介绍的BP神经网络模型,利用组合分类技术建立的智能财务风险预警模型还不多,本文介绍随机森林在智能财务风险预警中的应用。

“大数据与人工智能环境下的智能财务风险预警方法”系列推文三:

智能财务风险预警方法—随机森林

一、随机森林原理介绍

随机森林是一种组合分类技术。2001 年被Breiman首次提出, 随机森林是由很多CART决策树分类模型组成的模型,是一种全新的借助机器工作的学习模型。在我们构建智能财务风险预警模型时,会涉及各种各样的财务指标以及非财务指标,由于指标个数太多,就无法避免一些指标之间会存在相关关系,会增加统计分析方法的复杂度,信息会产生重叠。在这样的情况下就需要对输入的多维向量进行降维。使用随机森林方法原理对财务数据进行降维,其优势在于随机森林适合处理维数较大的数据。随机森林是一种集成学习方法,是通过排列组合分类树所得到的,由多棵决策树集成。

决策树是根据策略进行抉择的、呈树形结构的预测模型,代表特征空间与类空间上的条件概率分布的一种基本的分类与回归方法。决策树通常由两部分组成:节点和有向边,其节点包括树顶的根节点、表示特征的树中间的内节点和表示类的树边缘的叶节点三种类型,根据样本在某个属性上的不同取值将其划分成若干个子集。

随机森林是采取组合许多分类器且在不明显扩增运算量的方法增大预测的精度,我们通常得到的最终结果大多是通过这种方法得到。当原始样本集较大时,原始样本集中约有63.2%的样本会出现在 Bootstrap 样本集中,而其余的36.8%的样本没有出现在 Bootstrap 样本集中,这部分样本被称为袋外(out-of-bag,OOB)样本,利用这部分样本进行模型性能的估计称为 OOB估计。袋外样本没有进入基预测器,因此可以利用其进行误差估计,得到的误差称为袋外误差,综合各基预测器的 OOB 误差可得到组合模型的 OOB 误差,即是对模型泛化能力的估计。OOB可用于估计随机森林的强度和相关度,这有助于理解模型的预测精度,从而提高模型性能。OOB在随机森林中的另一个用途是度量变量的重要性。

从另一角度看,随机森林可以说是对Bagging算法的改进,改进主要体现在:每棵CART决策树均不进行剪枝,而是任其充分生长;以及每棵CART决策树在充分生长的过程中,并不是在所有输入变量中选择最优变量进行分支,而是从随机选择的个变量中选择最优变量进行分支,即随机变量选择。正是由于以上差异,随机森林算法能得到更优于Bagging算法的预测精度。在随机森林的构建过程中,关键的一点在于基学习器即决策树模型的多样性。如果直接使用样本训练多个决策树很难产生多样化的模型。因此随机森林的构建首先需要从两个方面对样本进行抽样:对样本的抽样和对属性的抽样,即对于每一棵决策树均采用部分样本的部分属性进行训练。对于样本的抽样可以使决策树不需要直接对于大量的样本进行分析,而只需要关注少量的样本,并挖掘它们的潜在模式。而对于属性的抽样则是降低决策树学习的难度,使得每一个决策树都是基于部分属性做出决策,达到一个“少而精”的效果。这样,将决策人的角色与分类器作对比,组合学习的方法就包含着多个由Bagging集成学习技术训练得到的决策者相当于多个决策者共同进行一项决策,这种方式所含有的平衡误差的方法,能够配平分类总体不平衡数据集的误差,可以很好地处理成千上万个输入属性。这样,训练出的决策树是它所处的“领域”的专家,最终让这些模型投票决定最终的分类结果,精准识别财务风险。

二、随机森林算法

随机森林算法通过抽样从原始数据中生成训练集。利用Bagging算法从原始数据集中抽取N个样本。每个样本都会生产一个决策树,且生成的决策树不需要做剪枝处理,从而建立起由N棵决策树形成的森林,算法如下:

输入:(1)训练集

(2)待测样本

①对原始训练集S进行Bootstrap抽样,生成训练集St

②使用St生成一颗不剪枝的树hi:

a. 从d个特征中随机选取个特征Mtyy

b. 在每个节点上从每个Mtyy特征依据Gini指标选取最优特征

c. 分裂直到树生长到最大

End

输出:(1)树的集合

(2)对待测样本xt决策树hi输出hi(xt)

回归:

分类:

注释:算法中,用majorityvote表示多数投票.随机森林的泛化误差依赖于以下两个因素:任意两棵树的相关度和单棵树的分类效能。

三、随机森林方法的优点

相对于一般算法,随机森林最大的优点就是可以很好的应对高维度的数据集,对数据的适应性很好;其次由于其对缺失值和异常值不敏感具有很好的抗噪声能力,可以得到变量重要性排序,容易做成并行化的模式;在练习的时候,可以检验出样本中属性间的关系,对多元共线性没有敏感性;以及可以扩展到无标签数据中,进行无监督分类、和奇异点检测等多种。具体有以下几点:

1 相对于其他算法,随机森林具有极高的预测精度,且不易过拟合;

2 能处理海量数据,对高维数据,无需进行变量删减或筛选;

3 模型内部产生的OOB估计具有无偏性;

④ 对噪声不敏感,具有较好的容噪能力;

⑤ 输入变量既可以是数值型,也可以是类别型;

⑥ 能有效处理不平衡分类问题;

⑦ 能计算样本间的相似度,产生相似度矩阵,可以用于聚类、异常样本诊断、缺失值填补以及数据可视化;

⑧ 能计算变量的重要性,且能给出偏相关函数对模型进行解释。

四、随机森林应用于智能财务风险预警

建立基于随机森林分类模型的智能财务风险预警模型,各种分类模型都只对类别较对称的数据具有很好的识别功能,可以选取上市公司的数据作为样本,财务报表涵盖了许多样本,并且对于每一个样本都有许多属性,这些属性均为构建的二级财务指标。用于智能财务风险预警研究的样本变量很多,若把它们全都纳入到预警模型中会使得模型繁杂和信息重合,显然将它们全都用于构建预警模型是不合理的,而且有可能影响模型效果,如果基于这些数据直接训练决策树则会导致决策树的结构异常复杂,难以达到较好的分类效果以及泛化性能。所以在建立预警模型之前,通过对指标实施改进的随机森林分析,筛选出含信息量较高且相关性较低的指标。构建随机森林的一个关键问题是选择特征个数使其达到最优。若减小特征个数,树的相关性和分类能力就会相应降低;反之若增大,两者则会随之增大。所以,关键问题是如何选择最优的特征个数及范围,这是随机森林中最重要的参数。财务指标的选取原则决定了研究所用的数据,而数据是构建模型的基础。在智能财务风险预警模型的研究中,根据研究方向、侧重点不同而所选用的财务指标也不尽相同。选取了用于财务风险预警的变量之后,需要对数据进行降维,筛选出信息量较高且相关性较低的指标。随机森林模型对财务指标赋权有两种方法,一种是常用的Gini系数法,另一种是预测精度法。

在选取样本时,要选择具有代表性以及要考虑数据的可获得性,如上市公司按照相关法律要求会按时对外公布相对真实、连续的财务数据,而非上市公司的财务数据则难以获得。因不同行业具有各自的行业特征,因而其陷入财务困境的概率也不尽相同,应选择同一行业的上市公司作为样本。企业陷入财务困境是一个渐进的过程,因此需要关注公司陷入困境的前三年财务数据也非常重要。通过选择总资产收益率、资产报酬率、流动比率、净利润增长率、总资产周转率、流动资产中互转利率、资产负债率等指标作为模型输入变量,公司类型作为分类变量,以此建立一定数量的决策树,构成训练数据集和测试数据集。根据测试数据集准确率,正常公司错分率以及面临财务风险的公司错分率判断随机森林模型的准确性。

我们采用随机森林算法即可同时训练很多的决策树,每一个决策树只需要分析部分样本,并基于部分属性做出决策。这样可以加强决策树对于这些指标的判别能力,而不要求面面俱到。最终通过投票法将所有决策树的分析结果进行汇总,得到一个最终的稳健的分类结果。

经邦大数据致力于数字赋能用户,实现风险可控下的运营价值最大化。目前已经在集团企业决策支持平台、AI分析建模平台、移动应用平台和大数据集成平台上取得丰硕成果,司企共建一批全国样板客户案例,获得业界良好口碑。基本企业全面风险管控体系的基础内控系统建设梳理与咨询指导、核心风控系统的开发建设与实施落地、评价优化系统的监督评价与优化改进等服务,最终实现企业风控目标与战略目标的统一。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
第一次见这么牛的网约车司机!男子使唤司机放行李,自己空手上车,司机直接丢下行李开走

第一次见这么牛的网约车司机!男子使唤司机放行李,自己空手上车,司机直接丢下行李开走

网约车观察室
2026-06-23 09:54:42
刚刚,又熔断了,程序化交易暂停5分钟!“今天吃两个板,一个是跌停板,另一个也是跌停板”

刚刚,又熔断了,程序化交易暂停5分钟!“今天吃两个板,一个是跌停板,另一个也是跌停板”

金融界
2026-06-23 11:28:37
记者:阿根廷队友们认为小蜘蛛想走的言论很正常,他压力很大

记者:阿根廷队友们认为小蜘蛛想走的言论很正常,他压力很大

懂球帝
2026-06-23 08:14:25
张亮与19岁儿子天天合体拍摄,“张亮天天共用一张脸”登上热搜

张亮与19岁儿子天天合体拍摄,“张亮天天共用一张脸”登上热搜

韩小娱
2026-06-22 11:52:50
网曝绍兴日铸山庄水池被印度人占领,吃着西瓜、游着泳,好惬意

网曝绍兴日铸山庄水池被印度人占领,吃着西瓜、游着泳,好惬意

小徐讲八卦
2026-06-20 19:21:56
NBA|重磅交易!字母哥终究去了热火,莱利再次迎来巨星

NBA|重磅交易!字母哥终究去了热火,莱利再次迎来巨星

北青网-北京青年报
2026-06-23 14:25:36
韩国股市崩了!三星电子、SK海力士均创2008年以来最大跌幅|快讯

韩国股市崩了!三星电子、SK海力士均创2008年以来最大跌幅|快讯

华夏时报
2026-06-23 15:50:08
18岁被王全安选中,20岁登戛纳,后来为啥没人敢用她?

18岁被王全安选中,20岁登戛纳,后来为啥没人敢用她?

不似少年游
2026-05-21 14:26:19
地球真的生病了!塔克拉玛干沙漠边缘发洪,当地人:这辈子没见过

地球真的生病了!塔克拉玛干沙漠边缘发洪,当地人:这辈子没见过

哄动一时啊
2026-06-22 19:28:35
跌成股灾了

跌成股灾了

曹多鱼的财经世界
2026-06-23 15:48:05
15岁姑娘被押去枪决,突然塞一把生黄豆进嘴,枪响后一颗没掉

15岁姑娘被押去枪决,突然塞一把生黄豆进嘴,枪响后一颗没掉

历史图鉴
2026-06-22 15:52:00
世界杯比赛前瞻丨葡萄牙VS乌兹别克斯坦:主帅力挺C罗

世界杯比赛前瞻丨葡萄牙VS乌兹别克斯坦:主帅力挺C罗

体育世界
2026-06-23 14:15:43
1956年,毛主席参观南京无线电厂,错把写着“毛”的工件当成礼物

1956年,毛主席参观南京无线电厂,错把写着“毛”的工件当成礼物

大运河时空
2026-06-22 14:25:03
石头落地了!全红婵传来喜悦消息终于揭晓真相,这下家人可以放心

石头落地了!全红婵传来喜悦消息终于揭晓真相,这下家人可以放心

幽棠的趣式
2026-06-23 03:12:47
李子是血糖的“催化剂”?医生建议:想血糖稳定,这7种水果少吃

李子是血糖的“催化剂”?医生建议:想血糖稳定,这7种水果少吃

华庭讲美食
2026-06-23 12:25:15
美国下届总统应该在这四个人中产生,请大家关注

美国下届总统应该在这四个人中产生,请大家关注

瓦伦西亚月亮
2026-06-23 03:08:51
当年交公粮没白费,2026农村16项补贴全部打进社保卡,快查到账没

当年交公粮没白费,2026农村16项补贴全部打进社保卡,快查到账没

三农雷哥
2026-06-20 18:03:48
27岁医科大美女确诊癌症,疑和同居租房有关,研究生男友裸辞照顾

27岁医科大美女确诊癌症,疑和同居租房有关,研究生男友裸辞照顾

天天热点见闻
2026-06-22 12:32:30
卷巨额遗产出逃英国,给杨振宁戴绿帽子,翁帆身上的谣言有多离谱

卷巨额遗产出逃英国,给杨振宁戴绿帽子,翁帆身上的谣言有多离谱

叨唠
2026-05-27 04:13:37
陈伟霆公开靠吃馒头减肥,一顿只吃一个馒头,成功瘦了20斤下来!

陈伟霆公开靠吃馒头减肥,一顿只吃一个馒头,成功瘦了20斤下来!

螃蟹记录站
2026-04-26 23:50:59
2026-06-23 17:11:00
经邦大数据
经邦大数据
为企业现代化转型提供数字化、智能化的数据分析决策、支持和风险管控解决方案。
85文章数 28关注度
往期回顾 全部

财经要闻

智谱万亿市值,国产Anthropic真来了?

头条要闻

媒体:赖清德首次说出"拒绝中共统治" 还声称不是挑衅

头条要闻

媒体:赖清德首次说出"拒绝中共统治" 还声称不是挑衅

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

科技要闻

48名中国开发者联名举报苹果

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

健康
游戏
本地
亲子
房产

粽子还没吃完?专家教你“清库存”

2026最新实测!KK对战平台官方解答:老玩家cs1.6怎么联机防掉线?

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

亲子要闻

人教人教不会,事教人一次就会了

房产要闻

一年时间,36个盘“消失”!海口楼市,罕见“大收缩”!

无障碍浏览 进入关怀版