网易首页 > 网易号 > 正文 申请入驻

Python梯度提升树、XGBoost、LASSO回归、SVM预测中国A股上市公司数据研发融合CEO与公司特征及SHAP可解释性

0
分享至

全文链接:tecdat.cn/?p=44265
原文出处:拓端数据部落公众号
分析师:Liu Qing


在创新驱动发展战略深入推进的当下,企业研发投入成为经济高质量发展的核心动力,而研发费用加计扣除、高新技术企业税收优惠等政策,既激发了企业创新活力,也催生了部分企业的研发操纵行为点击文末“阅读原文”获取完整智能体、代码、数据、文档)。

这类通过虚增研发支出、调整会计处理方式套取政策红利的行为,不仅导致创新资源错配,还破坏了市场公平竞争秩序。传统研究多依赖线性回归方法,难以捕捉研发操纵影响因素的非线性关系与交互效应,预测精度和可解释性不足。
本文改编自我们为某监管机构提供的上市公司研发行为监测咨询项目,核心是通过机器学习技术破解研发操纵识别难题。项目团队整合2012-2023年中国A股上市公司数据,从CEO个人特质、公司财务特征、公司治理特征三个维度构建预测体系,运用多种机器学习算法实现研发操纵行为的精准识别与影响因素量化。
本文内容源自过往项目技术沉淀与已通过实际业务校验,该项目完整代码与数据已分享至交流社群。阅读原文进群,可与600+行业人士交流成长;还提供人工答疑,拆解核心原理、代码逻辑与业务适配思路,帮大家既懂怎么做,也懂为什么这么做;遇代码运行问题,更能享24小时调试支持。
我们深知在使用科研代码时的痛点:代码能运行却怕查重、遇异常难以调试。为此,我们提供24小时响应的“代码运行异常”应急修复服务,比自行调试效率提升40%;所有内容人工创作比例超90%,从根源规避查重风险与逻辑漏洞,真正实现“买代码不如买明白”。本文将以通俗的语言、清晰的逻辑,带大家从数据准备到结论输出,完整掌握研发操纵预测的核心方法与业务逻辑。


数据与研究设计 数据来源与处理

研究选取2012-2023年中国A股上市公司为研究对象,剔除特殊处理企业与金融类企业后,从国泰安数据库获取CEO个人特质、公司财务与治理数据、研发相关数据。为保证数据质量,对连续变量进行1%和99%分位的缩尾处理,数值型缺失值用均值填充,虚拟变量缺失值用众数填充。

变量定义

  • 被解释变量:研发操纵(RDM、RDM1),以高新技术企业研发投入门槛为基准,分别以超过门槛0.5%、1%作为操纵行为判定标准。

  • 解释变量:分为三类,包括CEO性别、年龄、研发背景等个人特质,资产负债率、存货周转率等财务特征,以及独立董事比例、机构持股比例等公司治理特征。

描述性统计结果

通过对核心变量的描述性统计可以看出样本数据的基本特征:CEO群体中男性占比93%,性别失衡明显;仅30%的CEO具有研发背景,金融背景和学术背景占比更低;资产规模差异较大,资产负债率均值为40%;以0.5%门槛衡量的研发操纵行为发生率为10%,门槛提升至1%后发生率升至19%。

核心代码(数据处理与变量划分)

import pandas as pd
import numpy as np
# 载入数据并指定编码格式
# 定义核心变量列表
core_vars = [
'CEOSEX','CEOAGE','CEOSTOCK','CEOOVERSEA','CEOFIN','CEOTECH','CEOACA',
'Asset','DAR','ITO','RGR','ROA',
'Nshrsms','Outratio','INSTO','Dual',
'RDM','RDM1'
]
# 描述性统计分析(保留关键统计量)
desc_stats = data[core_vars].describe(percentiles=[.25, .5, .75]).T
print(desc_stats.round(3))
# 变量分类划分
ceo_features = ['CEOSEX','CEOAGE','CEOSTOCK','CEOOVERSEA','CEOFIN','CEOTECH','CEOACA']
finance_features = ['Asset','DAR','ITO','RGR','ROA']
governance_features = ['Nshrsms','Outratio','INSTO','Dual']
# 整合所有特征与指定因变量
all_features = finance_features + ceo_features + governance_features
target_var = 'RDM'# 主因变量
模型训练与预测效果评估 模型选择与训练逻辑

考虑到单一算法的局限性,研究选取7种主流机器学习算法:逻辑回归(Logit)、LASSO回归、决策树(CART)、支持向量机(SVM)、梯度提升树(GB)、随机森林(RF)、极端梯度提升(XGBoost)。采用时间序列交叉验证的滚动预测方式,按“一年训练、一年测试”的窗口进行模型训练与评估,同时通过SMOTE技术处理类别不平衡问题。

预测效果核心结果

不同算法的预测性能存在显著差异,集成学习算法整体表现优于线性模型与单一决策树模型。决策树虽能完全拟合训练数据(R2_IS=1),但存在严重过拟合,样本外预测能力最差;随机森林、梯度提升树和XGBoost等集成算法表现突出,其中XGBoost的AUC_OOS最高(0.57),MSE_OOS和MAE_OOS最低,综合预测性能最优。

不同特征组合的预测表现

以财务特征为基准模型,逐步加入CEO特质与公司治理特征后,模型预测性能变化不大;包含所有特征的综合模型在XGBoost算法下AUC值最高,进一步验证了XGBoost算法对多维度特征的处理优势,以及财务特征在研发操纵预测中的基础核心作用。

核心代码(模型训练与评估)

# 定义模型评估指标函数
def model_metrics(model, X_train, y_train, X_test, y_test):
# 训练集与测试集预测概率
train_prob = model.predict_proba(X_train)[:,1]
test_prob = model.predict_proba(X_test)[:,1]
# 计算核心指标
r2_train = r2_score(y_train, train_prob)
auc_test = roc_auc_score(y_test, test_prob)
mse_test = mean_squared_error(y_test, test_prob)
return r2_train, auc_test, mse_test
# 滚动窗口评估函数
def rolling_evaluation(model, X_data, y_data, n_splits=10):
tscv = TimeSeriesSplit(n_splits=n_splits)
metrics_dict = defaultdict(list)
for train_idx, test_idx in tscv.split(X_data):
# 数据划分与标准化
X_tr, X_te = X_data.iloc[train_idx], X_data.iloc[test_idx]
y_tr, y_te = y_data.iloc[train_idx], y_data.iloc[test_idx]
scaler = StandardScaler().fit(X_tr)
X_tr_scaled = scaler.transform(X_tr)
X_te_scaled = scaler.transform(X_te)
# SMOTE处理类别不平衡
X_tr_balanced, y_tr_balanced = SMOTE().fit_resample(X_tr_scaled, y_tr)
# 模型训练与指标计算
model.fit(X_tr_balanced, y_tr_balanced)
r2_tr, auc_te, mse_te = model_metrics(model, X_tr_balanced, y_tr_balanced, X_te_scaled, y_te)
特征重要性与SHAP可解释性分析 核心影响因素识别

基于随机森林与XGBoost两种最优集成算法的特征重要性分析显示,存货周转率(ITO)在两种算法中均排名第一,是预测研发操纵行为最强的指标;资产规模(Asset)排名第二,资产负债率(DAR)也进入前列。CEO特质中,研发背景(CEOTECH)在随机森林中重要性较高,但在XGBoost中有所下降;CEO性别(CEOSEX)等特征重要性普遍较低,对研发操纵的预测贡献有限。

SHAP可解释性解读

为破解机器学习“黑箱”问题,引入SHAP算法(基于博弈论的公平分配原则,衡量每个特征对预测结果的边际贡献)分析核心特征的影响机制:

  • 存货周转率(ITO):偏低时企业经营压力大,管理层有更强动机通过研发操纵改善短期业绩,SHAP值为正;偏高时经营状况良好,操纵必要性低,SHAP值为负,其对预测的贡献在所有特征中最突出。

  • 资产规模(Asset):规模越大的企业,外部审计和监督更严格,研发投入决策更稳健,发生操纵的概率越低,SHAP值多为负。

  • 资产负债率(DAR):高负债企业面临偿债压力和业绩考核压力,倾向于削减研发支出粉饰财务数据,SHAP值为正,推动研发操纵行为发生。

  • CEO研发背景(CEOTECH):具有研发背景的CEO更理解研发的长期价值,不会因短期业绩压力随意调整研发投入,SHAP值为负,抑制研发操纵。

  • 机构持股比例(INSTO):机构投资者监督能力强,能约束管理层短视行为,SHAP值为负,减少研发操纵可能性。

核心代码(SHAP分析简化版)

# 标准化特征数据
X_scaled = pd.DataFrame(StandardScaler().fit_transform(X_input), columns=X_input.columns)
# 训练XGBoost模型
xgb_model = XGBClassifier(n_estimators=300, max_depth=4, learning_rate=0.05, random_state=42)
xgb_model.fit(X_scaled, y_input)
# 初始化SHAP解释器
explainer = shap.TreeExplainer(xgb_model)
稳健性检验

为验证研究结论的可靠性,采用五种方式进行稳健性检验,所有检验结果均显示核心结论保持稳定:

  1. 变更样本划分:按7:3比例划分训练集与测试集,随机森林、XGBoost等集成算法仍保持优异的预测性能,与滚动窗口预测结果一致。

  2. 替换被解释变量:将研发操纵判定门槛从0.5%改为1%(RDM1),存货周转率、资产规模等核心特征的重要性排序未发生改变。

  3. 变更样本区间:以2016年《高新技术企业认定管理办法》修订为节点,将样本起点调整为2016年,模型预测效果和核心特征重要性无显著变化。

  4. 引入新评估指标:新增Accuracy和F1-Score指标,XGBoost等集成算法仍表现最优,特征组合的预测规律保持一致。

  5. 过采样技术:采用SMOTE技术扩充少数类样本(研发操纵企业),重新训练XGBoost模型后,关键预测变量(ITO、Asset、DAR等)与主分析结果完全一致,仅召回率略有提升。

结论与启示 核心结论
  1. 算法性能上,XGBoost算法在研发操纵预测中综合表现最佳,随机森林、梯度提升树等集成算法优于逻辑回归、LASSO等线性模型和单一决策树,能更好捕捉变量间的非线性关系和交互效应。

  2. 影响因素上,财务特征是研发操纵的核心预测维度——存货周转率(运营效率)、资产规模(企业实力)、资产负债率(财务压力)共同决定企业操纵动机;CEO研发背景、海外背景能抑制操纵行为;机构持股比例通过外部监督发挥约束作用。

  3. 研究创新上,突破传统线性回归的因果推断局限,采用预测性建模思路,结合SHAP工具实现机器学习模型的可解释性,清晰揭示各因素对研发操纵的影响方向和强度。

实践启示
  • 企业层面:建立长期导向的绩效评价体系,避免过度追求短期业绩;选拔具有研发背景、国际视野的高管;加强研发支出内部控制,确保研发决策的科学性。

  • 政策层面:优化研发激励政策设计,将刚性税收优惠门槛改为梯度化激励,减少企业“达标式”操纵动机;完善研发支出信息披露制度,要求详细说明研发费用变动原因。

  • 监管层面:基于存货周转率、资产负债率等核心特征构建预警模型,运用XGBoost等算法提升监管精准度;强化机构投资者监督作用;加大对研发操纵行为的惩戒力度,提高违规成本。

工具适配说明

本文使用的Python库(pandas、scikit-learn、xgboost、shap、imblearn等)均为国内可正常访问的开源工具,无需科学上网。国内用户可通过清华镜像源(pypi.tuna.tsinghua.edu.cn/simple)快速安装… install -i pypi.tuna.tsinghua.edu.cn/simple xgboost”),所有代码均经过Windows、Mac系统验证,可直接运行。

关于分析师

在此对 Liu Qing 对本文所作的贡献表示诚挚感谢,他目前毕业于应用统计专业硕士学位,专注于数据科学相关方向,涵盖深度学习、数理金融、数据采集等研究领域。擅长 R 语言、Python、STATA、SPSS 等数据分析工具。

Liu Qing 曾任职于金榜教育学业规划(从事教育培训相关工作),在多场景实践中积累了丰富的业务落地与数据应用经验,为本文的实证分析与实践启示部分提供了重要参考。

本文中分析的完整智能体、数据、代码、文档分享到会员群,扫描下面二维码即可加群!

资料获取

在公众号后台回复“领资料”,可免费获取数据分析、机器学习、深度学习等学习资料。


获取完整智能体、

代码、数据和文档。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一份“煮熟的三文鱼”火了,原来低认知的家长,真能搞出人命!

一份“煮熟的三文鱼”火了,原来低认知的家长,真能搞出人命!

妍妍教育日记
2026-03-07 08:45:06
伊朗大规模发射新一代导弹,摧毁美军多个基地雷达、飞机燃料库、MQ-9无人机机库等,以及多套萨德,“整个地区都能看到滚滚浓烟”

伊朗大规模发射新一代导弹,摧毁美军多个基地雷达、飞机燃料库、MQ-9无人机机库等,以及多套萨德,“整个地区都能看到滚滚浓烟”

每日经济新闻
2026-03-07 01:03:56
项立刚质问莫言不为伊朗儿童说话,项立刚为中国患儿捐款了吗?

项立刚质问莫言不为伊朗儿童说话,项立刚为中国患儿捐款了吗?

书写者
2026-03-06 19:33:38
中东打仗,驻韩美军异动?

中东打仗,驻韩美军异动?

新民周刊
2026-03-07 09:17:30
69年周总理担心苏联动用核武器,毛主席反问总理:你读过明史吗

69年周总理担心苏联动用核武器,毛主席反问总理:你读过明史吗

兵卒史
2026-03-07 07:01:17
伊朗发起第16轮反击后,不到48小时,有两国反水,特朗普气到跳脚

伊朗发起第16轮反击后,不到48小时,有两国反水,特朗普气到跳脚

浪子阿邴聊体育
2026-03-06 09:22:21
周杰伦突然发文:给我等着

周杰伦突然发文:给我等着

观察者网
2026-03-07 07:33:08
血亏466亿,京东亏的到底值不值?

血亏466亿,京东亏的到底值不值?

风声声
2026-03-06 18:21:45
白岩松两会大谈养老金!言语犀利口碑暴增,句句说到网友的心坎里

白岩松两会大谈养老金!言语犀利口碑暴增,句句说到网友的心坎里

大鱼简科
2026-03-06 19:23:22
美国伊朗冲突,那些造“官谣”的人已经魔怔了

美国伊朗冲突,那些造“官谣”的人已经魔怔了

清书先生
2026-03-06 17:06:21
谢谢谢娜,贡献出26年内娱的第一个笑话!

谢谢谢娜,贡献出26年内娱的第一个笑话!

娱乐圈笔娱君
2026-03-04 14:03:54
腾讯大厦排长队!市民争相免费安装AI“龙虾”,线下代装500元一次

腾讯大厦排长队!市民争相免费安装AI“龙虾”,线下代装500元一次

极目新闻
2026-03-06 22:11:40
老年人的性生活多久一次合理?要戴套吗?答案颠覆认知

老年人的性生活多久一次合理?要戴套吗?答案颠覆认知

贱议你读史
2026-03-06 23:28:50
1只都不行!2015年,广东老人半个小时徒手抓了22只,想煲汤喝

1只都不行!2015年,广东老人半个小时徒手抓了22只,想煲汤喝

万象硬核本尊
2026-03-06 14:10:17
豪门悲喜夜:巴黎圣日耳曼1-3,拜仁4-1,皇马2-1,利物浦3-1晋级八强

豪门悲喜夜:巴黎圣日耳曼1-3,拜仁4-1,皇马2-1,利物浦3-1晋级八强

侧身凌空斩
2026-03-07 06:10:33
伊方:因美以袭击丧生的伊朗人三成为青少年

伊方:因美以袭击丧生的伊朗人三成为青少年

环球网资讯
2026-03-07 06:39:29
伊朗学校葬礼上的这个中国书包,令人心碎

伊朗学校葬礼上的这个中国书包,令人心碎

补壹刀
2026-03-05 00:24:07
中国石油股东赌赢了!数百艘油轮堵在石油海峡,德黑兰突然踩刹车

中国石油股东赌赢了!数百艘油轮堵在石油海峡,德黑兰突然踩刹车

有范又有料
2026-03-06 18:35:54
女子实名举报某团外卖:不上大额券就让我变成“凌晨营业”,你们真黑!

女子实名举报某团外卖:不上大额券就让我变成“凌晨营业”,你们真黑!

回旋镖
2026-03-06 21:13:59
难道伊朗背后真有高人指导?纽约时报:他专挑美国弱点下死手!

难道伊朗背后真有高人指导?纽约时报:他专挑美国弱点下死手!

青青子衿
2026-03-06 00:13:50
2026-03-07 12:07:00
拓端数据科技
拓端数据科技
数据.咨询.价值
1044文章数 140关注度
往期回顾 全部

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

头条要闻

中东局势动荡 欧盟"女外长"污蔑:中国趁机拿捏欧洲

头条要闻

中东局势动荡 欧盟"女外长"污蔑:中国趁机拿捏欧洲

体育要闻

塔图姆归来:凯尔特人的春之绿

娱乐要闻

周杰伦田馥甄20年地下情 被扒得底朝天

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

家居
教育
时尚
本地
军事航空

家居要闻

暖棕撞色 轻法奶油风

教育要闻

教育部:我国高等教育毛入学率超60%,“双一流”高校扩招3.8万人 #2026全国两会

这些才是适合普通人的穿搭!搭配腰带、多穿牛仔裤,简单舒适

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

军事要闻

伊朗:使用无人机击中美军"林肯"号航母

无障碍浏览 进入关怀版