网易首页 > 网易号 > 正文 申请入驻

华泰 | 金工:基于逐笔成交的深度学习选股模型

0
分享至

来源:市场资讯

(来源:华泰证券研究所)

本文聚焦于逐笔成交数据的信息挖掘,从资金流和事件驱动两个角度设计特征,构建基于transformer 模型的选股因子,并提出改进模型结构以提升预测能力。最终融合因子构建的中证1000增强组合,在2017年初至2025年6月底的回测期内,年化超额收益率19.92%,信息比率4.04,2025年上半年超额10.77%。

人工智能93:挖掘逐笔成交数据中的alpha

高频量价数据在量化投资中的重要性毋庸置疑。本文聚焦于逐笔成交数据的信息挖掘。由于数据量庞大,逐笔成交数据难以直接作为深度学习等选股模型的输入,需依赖特征工程提取有效信号。本文从资金流和事件驱动两个角度开展特征工程,采用深度学习模型捕捉数据规律,并提出模型优化方法,最后形成选股因子。

资金流模型:tick线、成交量线等具有时间线外的增量信息

本研究基于逐笔成交数据,构造大小单、主动买卖等资金流特征。基线模型以个股过去40日的30分钟频资金流数据作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。然而,传统时间线存在不匹配市场交易频率、时间序列统计特性差等缺陷。改进模型在时间线基础上,拓展出tick线、成交量线等增量数据,并利用transformer模型学习跨时间和跨k线的规律。实证结果表明,改进模型训练的选股因子在多项指标上均优于基线模型。样本空间为全A股,在2017年初至2025年6月底的回测期内(周频调仓),因子周度RankIC从10.17%提升至10.64%,多头年化超额收益率由20.43%提升为22.56%。

事件驱动模型:引入跨事件注意力可提升模型性能

逐笔成交数据中的重要成交事件(如大单、价格底部、价格顶部等)可能蕴含较为丰富的信息。本研究通过识别这些特殊事件,构造相应的事件特征。基线模型以个股过去40日的所有事件特征作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。改进模型则采用分层注意力机制设计,第一层transformer仍学习时序注意力,第二层transformer捕捉跨事件的交叉注意力。回测结果显示,改进模型训练得到的因子在多项指标上均优于基线模型,周度RankIC从9.94%提升至10.01%,多头年化超额收益率由20.06%提升为22.38%。

改进资金流和事件驱动因子合成的融合因子表现更佳

将改进后的资金流和事件驱动选股因子等权合成,得到逐笔成交融合因子。在2017年初至2025年6月底的回测期内(周频调仓),该融合因子周度RankIC达10.96%,多头年化超额收益率为24.52%,表现优于单一因子。基于资金流因子、事件驱动因子和融合因子构建的中证1000增强组合,在相同回测期内年化超额收益率分别为18.98%、17.24%和19.92%,信息比率分别为3.91、3.59和4.04。2025年上半年,三者的超额收益分别为5.57%、12.58%和10.77%。

正 文

01 研究导读

高频量价数据涵盖分钟k线、tick、逐笔成交、逐笔委托等类型,在量化投资中的重要性毋庸置疑。其中,逐笔成交数据作为最精细的交易明细记录,相比分钟线和tick数据具备更丰富的微观结构信息。然而,由于数据量庞大,逐笔成交数据难以直接作为深度学习等选股模型的输入,需依赖特征工程提取有效信号。

华泰金工前期报告《基于全频段量价特征的选股模型》(2023.12.8)中,利用逐笔成交数据构建了大单成交占比、主动买入占比等选股因子。本文将深入探讨逐笔成交的应用潜力,从资金流和事件驱动两个角度展开研究:

1.基于逐笔成交数据,构造大小单、主动买卖等资金流特征,并在传统时间线基础上,拓展出tick线、成交量线等增量数据,最后利用transformer模型学习跨时间和跨k线的规律,形成资金流选股因子。

2.识别逐笔成交数据中的大单、价格底部、价格顶部等重要成交事件,构造相应的事件特征,并使用transformer模型捕捉跨时间和跨事件的规律,形成事件驱动选股因子。

研究发现,改进后的资金流和事件驱动选股因子合成的融合因子展现出较好的选股效果,该因子的周频调仓回测表现如下。

02 基于资金流的选股模型

逐笔成交数据作为市场微观结构的核心载体,记录了成交时间、成交量、成交价格、成交金额、买方卖方编号、买卖方向标志等关键交易细节。本章将据此构造资金流特征,并运用深度学习优化选股模型。

基线模型

本研究首先采用传统时间线(timebar)采样方法,将每个交易日的逐笔成交数据划分为8个30分钟等长区间,从中提取每根k线的价格、成交量、主动买卖量、大小单成交量等特征,具体特征定义如下。

基线模型以个股过去40日的30分钟频资金流数据作为输入。为了使输入数据的分布具有较高的一致性,保证模型训练的稳定,原始特征需进行时序和截面标准化。标准化后的数据通过常见的transformer模型,学习时序注意力,最终输出未来10日超额收益的预测。

改进模型

德普拉多在《金融机器学习》中提到,尽管时间线在行业内和学术界应用最为广泛,但可能存在两个问题:(1)市场并不会以恒定的时间间隔对信息进行处理,比如开盘后的活跃度远远高于其他时刻;(2)时间采样序列的统计学特性极差,如序列相关性、异方差性等。

为突破时间线的限制,提高对逐笔成交数据的表征能力,本研究拓展出tick线(tickbar)、成交量线(volumebar)等多种类型的k线,具体定义如下。每类k线的资金流特征定义与图表6保持一致。

下图展示了不同k线的收盘价与成交量对比,不难看出数据具有一定的差异性。

改进模型以个股过去40日的不同类型k线的资金流数据作为输入,先通过第一层transformer学习时序注意力,再通过第二层transformer学习跨k线注意力,预测目标仍为未来10日超额收益。

因子测试

为了减轻随机性干扰,本文的深度学习模型都用不同随机数种子训练三次,将三次的模型等权集成,作为最终的因子信号进行回测。因子测试方法如下:

1.股票池:全A股,剔除ST股票,剔除每个截面期下一交易日停牌、涨停的股票。

2.回测区间:2017/1/1~2025/6/30。

3.调仓周期:周频,不计交易费用。

4.测试方法:IC值分析,因子分10层测试。

测试结果表明,改进模型在RankIC均值、RankICIR、TOP组合超额收益率、TOP组合信息比率、TOP组合胜率、TOP组合换手率等多项指标上表现均优于基线模型,且RankIC和多头收益的优势在近几年更为突出,说明多类型k线能够在传统时间线基础上贡献增量信息。

03 基于事件驱动的选股模型

逐笔成交数据中的重要成交事件可能蕴含较为丰富的信息。本章将构造事件驱动特征,并运用深度学习优化选股模型。

基线模型

本研究根据逐笔成交数据,识别出大单、价格顶部、价格底部等多类重要事件,具体事件定义如下。

针对每类事件,构造多维特征指标,以捕捉市场参与者的异常交易行为,特征定义如下。

为了保证模型训练的稳定性,首先需要对特征进行预处理,包括中位数去极值、行业市值中性化、截面z-score标准化、缺失值填充等。基线模型以个股过去40日的所有事件特征作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。

改进模型

基线模型虽然能捕捉事件的时间演变规律,但忽略了不同类型事件之间的内在关联。为突破这一局限,改进模型采用分层注意力机制设计,第一层transformer仍学习时序注意力,第二层transformer捕捉跨事件的交叉注意力。

因子测试

改进模型在RankIC均值、TOP组合超额收益率、TOP组合信息比率、TOP组合胜率表现均优于基线模型,说明引入跨事件注意力能够提升模型预测性能。

04 逐笔成交融合因子与指数增强

逐笔成交融合因子

将改进后的资金流和事件驱动选股因子等权合成,得到逐笔成交融合因子。回测结果表明,融合因子在RankIC均值、RankICIR、RankIC>0占比、TOP组合超额收益率、TOP组合信息比率等指标上均有提升,同时TOP组合换手率有所下降。

因子相关性分析

相关性分析显示,资金流因子与事件驱动因子相关性为0.66,说明两者存在信息互补。此外融合因子呈现反转、低流动性、高beta、低估值等风格暴露。

指数增强

分别使用改进后的资金流因子、事件驱动因子和融合因子,构建中证1000指数增强组合,测试方法如下表。为降低调仓时点选择带来的偏差,对每个因子采用相邻5个交易日作为调仓起始日,构建5条独立调仓路径的组合,最终取回测结果的均值。这种方法类似于日频调仓,但总换手率基本保持不变。

在2017年初至2025年6月底的回测期内,基于资金流因子、事件驱动因子和融合因子构建的中证1000增强组合,在相同回测期内年化超额收益率分别为18.98%、17.24%和19.92%,信息比率分别为3.91、3.59和4.04,融合因子优于单一因子构建的组合。2025年上半年,三者的超额收益分别为5.57%、12.58%和10.77%。

05 总结

高频量价数据在量化投资中的重要性毋庸置疑。本文聚焦于逐笔成交数据的信息挖掘。由于数据量庞大,逐笔成交数据难以直接作为深度学习等选股模型的输入,需依赖特征工程提取有效信号。本文从资金流和事件驱动两个角度开展特征工程,采用深度学习模型捕捉数据规律,并提出模型优化方法,最后形成选股因子。

资金流模型:tick线、成交量线等具有时间线外的增量信息。本研究基于逐笔成交数据,构造大小单、主动买卖等资金流特征。基线模型以个股过去40日的30分钟频资金流数据作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。然而,传统时间线存在不匹配市场交易频率、时间序列统计特性差等缺陷。改进模型在时间线基础上,拓展出tick线、成交量线等增量数据,并利用transformer模型学习跨时间和跨k线的规律。实证结果表明,改进模型训练的选股因子在多项指标上均优于基线模型。样本空间为全A股,在2017年初至2025年6月底的回测期内(周频调仓),因子周度RankIC从10.17%提升至10.64%,多头年化超额收益率由20.43%提升为22.56%。

事件驱动模型:引入跨事件注意力可提升模型性能。逐笔成交数据中的重要成交事件(如大单、价格底部、价格顶部等)可能蕴含较为丰富的信息。本研究通过识别这些特殊事件,构造相应的事件特征。基线模型以个股过去40日的所有事件特征作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。改进模型则采用分层注意力机制设计,第一层transformer仍学习时序注意力,第二层transformer捕捉跨事件的交叉注意力。回测结果显示,改进模型训练得到的因子在多项指标上均优于基线模型,周度RankIC从9.94%提升至10.01%,多头年化超额收益率由20.06%提升为22.38%。

改进资金流和事件驱动因子合成的融合因子表现更佳。将改进后的资金流和事件驱动选股因子等权合成,得到逐笔成交融合因子。在2017年初至2025年6月底的回测期内(周频调仓),该融合因子周度RankIC达10.96%,多头年化超额收益率为24.52%,表现优于单一因子。基于资金流因子、事件驱动因子和融合因子构建的中证1000增强组合,在相同回测期内年化超额收益率分别为18.98%、17.24%和19.92%,信息比率分别为3.91、3.59和4.04。2025年上半年,三者的超额收益分别为5.57%、12.58%和10.77%。

风险提示:

基于逐笔成交数据的选股模型对市场微观结构的依赖较强,未来市场变化可能导致模型失效。Transformer架构的复杂性可能增加训练和推理时间,并带来过拟合风险。本报告不涉及标的推荐。

参考文献:

[1]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[2] De Prado M L. Advances in financial machine learning[M]. John Wiley & Sons, 2018.

研报:《基于逐笔成交的深度学习选股模型》2025年7月14日

研究员:林晓明 S0570516010001|BPY421

研究员:何 康 S0570520080004|BRB318

联系人:卢 炯 S0570123070272

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欲哭无泪!47岁男子赴深圳求职一个月无果,住低价旅馆,一日一餐

欲哭无泪!47岁男子赴深圳求职一个月无果,住低价旅馆,一日一餐

火山詩话
2026-04-21 06:36:18
何猷君家保姆买彩票中了3000万,保姆乐坏了,拒不辞职!转头第一句话是:你想要什么,我都买给你

何猷君家保姆买彩票中了3000万,保姆乐坏了,拒不辞职!转头第一句话是:你想要什么,我都买给你

LULU生活家
2026-04-20 14:34:28
警惕致命风险!张雪机车紧急叫停500F后货架改装:已装者需立即拆除

警惕致命风险!张雪机车紧急叫停500F后货架改装:已装者需立即拆除

快科技
2026-04-21 13:22:05
上海男童被虐致死案家属回应一审判决:将提起抗诉

上海男童被虐致死案家属回应一审判决:将提起抗诉

大象新闻
2026-04-21 12:55:03
贾跃亭发财了,到账230亿

贾跃亭发财了,到账230亿

新浪财经
2026-04-20 18:59:10
特朗普已做好开战准备?王毅曾警告:中美一旦冲突,结局只剩一个

特朗普已做好开战准备?王毅曾警告:中美一旦冲突,结局只剩一个

蜉蝣说
2026-04-21 11:23:11
今晚24点油价或大幅下调,92号汽油会降到七元时代吗?

今晚24点油价或大幅下调,92号汽油会降到七元时代吗?

卷史
2026-04-21 09:20:59
减速机订单已排到明年!人形机器人“物种爆发” 2030年全球出货量将超50万?

减速机订单已排到明年!人形机器人“物种爆发” 2030年全球出货量将超50万?

财联社
2026-04-21 07:54:05
大数据分析,在中国,找个身高1米7年入20万的老公,到底有多难?

大数据分析,在中国,找个身高1米7年入20万的老公,到底有多难?

深度报
2026-04-18 23:37:27
空军全军覆没?伊朗突亮地下底牌!美以傻眼了,就这样被骗数亿

空军全军覆没?伊朗突亮地下底牌!美以傻眼了,就这样被骗数亿

面包夹知识
2026-04-20 17:08:30
恶心!浙江新娘吐槽,18万礼金被拿走15万,结婚像给婆婆赚养老钱

恶心!浙江新娘吐槽,18万礼金被拿走15万,结婚像给婆婆赚养老钱

火山詩话
2026-04-20 08:59:19
李春江是被做掉的?杨毅曝三年前假球内幕:李楠讲义气史琳杰活该

李春江是被做掉的?杨毅曝三年前假球内幕:李楠讲义气史琳杰活该

大嘴爵爷侃球
2026-04-20 20:56:47
CBA公司给迪亚洛开出了新罚单!

CBA公司给迪亚洛开出了新罚单!

体育哲人
2026-04-21 10:02:01
斯诺克世锦赛!4月21最新赛程公布,赵心童PK丁俊晖,吴宜泽晋级

斯诺克世锦赛!4月21最新赛程公布,赵心童PK丁俊晖,吴宜泽晋级

曹说体育
2026-04-21 11:59:59
普通家庭存款到这个数,已经是天花板级别,以前不信,现在很肯定

普通家庭存款到这个数,已经是天花板级别,以前不信,现在很肯定

猫叔东山再起
2026-04-21 08:40:10
掘金丢G2弊端尽显!约基奇穆雷末节哑火,主帅7人轮换还不防三分

掘金丢G2弊端尽显!约基奇穆雷末节哑火,主帅7人轮换还不防三分

篮球资讯达人
2026-04-21 14:39:43
一”字跌停英维克最新回应

一”字跌停英维克最新回应

每日经济新闻
2026-04-21 11:44:31
郭富城结婚周年秀恩爱翻车,评论区爆笑热梗频出!句句戳他心窝

郭富城结婚周年秀恩爱翻车,评论区爆笑热梗频出!句句戳他心窝

临云史策
2026-04-21 13:48:43
周亮,被免职

周亮,被免职

新京报政事儿
2026-04-21 10:28:07
杭州湾“古斯特”要来了?极氪8S第三方设计图曝光

杭州湾“古斯特”要来了?极氪8S第三方设计图曝光

CNMO科技
2026-04-20 13:44:03
2026-04-21 15:04:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2942245文章数 6827关注度
往期回顾 全部

财经要闻

减速机订单已排到明年!

头条要闻

丈夫在海外做生意 妻子和儿子在家里充电经历惊魂一夜

头条要闻

丈夫在海外做生意 妻子和儿子在家里充电经历惊魂一夜

体育要闻

“被优化”8年后,国乒方博决定换一条路重新上场

娱乐要闻

周润发时隔16年再卖楼,变现数亿资产

科技要闻

重磅官宣:库克卸任,特努斯接任苹果CEO

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

教育
家居
健康
公开课
军事航空

教育要闻

第7课- Taking public transport and asking for direct.png

家居要闻

诗意光影 窥见自然之境

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普公开对伊开战真正原因

无障碍浏览 进入关怀版