网易首页 > 网易号 > 正文 申请入驻

华泰 | 金工:基于逐笔成交的深度学习选股模型

0
分享至

来源:市场资讯

(来源:华泰证券研究所)

本文聚焦于逐笔成交数据的信息挖掘,从资金流和事件驱动两个角度设计特征,构建基于transformer 模型的选股因子,并提出改进模型结构以提升预测能力。最终融合因子构建的中证1000增强组合,在2017年初至2025年6月底的回测期内,年化超额收益率19.92%,信息比率4.04,2025年上半年超额10.77%。

人工智能93:挖掘逐笔成交数据中的alpha

高频量价数据在量化投资中的重要性毋庸置疑。本文聚焦于逐笔成交数据的信息挖掘。由于数据量庞大,逐笔成交数据难以直接作为深度学习等选股模型的输入,需依赖特征工程提取有效信号。本文从资金流和事件驱动两个角度开展特征工程,采用深度学习模型捕捉数据规律,并提出模型优化方法,最后形成选股因子。

资金流模型:tick线、成交量线等具有时间线外的增量信息

本研究基于逐笔成交数据,构造大小单、主动买卖等资金流特征。基线模型以个股过去40日的30分钟频资金流数据作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。然而,传统时间线存在不匹配市场交易频率、时间序列统计特性差等缺陷。改进模型在时间线基础上,拓展出tick线、成交量线等增量数据,并利用transformer模型学习跨时间和跨k线的规律。实证结果表明,改进模型训练的选股因子在多项指标上均优于基线模型。样本空间为全A股,在2017年初至2025年6月底的回测期内(周频调仓),因子周度RankIC从10.17%提升至10.64%,多头年化超额收益率由20.43%提升为22.56%。

事件驱动模型:引入跨事件注意力可提升模型性能

逐笔成交数据中的重要成交事件(如大单、价格底部、价格顶部等)可能蕴含较为丰富的信息。本研究通过识别这些特殊事件,构造相应的事件特征。基线模型以个股过去40日的所有事件特征作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。改进模型则采用分层注意力机制设计,第一层transformer仍学习时序注意力,第二层transformer捕捉跨事件的交叉注意力。回测结果显示,改进模型训练得到的因子在多项指标上均优于基线模型,周度RankIC从9.94%提升至10.01%,多头年化超额收益率由20.06%提升为22.38%。

改进资金流和事件驱动因子合成的融合因子表现更佳

将改进后的资金流和事件驱动选股因子等权合成,得到逐笔成交融合因子。在2017年初至2025年6月底的回测期内(周频调仓),该融合因子周度RankIC达10.96%,多头年化超额收益率为24.52%,表现优于单一因子。基于资金流因子、事件驱动因子和融合因子构建的中证1000增强组合,在相同回测期内年化超额收益率分别为18.98%、17.24%和19.92%,信息比率分别为3.91、3.59和4.04。2025年上半年,三者的超额收益分别为5.57%、12.58%和10.77%。

正 文

01 研究导读

高频量价数据涵盖分钟k线、tick、逐笔成交、逐笔委托等类型,在量化投资中的重要性毋庸置疑。其中,逐笔成交数据作为最精细的交易明细记录,相比分钟线和tick数据具备更丰富的微观结构信息。然而,由于数据量庞大,逐笔成交数据难以直接作为深度学习等选股模型的输入,需依赖特征工程提取有效信号。

华泰金工前期报告《基于全频段量价特征的选股模型》(2023.12.8)中,利用逐笔成交数据构建了大单成交占比、主动买入占比等选股因子。本文将深入探讨逐笔成交的应用潜力,从资金流和事件驱动两个角度展开研究:

1.基于逐笔成交数据,构造大小单、主动买卖等资金流特征,并在传统时间线基础上,拓展出tick线、成交量线等增量数据,最后利用transformer模型学习跨时间和跨k线的规律,形成资金流选股因子。

2.识别逐笔成交数据中的大单、价格底部、价格顶部等重要成交事件,构造相应的事件特征,并使用transformer模型捕捉跨时间和跨事件的规律,形成事件驱动选股因子。


研究发现,改进后的资金流和事件驱动选股因子合成的融合因子展现出较好的选股效果,该因子的周频调仓回测表现如下。



02 基于资金流的选股模型

逐笔成交数据作为市场微观结构的核心载体,记录了成交时间、成交量、成交价格、成交金额、买方卖方编号、买卖方向标志等关键交易细节。本章将据此构造资金流特征,并运用深度学习优化选股模型。


基线模型

本研究首先采用传统时间线(timebar)采样方法,将每个交易日的逐笔成交数据划分为8个30分钟等长区间,从中提取每根k线的价格、成交量、主动买卖量、大小单成交量等特征,具体特征定义如下。


基线模型以个股过去40日的30分钟频资金流数据作为输入。为了使输入数据的分布具有较高的一致性,保证模型训练的稳定,原始特征需进行时序和截面标准化。标准化后的数据通过常见的transformer模型,学习时序注意力,最终输出未来10日超额收益的预测。


改进模型

德普拉多在《金融机器学习》中提到,尽管时间线在行业内和学术界应用最为广泛,但可能存在两个问题:(1)市场并不会以恒定的时间间隔对信息进行处理,比如开盘后的活跃度远远高于其他时刻;(2)时间采样序列的统计学特性极差,如序列相关性、异方差性等。

为突破时间线的限制,提高对逐笔成交数据的表征能力,本研究拓展出tick线(tickbar)、成交量线(volumebar)等多种类型的k线,具体定义如下。每类k线的资金流特征定义与图表6保持一致。


下图展示了不同k线的收盘价与成交量对比,不难看出数据具有一定的差异性。


改进模型以个股过去40日的不同类型k线的资金流数据作为输入,先通过第一层transformer学习时序注意力,再通过第二层transformer学习跨k线注意力,预测目标仍为未来10日超额收益。



因子测试

为了减轻随机性干扰,本文的深度学习模型都用不同随机数种子训练三次,将三次的模型等权集成,作为最终的因子信号进行回测。因子测试方法如下:

1.股票池:全A股,剔除ST股票,剔除每个截面期下一交易日停牌、涨停的股票。

2.回测区间:2017/1/1~2025/6/30。

3.调仓周期:周频,不计交易费用。

4.测试方法:IC值分析,因子分10层测试。

测试结果表明,改进模型在RankIC均值、RankICIR、TOP组合超额收益率、TOP组合信息比率、TOP组合胜率、TOP组合换手率等多项指标上表现均优于基线模型,且RankIC和多头收益的优势在近几年更为突出,说明多类型k线能够在传统时间线基础上贡献增量信息。




03 基于事件驱动的选股模型

逐笔成交数据中的重要成交事件可能蕴含较为丰富的信息。本章将构造事件驱动特征,并运用深度学习优化选股模型。

基线模型

本研究根据逐笔成交数据,识别出大单、价格顶部、价格底部等多类重要事件,具体事件定义如下。


针对每类事件,构造多维特征指标,以捕捉市场参与者的异常交易行为,特征定义如下。


为了保证模型训练的稳定性,首先需要对特征进行预处理,包括中位数去极值、行业市值中性化、截面z-score标准化、缺失值填充等。基线模型以个股过去40日的所有事件特征作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。


改进模型

基线模型虽然能捕捉事件的时间演变规律,但忽略了不同类型事件之间的内在关联。为突破这一局限,改进模型采用分层注意力机制设计,第一层transformer仍学习时序注意力,第二层transformer捕捉跨事件的交叉注意力。



因子测试

改进模型在RankIC均值、TOP组合超额收益率、TOP组合信息比率、TOP组合胜率表现均优于基线模型,说明引入跨事件注意力能够提升模型预测性能。




04 逐笔成交融合因子与指数增强

逐笔成交融合因子

将改进后的资金流和事件驱动选股因子等权合成,得到逐笔成交融合因子。回测结果表明,融合因子在RankIC均值、RankICIR、RankIC>0占比、TOP组合超额收益率、TOP组合信息比率等指标上均有提升,同时TOP组合换手率有所下降。



因子相关性分析

相关性分析显示,资金流因子与事件驱动因子相关性为0.66,说明两者存在信息互补。此外融合因子呈现反转、低流动性、高beta、低估值等风格暴露。


指数增强

分别使用改进后的资金流因子、事件驱动因子和融合因子,构建中证1000指数增强组合,测试方法如下表。为降低调仓时点选择带来的偏差,对每个因子采用相邻5个交易日作为调仓起始日,构建5条独立调仓路径的组合,最终取回测结果的均值。这种方法类似于日频调仓,但总换手率基本保持不变。


在2017年初至2025年6月底的回测期内,基于资金流因子、事件驱动因子和融合因子构建的中证1000增强组合,在相同回测期内年化超额收益率分别为18.98%、17.24%和19.92%,信息比率分别为3.91、3.59和4.04,融合因子优于单一因子构建的组合。2025年上半年,三者的超额收益分别为5.57%、12.58%和10.77%。




05 总结

高频量价数据在量化投资中的重要性毋庸置疑。本文聚焦于逐笔成交数据的信息挖掘。由于数据量庞大,逐笔成交数据难以直接作为深度学习等选股模型的输入,需依赖特征工程提取有效信号。本文从资金流和事件驱动两个角度开展特征工程,采用深度学习模型捕捉数据规律,并提出模型优化方法,最后形成选股因子。

资金流模型:tick线、成交量线等具有时间线外的增量信息。本研究基于逐笔成交数据,构造大小单、主动买卖等资金流特征。基线模型以个股过去40日的30分钟频资金流数据作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。然而,传统时间线存在不匹配市场交易频率、时间序列统计特性差等缺陷。改进模型在时间线基础上,拓展出tick线、成交量线等增量数据,并利用transformer模型学习跨时间和跨k线的规律。实证结果表明,改进模型训练的选股因子在多项指标上均优于基线模型。样本空间为全A股,在2017年初至2025年6月底的回测期内(周频调仓),因子周度RankIC从10.17%提升至10.64%,多头年化超额收益率由20.43%提升为22.56%。

事件驱动模型:引入跨事件注意力可提升模型性能。逐笔成交数据中的重要成交事件(如大单、价格底部、价格顶部等)可能蕴含较为丰富的信息。本研究通过识别这些特殊事件,构造相应的事件特征。基线模型以个股过去40日的所有事件特征作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。改进模型则采用分层注意力机制设计,第一层transformer仍学习时序注意力,第二层transformer捕捉跨事件的交叉注意力。回测结果显示,改进模型训练得到的因子在多项指标上均优于基线模型,周度RankIC从9.94%提升至10.01%,多头年化超额收益率由20.06%提升为22.38%。

改进资金流和事件驱动因子合成的融合因子表现更佳。将改进后的资金流和事件驱动选股因子等权合成,得到逐笔成交融合因子。在2017年初至2025年6月底的回测期内(周频调仓),该融合因子周度RankIC达10.96%,多头年化超额收益率为24.52%,表现优于单一因子。基于资金流因子、事件驱动因子和融合因子构建的中证1000增强组合,在相同回测期内年化超额收益率分别为18.98%、17.24%和19.92%,信息比率分别为3.91、3.59和4.04。2025年上半年,三者的超额收益分别为5.57%、12.58%和10.77%。

风险提示:

基于逐笔成交数据的选股模型对市场微观结构的依赖较强,未来市场变化可能导致模型失效。Transformer架构的复杂性可能增加训练和推理时间,并带来过拟合风险。本报告不涉及标的推荐。

参考文献:

[1]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[2] De Prado M L. Advances in financial machine learning[M]. John Wiley & Sons, 2018.

研报:《基于逐笔成交的深度学习选股模型》2025年7月14日

研究员:林晓明 S0570516010001|BPY421

研究员:何 康 S0570520080004|BRB318

联系人:卢 炯 S0570123070272

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
闲鱼不愧是全国最大的黑市,网民:只有你想不到,没有你买不到

闲鱼不愧是全国最大的黑市,网民:只有你想不到,没有你买不到

小熊侃史
2026-01-16 07:40:07
聂卫平离世!3任妻子3个娃,第二任是王刚妹妹,现任小他23岁

聂卫平离世!3任妻子3个娃,第二任是王刚妹妹,现任小他23岁

叶公子
2026-01-16 14:43:14
从11000例手术到强制腾退:嫣然天使儿童医院困境揭示明星公益沉疴

从11000例手术到强制腾退:嫣然天使儿童医院困境揭示明星公益沉疴

看看新闻Knews
2026-01-16 12:37:21
特朗普折腾了一整年,立下“大功一件”:亲手帮“中国再次伟大”

特朗普折腾了一整年,立下“大功一件”:亲手帮“中国再次伟大”

博览历史
2026-01-16 11:31:40
还是得认命!75岁意外摔倒、分不清人的刘晓庆,终要败在年龄上了

还是得认命!75岁意外摔倒、分不清人的刘晓庆,终要败在年龄上了

甜柠聊史
2025-12-03 15:14:30
每件行李收费68元起,“空手坐高铁”服务试点扩大至111个车站

每件行李收费68元起,“空手坐高铁”服务试点扩大至111个车站

界面新闻
2026-01-16 17:05:45
开年大瓜!国产女优上岸成功嫁为人妻,拍短视频后遭恶语相向

开年大瓜!国产女优上岸成功嫁为人妻,拍短视频后遭恶语相向

社会酱
2026-01-16 16:54:49
贺娇龙追悼会举行!丈夫心碎送别妻子,主编透露坠马真实原因

贺娇龙追悼会举行!丈夫心碎送别妻子,主编透露坠马真实原因

180视角
2026-01-16 15:04:46
江西一狱警被蒙面男子当街捅死,凶手:你知道这6年我怎么过的吗

江西一狱警被蒙面男子当街捅死,凶手:你知道这6年我怎么过的吗

万年历史老号
2026-01-15 01:55:52
涉中国电动汽车,卡尼宣布大消息

涉中国电动汽车,卡尼宣布大消息

环球时报国际
2026-01-16 18:27:32
中国是大号朝鲜吗?

中国是大号朝鲜吗?

特例的猫
2026-01-16 19:44:18
47岁贺娇龙去世后续!好友曝其婚姻现状,三任老公都离了,没孩子

47岁贺娇龙去世后续!好友曝其婚姻现状,三任老公都离了,没孩子

180视角
2026-01-15 13:33:23
官方披露!马杜罗瑞士个人账户坐拥127吨黄金

官方披露!马杜罗瑞士个人账户坐拥127吨黄金

难得君
2026-01-16 13:43:31
日本队晋级半决赛!3届连入4强,逆转战胜约旦,点球决战险胜

日本队晋级半决赛!3届连入4强,逆转战胜约旦,点球决战险胜

奥拜尔
2026-01-16 22:21:35
独家专访柬埔寨副首相孙占托:柬埔寨从未说过不再接受来自中国的投资

独家专访柬埔寨副首相孙占托:柬埔寨从未说过不再接受来自中国的投资

国是直通车
2026-01-16 21:21:02
河南一6岁女童发烧17天,脑子被“啃”出十几个洞,医生:孩子在潮湿环境中玩耍后,霉菌“爬”进脑子

河南一6岁女童发烧17天,脑子被“啃”出十几个洞,医生:孩子在潮湿环境中玩耍后,霉菌“爬”进脑子

大风新闻
2026-01-16 15:36:16
美军一架F-35A战斗机在日本近海消失,曾发出紧急情况“7700”代码

美军一架F-35A战斗机在日本近海消失,曾发出紧急情况“7700”代码

鲁中晨报
2026-01-16 18:59:03
深圳35岁孕妇患有心脏病,执意拼二胎生子!最后剖宫产下600克极早产女婴……

深圳35岁孕妇患有心脏病,执意拼二胎生子!最后剖宫产下600克极早产女婴……

环球网资讯
2026-01-16 15:57:38
水贝现“白银大劫案”:涉案金额超千万,“老板没跑但确实交不出钱和货”

水贝现“白银大劫案”:涉案金额超千万,“老板没跑但确实交不出钱和货”

蓝鲸新闻
2026-01-15 21:54:10
中方禁令下达后,高市早苗终于开口,说了一句话,让西方不寒而栗

中方禁令下达后,高市早苗终于开口,说了一句话,让西方不寒而栗

空天力量
2026-01-16 13:11:47
2026-01-17 00:27:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057588文章数 5282关注度
往期回顾 全部

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

头条要闻

罗永浩、贾国龙微博账号均被禁言

头条要闻

罗永浩、贾国龙微博账号均被禁言

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

健康
艺术
游戏
教育
军事航空

血常规3项异常,是身体警报!

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

《人中之龙 极3/人中之龙3 外传 Dark Ties》制作人专访"/> 主站 商城 论坛 自运营 登录 注册 《人中之龙 极3/人中之龙3 外传 Da...

教育要闻

寒假指南|你的国美寒假生活一站式指南,请查收!

军事要闻

欧洲多国向格陵兰岛派遣军事人员 白宫回应

无障碍浏览 进入关怀版