网易首页 > 网易号 > 正文 申请入驻

华泰 | 金工:基于逐笔成交的深度学习选股模型

0
分享至

来源:市场资讯

(来源:华泰证券研究所)

本文聚焦于逐笔成交数据的信息挖掘,从资金流和事件驱动两个角度设计特征,构建基于transformer 模型的选股因子,并提出改进模型结构以提升预测能力。最终融合因子构建的中证1000增强组合,在2017年初至2025年6月底的回测期内,年化超额收益率19.92%,信息比率4.04,2025年上半年超额10.77%。

人工智能93:挖掘逐笔成交数据中的alpha

高频量价数据在量化投资中的重要性毋庸置疑。本文聚焦于逐笔成交数据的信息挖掘。由于数据量庞大,逐笔成交数据难以直接作为深度学习等选股模型的输入,需依赖特征工程提取有效信号。本文从资金流和事件驱动两个角度开展特征工程,采用深度学习模型捕捉数据规律,并提出模型优化方法,最后形成选股因子。

资金流模型:tick线、成交量线等具有时间线外的增量信息

本研究基于逐笔成交数据,构造大小单、主动买卖等资金流特征。基线模型以个股过去40日的30分钟频资金流数据作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。然而,传统时间线存在不匹配市场交易频率、时间序列统计特性差等缺陷。改进模型在时间线基础上,拓展出tick线、成交量线等增量数据,并利用transformer模型学习跨时间和跨k线的规律。实证结果表明,改进模型训练的选股因子在多项指标上均优于基线模型。样本空间为全A股,在2017年初至2025年6月底的回测期内(周频调仓),因子周度RankIC从10.17%提升至10.64%,多头年化超额收益率由20.43%提升为22.56%。

事件驱动模型:引入跨事件注意力可提升模型性能

逐笔成交数据中的重要成交事件(如大单、价格底部、价格顶部等)可能蕴含较为丰富的信息。本研究通过识别这些特殊事件,构造相应的事件特征。基线模型以个股过去40日的所有事件特征作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。改进模型则采用分层注意力机制设计,第一层transformer仍学习时序注意力,第二层transformer捕捉跨事件的交叉注意力。回测结果显示,改进模型训练得到的因子在多项指标上均优于基线模型,周度RankIC从9.94%提升至10.01%,多头年化超额收益率由20.06%提升为22.38%。

改进资金流和事件驱动因子合成的融合因子表现更佳

将改进后的资金流和事件驱动选股因子等权合成,得到逐笔成交融合因子。在2017年初至2025年6月底的回测期内(周频调仓),该融合因子周度RankIC达10.96%,多头年化超额收益率为24.52%,表现优于单一因子。基于资金流因子、事件驱动因子和融合因子构建的中证1000增强组合,在相同回测期内年化超额收益率分别为18.98%、17.24%和19.92%,信息比率分别为3.91、3.59和4.04。2025年上半年,三者的超额收益分别为5.57%、12.58%和10.77%。

正 文

01 研究导读

高频量价数据涵盖分钟k线、tick、逐笔成交、逐笔委托等类型,在量化投资中的重要性毋庸置疑。其中,逐笔成交数据作为最精细的交易明细记录,相比分钟线和tick数据具备更丰富的微观结构信息。然而,由于数据量庞大,逐笔成交数据难以直接作为深度学习等选股模型的输入,需依赖特征工程提取有效信号。

华泰金工前期报告《基于全频段量价特征的选股模型》(2023.12.8)中,利用逐笔成交数据构建了大单成交占比、主动买入占比等选股因子。本文将深入探讨逐笔成交的应用潜力,从资金流和事件驱动两个角度展开研究:

1.基于逐笔成交数据,构造大小单、主动买卖等资金流特征,并在传统时间线基础上,拓展出tick线、成交量线等增量数据,最后利用transformer模型学习跨时间和跨k线的规律,形成资金流选股因子。

2.识别逐笔成交数据中的大单、价格底部、价格顶部等重要成交事件,构造相应的事件特征,并使用transformer模型捕捉跨时间和跨事件的规律,形成事件驱动选股因子。


研究发现,改进后的资金流和事件驱动选股因子合成的融合因子展现出较好的选股效果,该因子的周频调仓回测表现如下。



02 基于资金流的选股模型

逐笔成交数据作为市场微观结构的核心载体,记录了成交时间、成交量、成交价格、成交金额、买方卖方编号、买卖方向标志等关键交易细节。本章将据此构造资金流特征,并运用深度学习优化选股模型。


基线模型

本研究首先采用传统时间线(timebar)采样方法,将每个交易日的逐笔成交数据划分为8个30分钟等长区间,从中提取每根k线的价格、成交量、主动买卖量、大小单成交量等特征,具体特征定义如下。


基线模型以个股过去40日的30分钟频资金流数据作为输入。为了使输入数据的分布具有较高的一致性,保证模型训练的稳定,原始特征需进行时序和截面标准化。标准化后的数据通过常见的transformer模型,学习时序注意力,最终输出未来10日超额收益的预测。


改进模型

德普拉多在《金融机器学习》中提到,尽管时间线在行业内和学术界应用最为广泛,但可能存在两个问题:(1)市场并不会以恒定的时间间隔对信息进行处理,比如开盘后的活跃度远远高于其他时刻;(2)时间采样序列的统计学特性极差,如序列相关性、异方差性等。

为突破时间线的限制,提高对逐笔成交数据的表征能力,本研究拓展出tick线(tickbar)、成交量线(volumebar)等多种类型的k线,具体定义如下。每类k线的资金流特征定义与图表6保持一致。


下图展示了不同k线的收盘价与成交量对比,不难看出数据具有一定的差异性。


改进模型以个股过去40日的不同类型k线的资金流数据作为输入,先通过第一层transformer学习时序注意力,再通过第二层transformer学习跨k线注意力,预测目标仍为未来10日超额收益。



因子测试

为了减轻随机性干扰,本文的深度学习模型都用不同随机数种子训练三次,将三次的模型等权集成,作为最终的因子信号进行回测。因子测试方法如下:

1.股票池:全A股,剔除ST股票,剔除每个截面期下一交易日停牌、涨停的股票。

2.回测区间:2017/1/1~2025/6/30。

3.调仓周期:周频,不计交易费用。

4.测试方法:IC值分析,因子分10层测试。

测试结果表明,改进模型在RankIC均值、RankICIR、TOP组合超额收益率、TOP组合信息比率、TOP组合胜率、TOP组合换手率等多项指标上表现均优于基线模型,且RankIC和多头收益的优势在近几年更为突出,说明多类型k线能够在传统时间线基础上贡献增量信息。




03 基于事件驱动的选股模型

逐笔成交数据中的重要成交事件可能蕴含较为丰富的信息。本章将构造事件驱动特征,并运用深度学习优化选股模型。

基线模型

本研究根据逐笔成交数据,识别出大单、价格顶部、价格底部等多类重要事件,具体事件定义如下。


针对每类事件,构造多维特征指标,以捕捉市场参与者的异常交易行为,特征定义如下。


为了保证模型训练的稳定性,首先需要对特征进行预处理,包括中位数去极值、行业市值中性化、截面z-score标准化、缺失值填充等。基线模型以个股过去40日的所有事件特征作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。


改进模型

基线模型虽然能捕捉事件的时间演变规律,但忽略了不同类型事件之间的内在关联。为突破这一局限,改进模型采用分层注意力机制设计,第一层transformer仍学习时序注意力,第二层transformer捕捉跨事件的交叉注意力。



因子测试

改进模型在RankIC均值、TOP组合超额收益率、TOP组合信息比率、TOP组合胜率表现均优于基线模型,说明引入跨事件注意力能够提升模型预测性能。




04 逐笔成交融合因子与指数增强

逐笔成交融合因子

将改进后的资金流和事件驱动选股因子等权合成,得到逐笔成交融合因子。回测结果表明,融合因子在RankIC均值、RankICIR、RankIC>0占比、TOP组合超额收益率、TOP组合信息比率等指标上均有提升,同时TOP组合换手率有所下降。



因子相关性分析

相关性分析显示,资金流因子与事件驱动因子相关性为0.66,说明两者存在信息互补。此外融合因子呈现反转、低流动性、高beta、低估值等风格暴露。


指数增强

分别使用改进后的资金流因子、事件驱动因子和融合因子,构建中证1000指数增强组合,测试方法如下表。为降低调仓时点选择带来的偏差,对每个因子采用相邻5个交易日作为调仓起始日,构建5条独立调仓路径的组合,最终取回测结果的均值。这种方法类似于日频调仓,但总换手率基本保持不变。


在2017年初至2025年6月底的回测期内,基于资金流因子、事件驱动因子和融合因子构建的中证1000增强组合,在相同回测期内年化超额收益率分别为18.98%、17.24%和19.92%,信息比率分别为3.91、3.59和4.04,融合因子优于单一因子构建的组合。2025年上半年,三者的超额收益分别为5.57%、12.58%和10.77%。




05 总结

高频量价数据在量化投资中的重要性毋庸置疑。本文聚焦于逐笔成交数据的信息挖掘。由于数据量庞大,逐笔成交数据难以直接作为深度学习等选股模型的输入,需依赖特征工程提取有效信号。本文从资金流和事件驱动两个角度开展特征工程,采用深度学习模型捕捉数据规律,并提出模型优化方法,最后形成选股因子。

资金流模型:tick线、成交量线等具有时间线外的增量信息。本研究基于逐笔成交数据,构造大小单、主动买卖等资金流特征。基线模型以个股过去40日的30分钟频资金流数据作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。然而,传统时间线存在不匹配市场交易频率、时间序列统计特性差等缺陷。改进模型在时间线基础上,拓展出tick线、成交量线等增量数据,并利用transformer模型学习跨时间和跨k线的规律。实证结果表明,改进模型训练的选股因子在多项指标上均优于基线模型。样本空间为全A股,在2017年初至2025年6月底的回测期内(周频调仓),因子周度RankIC从10.17%提升至10.64%,多头年化超额收益率由20.43%提升为22.56%。

事件驱动模型:引入跨事件注意力可提升模型性能。逐笔成交数据中的重要成交事件(如大单、价格底部、价格顶部等)可能蕴含较为丰富的信息。本研究通过识别这些特殊事件,构造相应的事件特征。基线模型以个股过去40日的所有事件特征作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。改进模型则采用分层注意力机制设计,第一层transformer仍学习时序注意力,第二层transformer捕捉跨事件的交叉注意力。回测结果显示,改进模型训练得到的因子在多项指标上均优于基线模型,周度RankIC从9.94%提升至10.01%,多头年化超额收益率由20.06%提升为22.38%。

改进资金流和事件驱动因子合成的融合因子表现更佳。将改进后的资金流和事件驱动选股因子等权合成,得到逐笔成交融合因子。在2017年初至2025年6月底的回测期内(周频调仓),该融合因子周度RankIC达10.96%,多头年化超额收益率为24.52%,表现优于单一因子。基于资金流因子、事件驱动因子和融合因子构建的中证1000增强组合,在相同回测期内年化超额收益率分别为18.98%、17.24%和19.92%,信息比率分别为3.91、3.59和4.04。2025年上半年,三者的超额收益分别为5.57%、12.58%和10.77%。

风险提示:

基于逐笔成交数据的选股模型对市场微观结构的依赖较强,未来市场变化可能导致模型失效。Transformer架构的复杂性可能增加训练和推理时间,并带来过拟合风险。本报告不涉及标的推荐。

参考文献:

[1]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[2] De Prado M L. Advances in financial machine learning[M]. John Wiley & Sons, 2018.

研报:《基于逐笔成交的深度学习选股模型》2025年7月14日

研究员:林晓明 S0570516010001|BPY421

研究员:何 康 S0570520080004|BRB318

联系人:卢 炯 S0570123070272

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吴敬中死前对余则成说:"在天津找穿蓝旗袍的女人,她知道你身份"

吴敬中死前对余则成说:"在天津找穿蓝旗袍的女人,她知道你身份"

饭小妹说历史
2025-12-16 16:38:39
AI的尽头是电力,变压器概念股活跃,电网设备ETF(159326)规模创新高

AI的尽头是电力,变压器概念股活跃,电网设备ETF(159326)规模创新高

证券之星
2026-01-15 14:09:09
人民日报点名批评,这类主播将被严厉打击,乱象已经存在多年

人民日报点名批评,这类主播将被严厉打击,乱象已经存在多年

新游戏大妹子
2026-01-14 13:07:41
内地第一美人,也塌房了

内地第一美人,也塌房了

独立鱼
2026-01-14 22:30:16
女子因肺栓塞不幸走了!医生:天冷宁愿躺一天,也别干这5事!

女子因肺栓塞不幸走了!医生:天冷宁愿躺一天,也别干这5事!

健康之光
2026-01-13 10:54:55
华国锋退下来了,组织专门找到他的秘书,诚恳让其自己挑前途~

华国锋退下来了,组织专门找到他的秘书,诚恳让其自己挑前途~

鹤羽说个事
2026-01-14 15:22:18
“死了么”APP突然下架,“活着么”“报平安”等大量同类产品涌现

“死了么”APP突然下架,“活着么”“报平安”等大量同类产品涌现

界面新闻
2026-01-15 20:38:09
番禺宜家闭店清仓,现场堪比行花街

番禺宜家闭店清仓,现场堪比行花街

新快报新闻
2026-01-15 18:03:03
中央定调!退休新规实施,公务员和事业编制,能够申请延迟退休吗

中央定调!退休新规实施,公务员和事业编制,能够申请延迟退休吗

史行途
2026-01-15 16:42:38
人要坏成什么样子,才能做出这等丧尽天良的事!

人要坏成什么样子,才能做出这等丧尽天良的事!

胖胖说他不胖
2026-01-14 13:31:12
韩媒:这就是韩国足球的悲惨现实,中国队已不再惧怕正面交锋

韩媒:这就是韩国足球的悲惨现实,中国队已不再惧怕正面交锋

足球大腕
2026-01-15 16:10:11
紫牛头条|洞庭芦苇中设大型镜面疑有鸟撞风险,设计者公开道歉,主办方:立即拆除

紫牛头条|洞庭芦苇中设大型镜面疑有鸟撞风险,设计者公开道歉,主办方:立即拆除

扬子晚报
2026-01-15 22:41:34
男童骑车遭混凝土罐车碾轧致死,昆明警方:司机涉多重违规,且在禁行道路行驶

男童骑车遭混凝土罐车碾轧致死,昆明警方:司机涉多重违规,且在禁行道路行驶

澎湃新闻
2026-01-15 20:56:29
突发!美国将在24小时内袭击伊朗,俄罗斯又一个小弟将改头换面

突发!美国将在24小时内袭击伊朗,俄罗斯又一个小弟将改头换面

我心纵横天地间
2026-01-15 16:35:45
湖人出手了!库明加申请交易!勇士生涯倒计时

湖人出手了!库明加申请交易!勇士生涯倒计时

篮球教学论坛
2026-01-16 00:24:27
近期,油管上出现一个时长高达140年的视频引热议

近期,油管上出现一个时长高达140年的视频引热议

随波荡漾的漂流瓶
2026-01-14 19:08:36
安东尼奥:对中国足球定位要现实;我们能在赛会制抗衡任何队

安东尼奥:对中国足球定位要现实;我们能在赛会制抗衡任何队

懂球帝
2026-01-15 21:59:40
乌克兰女孩嫁我家4年,回娘家我塞了3万欧元,打开行李箱后我愣了

乌克兰女孩嫁我家4年,回娘家我塞了3万欧元,打开行李箱后我愣了

星宇共鸣
2026-01-13 09:23:08
沉寂24小时后,特朗普乖乖放人了,中国军舰出动,传递了哪些信号

沉寂24小时后,特朗普乖乖放人了,中国军舰出动,传递了哪些信号

书纪文谭
2026-01-16 00:07:24
贺娇龙遗体已回到新疆昭苏!生前“策马雪原”带动当地文旅

贺娇龙遗体已回到新疆昭苏!生前“策马雪原”带动当地文旅

南方都市报
2026-01-15 10:50:06
2026-01-16 00:55:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2047921文章数 5267关注度
往期回顾 全部

财经要闻

央行再次结构性降息0.25个百分点

头条要闻

柬埔寨副首相放话:特朗普让我们醒悟 不能只依靠中国

头条要闻

柬埔寨副首相放话:特朗普让我们醒悟 不能只依靠中国

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

科技要闻

阿里最狠的一次“自我革命”

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

游戏
艺术
健康
教育
军事航空

《最终幻想7》PS5和PC版也将迎来“简化进度”功能

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

血常规3项异常,是身体警报!

教育要闻

突发!美国官宣对75个国家暂停签发所有签证,东南亚多国榜上有名

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版