来源:市场资讯
(来源:留富兵法)
![]()
研究摘要
逐笔羊群效应因子簇的构建:因子构建的具体流程,围绕事件识别、因子定义、数据频率这3个关键因素展开。由于本文因子都是基于原始的逐笔数据构建,因此无需对“数据频率”进行过多讨论,我们重点讨论了“事件识别”、“因子定义”这2个因素:
(1)事件识别:通过观测逐笔委托、逐笔成交数据的流动性冲击事件,对“趋势资金是否行动”进行识别。特别地,在逐笔挂单数据层面,我们引入了“激进程度”这一概念。
(2)因子定义:在事件发生后,考察未来一段窗口内的量价特征,包括各种维度的委托量、成交量、关键量价数据发生的间隔、各种维度的不平衡指标、量价相关性,这些指标既可以是其本身数值,也可以是与趋势资金事件点量价数据的相互关系,也可以是与趋势资金事件发生之前量价数据的相互关系。
因子的批量生产与筛选:通过多种事件识别、因子定义方法的互相搭配,本文一共构建了约2万个逐笔羊群效应因子,保留其中效果最优且相关性较低的50个因子,称之为“逐笔羊群效应因子簇”。回测结果显示,50个逐笔羊群效应因子的年化ICIR绝对值都能达到2以上。
逐笔羊群效应综合因子:在“逐笔羊群效应因子簇”中选取样本内信息比率最高的10个因子、等权合成,得到逐笔羊群效应综合因子。回测期2016/01/01-2025/10/31内,在全体A股中,逐笔羊群效应综合因子的月度RankIC均值为0.101,年化RankICIR为3.74;10分组多空对冲的年化收益为44.26%,信息比率为4.06,月度胜率为89.74%,最大回撤为10.66%。在剔除了市场常用风格和行业的影响后,纯净因子仍然有效,年化ICIR达到3.33。
指数增强组合的表现:基于逐笔羊群效应综合因子,构建月频调仓的指数增强组合:(1)沪深300指数增强组合的超额年化收益为8.89%,跟踪误差为3.50%,信息比率为2.54,月度胜率为77.78%,最大回撤为2.96%;(2)中证500指数增强组合的超额年化收益为13.46%,跟踪误差为5.31%,信息比率为2.54,月度胜率为79.49%,最大回撤为5.15%;(3)中证1000指数增强组合的超额年化收益为17.23%,跟踪误差为4.78%,信息比率为3.61,月度胜率为84.62%,最大回撤为4.14%。
风险提示:以上结论均基于历史数据和统计模型的测算,如果未来市场环境发生明显改变,不排除模型失效的可能性。
报告原文下载链接:
https://pan.baidu.com/s/1td84ms4kj5EPDmqvAjo25A
提取码: gcan
1. 前言
随着市场竞争的加剧,传统策略越来越难以获得显著的Alpha,现有模型和因子的有效性在快速衰减;另一方面,靠人力挖掘Alpha新因子的难度也越来越大,需要持续投入大量资源,维持获取超额收益的能力。
因此,如何系统性、快速、批量挖掘Alpha新因子,对传统模型进行迭代,就成为一项至关重要的技术。在此背景下,国盛金工推出“因子生产加速”相关研究,尝试在数据存储、因子计算、因子构建框架等各个层面做出努力,提升因子的生产效率。
![]()
一年前,在“量价淘金”选股因子系列研究的专题报告《Memory Map在因子生产加速上的应用——以构建羊群效应因子簇为例》中,我们首次提出了“因子簇”的研究理念,即对于某一研究想法,在不修改因子构建参数、不做算子自由组合的前提下,遍历所有底层逻辑层面的可能性,多维度、多视角地刻画同一交易行为,再辅以因子生产技术层面的提升,系统性、批量、快速生产选股因子,最终通过有效性、相关性的检验和筛选,留下一些有效且相对低相关的因子,称之为这一研究想法对应的因子簇。
基于“因子簇”的研究理念,近一年来,我们展开了诸多因子研究的工作。在以往研究中,我们将逐笔成交、逐笔委托数据进行降频处理,构建了各种各样的分钟特征,然后利用这些分钟特征进行大规模的因子挖掘。但在前期报告《“高频数据+离散化构建方式”在因子研究中的重要性》中,我们发现基于分钟数据构建的因子,哪怕构建过程用到了比较另类的离散化定义,最终得到的因子增量信息也在快速衰减。因此我们提出,未来量价因子的研究,想要获取更多的、与现有因子低相关的增量,直接“在逐笔数据层面进行离散化的因子构建”至关重要。
本篇报告就从一个具体案例出发,展示如何将离散化的因子定义应用在原始的逐笔数据上,挖掘一簇有效因子。具体地,由于我们之前曾研究过分钟数据层面的羊群效应因子,本篇报告就继续顺着“羊群效应”的研究思路,探讨在逐笔委托、逐笔成交数据层面,如何构建羊群效应因子簇。
2. 分钟羊群效应因子簇回顾
2.1因子构建的体系化思路
在专题报告《Memory Map在因子生产加速上的应用——以构建羊群效应因子簇为例》中,我们将事件研究的想法,融入到选股因子的构建中,在分钟数据维度上、挖掘了一批羊群效应因子。本节内容对分钟羊群效应因子簇的构建做简要回顾。
所谓“羊群效应”,即关注市场中的重要资金(即报告中定义的“趋势资金”)行动之后、其跟随者的交易行为。基于上述逻辑,我们从事件识别、因子定义和数据频率这3个关键因素出发,构建因子:
(1)事件识别:如何识别趋势资金的行动。此处提到的“趋势资金”只是一个笼统的称谓,是想寻找当下对股价可能产生重要影响的交易群体,或许是机构投资者、也或许是个人投资者,可以很直观、也可以非常模糊,我们并不在乎其是否能明确落实到某一类特定的投资者身上。趋势资金存在多种代理变量,比如我们可以通过观测成交量、价格涨跌幅、价格波动率、量价相关性是否发生异常变化,对趋势资金是否行动进行判断,得到上千种不同的识别方式。
(2)因子定义:如何刻画羊群效应的强弱。这一因素中,我们主要考察趋势资金行动的时间点后,紧跟着的一些量价特征,比如价格、成交量、价量相关性、大小单资金流、主买单、主卖单等等,这些指标既可以是其本身的数值,也可以是与趋势资金对应时间点相比的变化,也可以是与趋势资金这个事件发生之前相比的变化。在原报告中,我们提出了上千种不同的因子构造方式。
(3)数据频率:在何种数据频率上识别事件、定义因子。可用的数据集包括日频数据、分钟数据、逐笔数据、用逐笔数据合成的其他不同频率的数据集等等,不同频率提取到的信息可能存在较大差异,我们可以在不同数据维度上识别趋势资金的行动、考察跟随者的交易行为。在原报告中,我们在1分钟数据集上讨论羊群效应。
![]()
2.2 因子的筛选与表现
考虑到实际因素,我们对事件识别、因子定义方法做了精简,一共构建了约50万个羊群效应因子,并通过2016-2018年、2019-2021年的两轮筛选,保留其中效果最优且相关性较低的50个因子,称之为“分钟羊群效应因子簇”。原报告的回测结果表明,50个羊群效应因子的年化ICIR绝对值都能达到2以上。
为了展示综合因子的表现,我们在“分钟羊群效应因子簇”中选取样本内(2016-2021年)信息比率最高的10个因子、等权合成,得到分钟羊群效应综合因子。回测结果显示,2016/01/01-2025/10/31,在全体A股中,分钟羊群效应综合因子的月度IC均值为0.085,年化ICIR为3.18,月度RankIC均值为0.116,年化RankICIR为4.10;10分组多空对冲的年化收益为41.59%,年化波动为12.56%,信息比率为3.31,月度胜率为82.91%,最大回撤为10.06%。
![]()
3. 逐笔羊群效应因子簇的构建
类似于分钟羊群效应因子的构建流程,我们在利用逐笔数据构建羊群效应因子时,同样围绕事件识别、因子定义、数据频率这3个关键因素展开。其中,“数据频率”没有过多需要额外讨论的内容,本篇报告的因子都是基于原始的逐笔数据构建,因此本节内容重点讨论“事件识别”、“因子定义”这2个因素。
3.1 事件识别:趋势资金是否行动
在逐笔等非常微观的层面,波动率、量价相关性发生异常等事件往往难以被直接感知,反而是一些对订单簿的挂单量、价格产生影响的流动性冲击订单,往往更容易受到市场交易者的关注。因此在逐笔层面,我们重点关注可能会导致订单簿结构发生变化的流动性冲击订单,通过识别这些异常订单来定义趋势资金是否行动。
接下来,我们分别根据逐笔成交、逐笔委托这两类数据,详细论述如何识别流动性事件的发生。
3.1.1 基于逐笔委托数据的流动性事件
对于逐笔委托数据,我们认为若某一委托单(挂单或撤单)的委托量较大,那么该委托单更容易引起市场参与者的注意。因此,我们先给出4种简单的流动性事件识别方式:
(1)某只股票的某笔买入挂单量大于当日该股所有买入挂单量的90%分位数;
(2)某只股票的某笔卖出挂单量大于当日该股所有卖出挂单量的90%分位数;
(3)某只股票的某笔买入撤单量大于当日该股所有买入撤单量的90%分位数;
(4)某只股票的某笔卖出撤单量大于当日该股所有卖出撤单量的90%分位数。
上述流动性事件的定义较为简单,只考虑了“量”层面的信息。这种简单的定义方式往往是不够全面的,因为对于某笔挂单而言,即使其挂单量足够大,在很多情况下也未必会影响订单簿的5档盘口结构,无法被市场参与者立即观察到,比如以下情形:假设当前买五价格是100,有一笔新的买入限价单、其委托价格是99.5,那么哪怕该订单的挂单量足够大,当下也不会对5档盘口结构产生任何影响。因此,只有当挂单价格在一定范围内、且挂单量够大时,才能对盘口结构产生影响,甚至推动实时价格发生变化。
基于上述分析,我们将委托单的挂单价格、挂单量,与最近一次快照数据的买一价、买一量、卖一价、卖一量进行对比,基于委托单的买卖方向与激进程度,将所有委托单划分为10种类型。具体地,以方向为买的委托单为例,共有5种类型:
(1)类型1买单:挂单价大于等于当前最新的卖一的价格,同时挂单量也大于等于卖一的挂单量。当该类型的订单到达交易所后,会迅速吃掉卖一的所有挂单、并导致卖一的价格向上跳跃。
(2)类型2买单:挂单价大于等于当前最新的卖一价,但挂单量小于卖一的挂单量。当该类型的订单到达交易所后,只会吃掉卖一的部分挂单,并不会对卖一的价格和买一的价格产生影响。
(3)类型3买单:挂单价大于买一的价格、但小于卖一的价格,对挂单量不做要求。当该类型的订单到达交易所后,不促成任何成交,卖一的价格、挂单量保持不变,而买一的价格、挂单量被该订单替换,缩小了买卖之间的价差。
(4)类型4买单:挂单价等于买一的价格,对挂单量不做要求。当该类型的订单到达交易所后,只会增加买一的挂单深度、但不对买一价产生任何影响,只会停留在买一位置等待被撮合成交。
(5)类型5买单:挂单价小于买一的价格,对挂单量不做要求。当该类型的订单到达交易所后,只会增加买方一侧较深档位的深度,对于其他部分没有产生任何影响,也只会停留在盘口等待被撮合成交。
在上述5种类型中,我们不难发现,类型1买单是最激进的买单,会促成交易且导致价格变动;而类型5买单则为最不激进的买单,对买一价、买一量、卖一价、卖一量都未能产生任何影响。
![]()
上述是对于买入委托单激进程度的划分,对于卖单的划分方式完全类似,只不过其订单类型被标记为类型6(最激进的卖单)至类型10(最不激进的卖单)。
在引入“委托单的激进程度”这一概念后,我们认为最激进的买入委托、卖出委托是重要的流动性冲击订单,也可以作为趋势资金是否行动的代理变量。因此,对于逐笔委托数据,我们共得到6种事件识别的方法:
(1)某只股票的某笔买入挂单量大于当日该股所有买入挂单量的90%分位数;
(2)某只股票的某笔卖出挂单量大于当日该股所有卖出挂单量的90%分位数;
(3)某只股票的某笔买入撤单量大于当日该股所有买入撤单量的90%分位数;
(4)某只股票的某笔卖出撤单量大于当日该股所有卖出撤单量的90%分位数。
(5)某只股票的某笔买入委托单被定义为类型1买单(最激进的买单);
(6)某只股票的某笔卖出委托单被定义为类型6卖单(最激进的卖单)。
3.1.2 基于逐笔成交数据的流动性事件
对于逐笔成交数据,我们认为若某一成交单的成交量较大、或者引起的价格变动较大(某笔成交单引起的价格变动=当笔成交价/上笔成交价-1,成交单按照成交时间、成交单号双重排序),则该笔成交更容易引起市场参与者的注意。
因此,我们给出4种关于逐笔成交数据的流动性事件识别方式:
(1)某只股票的某笔主买成交量大于当日该股所有主买成交量的90%分位数;
(2)某只股票的某笔主卖成交量大于当日该股所有主卖成交量的90%分位数;
(3)某只股票的某笔成交价格变动大于当日该股所有成交价格变动的90%分位数;
(4)某只股票的某笔成交价格变动小于当日该股所有成交价格变动的10%分位数。
3.1.3 小结
至此,在逐笔数据层面,如何对“趋势资金是否行动”这一事件进行识别,已经讨论完毕。如图表5所示,我们通过观测逐笔委托、逐笔成交数据的流动性冲击事件,共得到了10种不同的识别方式。
![]()
3.2 因子定义:羊群效应如何衡量
关于“羊群效应的强弱程度”,即“趋势资金行动后的跟随行为强弱”,我们借助“流动性事件之后的量价特征”来进行衡量。用到的“量价数据”包括各种维度的委托量、各种维度的成交量、关键量价数据发生的间隔、各种维度的不平衡指标、量价相关性等;“量价特征”的构建,可以是上述量价数据本身的数值,也可以是其与流动性事件对应时间点量价数据的相互关系,也可以是其与流动性事件发生之前量价数据的相互关系。
后文根据不同的“量价数据”,详细展示如何定义羊群效应因子。
3.2.1 各种维度的委托量
利用委托量的数据构建羊群效应因子,可分为3个主要步骤:如何选取事件触发之后的未来窗口、观察哪种委托量、如何降频为日度因子值。
关于“如何选取事件触发之后的未来窗口”,有“固定笔数”、“固定时间”这2种方式,比如我们可以关注趋势资金行动后的20笔委托单,也可以关注趋势资金行动后10秒内的所有委托单,从中观测跟随行为的强弱。
关于“观察哪种委托量”,主要包含以下3个因素:
(1)订单类型:可以是撤单、挂单。对于撤单,我们没有对其按照激进程度进行分类,因此只能观察所有的撤单数据;而对于挂单,我们既可以观察所有挂单数据,也可以按照激进程度,只观察其中最激进、次激进、中等激进、次不激进或者最不激进的挂单。因此关于“订单类型”,我们一共有7种选择。
(2)订单方向:我们可以不区分买卖方向、观察所有订单,也可以只观察其中方向为买或者方向为卖的订单,因此共有3种选择。
(3)订单指标:我们可以观察趋势资金事件触发后,未来一段窗口内委托量的各种相关指标,比如举8个例子:委托量的总和、委托笔数、单笔委托金额、委托量的最大值、委托量的最小值、委托量的标准差、委托量的偏度、委托量的峰度。
上述3个因素互相搭配,我们一共可以观察168种不同维度的委托量。
接下来,关于“如何降频为日度因子值”,我们以“趋势资金事件触发后,观察未来20笔挂单(不区分激进程度、不区分买卖方向)中委托量的最大值”为例,提供5种不同的思路。为了方便表述,将每一次趋势资金事件触发后、未来20笔挂单中委托量的最大值,定义为这一次的跟随委托量。5种思路依次为:
(1)绝对数值:每个交易日,对当日所有事件触发后的跟随委托量求平均值,得到当日因子值;
(2)与趋势资金的相关性:每个交易日,将趋势资金事件点的委托量与对应的跟随委托量对齐,求这两个序列的相关系数,得到当日因子值;
(3)与趋势资金的相对比值:将每一次的跟随委托量,除以对应趋势资金事件点的委托量,得到该次跟随行为的比值;每个交易日,对当日所有比值求均值,得到当日因子值;
(4)与趋势资金事件发生之前的相关性:每个交易日,将趋势资金事件点前20笔挂单委托量的最大值与对应的跟随委托量对齐,求这两个序列的相关系数,得到当日因子值;
(5)与趋势资金事件发生之前的相对比值:将每一次的跟随委托量,除以对应趋势资金事件点前20笔挂单中委托量的最大值,得到该次跟随行为的比值;每个交易日,对当日所有比值求均值,得到当日因子值。
综上所述,关于未来窗口、我们找到2种方式,关于观察哪种委托量、我们有168种选择,关于将逐笔数据降频为日度因子值的方法、我们提供了5种思路,因此共可得到1680种不同的因子定义方式。
![]()
3.2.2 各种维度的成交量
利用逐笔成交数据构建羊群效应因子,逻辑与上一小节完全类似,此处不再展开详细论述,具体可参考图表7。与上一小节逐笔委托数据的不同之处在于,“成交单类型”中不再有激进程度的概念,我们用“超大单”、“大单”、“中单”、“小单”进行了替换。
![]()
根据图表7,关于未来窗口、我们仍然有2种方式,关于观察哪种成交量、我们有120种选择,关于将逐笔数据降频为日度因子值的方法、我们提供了5种思路,因此共可得到1200种不同的因子定义方式。
3.2.3 关键量价数据发生的间隔
利用关键量价数据发生的间隔来构建羊群效应因子,可分为5个主要步骤:如何选取事件触发之后的未来窗口、观察哪种量价数据、何为关键、如何定义间隔、如何降频为日度因子值。
关于“如何选取事件触发之后的未来窗口”,与前文一致,仍然有“固定笔数”、“固定时间”这2种方式。
关于“观察哪种量价数据”,主要包含以下3个因素:
(1)类型:可以是撤单、挂单、成交单,共有3种类型。当然,在挂单、成交单中,我们可以仿照前两小节的内容,用激进程度、大小单对它们做进一步细分,但考虑到实际生产因素,间隔类因子的计算复杂度较高、速度较慢,我们暂时不做进一步细分,只考虑整体的挂单、整体的成交单。
(2)方向:我们可以不区分买卖方向、观察所有订单,也可以只观察其中方向为买或者方向为卖的订单,共有3种选择。
(3)指标:无非就是量、价格这2种指标。
上述3个因素互相搭配,我们一共可以观察18种不同维度的量价数据。
关于“何为关键”,我们考虑事件触发后的一段时间内,各种量价数据的最大值、最小值,共有2种情况。
接下来,关于“如何定义间隔”,参考“如何选取事件触发之后的未来窗口”,也有“笔数”、“时间”这2种说法,即我们记录趋势资金事件触发后,未来一段时间内,各种量价数据的最大值、最小值出现的位置,计算该位置与趋势资金事件点间隔了多少笔数、或者间隔了多少时间。
最后,关于“如何降频为日度因子值”,与前文略有不同,由于本小节构建的是间隔类因子,因此不存在“与趋势资金相比”的概念,只存在“绝对数值”、“与趋势资金之前相比”的情况,共有3种方法。
![]()
根据上述分析,我们有2种未来窗口的选取方式,共有18种不同维度的量价数据,有2种关键情况,有2种间隔的定义方法,还有3种将逐笔数据降频为日度因子值的办法,因此共可得到432种不同的因子定义方式。
3.2.4 各种维度的不平衡指标
利用不平衡指标构建羊群效应因子,可分为4个主要步骤:如何选取事件触发之后的未来窗口、观察哪种订单、如何定义不平衡、如何降频为日度因子值。
关于“如何选取事件触发之后的未来窗口”,与前文保持一致,有“固定笔数”、“固定时间”这2种方式。
关于“观察哪种订单”,可以是撤单、挂单、成交单。其中,挂单可以按照激进程度做进一步细分,成交单可以按照大小单做进一步细分。因此如图表9所示,一共有12种不同类型的订单。
关于“如何定义不平衡”,所谓“不平衡”,即买单与卖单之间的差异,我们一共定义了以下5个不平衡指标:买单价格均值/卖单价格均值、买单量均值/卖单量均值、买单量最大值/卖单量最大值、(买单总量-卖单总量)/(买单总量+卖单总量) 、(买单总金额-卖单总金额)/(买单总金额+卖单总金额)。
最后,关于“如何降频为日度因子值”,由于趋势资金事件点无法计算不平衡指标,因此只存在“绝对数值”、“与趋势资金之前相比”的情况,共有3种方法。
根据上述分析,我们有2种未来窗口的选取方式,共有12种不同维度的订单数据,有5种不平衡指标的构建逻辑,还有3种将逐笔数据降频为日度因子值的方法,因此共可得到360种不同的因子定义方式。
![]()
3.2.5 量价相关性
基于量价相关性指标构建羊群效应因子,可分为3个主要步骤:如何选取事件触发之后的未来窗口、如何计算逐笔量价指标的相关性、如何降频为日度因子值。
关于“如何选取事件触发之后的未来窗口”、“如何降频为日度因子值”,与上一小节的内容完全一致,分别有2种、3种方式,此处不再进行赘述。
关于“如何计算逐笔量价指标的相关性”,我们在专题报告《“高频数据+离散化构建方式”在因子研究中的重要性》的“逐笔离散”因子部分曾做过讨论,本小节的计算逻辑与之前的研究保持一致:
(1)设计逐笔量价指标:直接采用逐笔成交、逐笔委托、逐笔撤单的原始数据,可以利用的指标为量、价格、方向,因此共有9种量价指标。
(2)计算相关性:可分为上述指标两两之间的相关性、或者单一指标的自相关性。对于两两指标互相之间的相关性,根据指标是否计算变化率、计算相关性时是否错位,可分为多种情况,如图表10所示,共可计算432个因子;对于单一指标的自相关性,也可通过类似的分类讨论,构建45个因子。
综上所述,我们有2种未来窗口的选取方式,构建了477个量价相关性指标,还有3种将逐笔数据降频为日度因子值的方法,因此共可得到2862种不同的因子定义方式。
![]()
3.2.6 小结
至此,关于“羊群效应因子”的定义方法,已经讨论完毕。在“趋势资金有所行动”这一事件发生之后,我们通过计算委托量、成交量、关键量价数据发生的间隔、不平衡指标、量价相关性这些量价数据的本身数值、与趋势资金对应时点量价数据的相互关系、与趋势资金这个事件发生之前量价数据的相互关系,得到了6000多种不同的因子构造方式。
实际上,上述框架还存在很大的拓展空间,比如在“量价相关性”维度,若我们对挂单按照激进程度、对成交单按照大小单做进一步细分,又可衍生出至少上千种不同的定义方式;再比如在“如何降频为日度因子值”这一环节,除了对日内所有跟随行为求算术平均值以外,还可以用对应的趋势资金事件强度为权重、对日内所有跟随行为求加权平均值。关于这些衍生细节,本文不再做过多讨论,我们的主要目的在于展示上述体系化的思维与框架,各位读者可根据实际情况,在框架中修改、删减或增加具体的构建方法。
3.3 因子构建方法总结
与分钟羊群效应因子的构建逻辑类似,我们在利用逐笔数据构建羊群效应因子时,同样围绕事件识别、因子定义、数据频率这3个关键因素展开。其中,由于本篇报告的因子都是基于原始的逐笔数据构建,因此未对“数据频率”展开讨论,前文重点讨论了“事件识别”、“因子定义”这2个因素:
(1)事件识别:通过观测逐笔委托、逐笔成交数据的流动性冲击事件,共得到了10种对于“趋势资金是否行动”的识别方式。特别地,在逐笔挂单数据层面,我们引入了“激进程度”这一概念。
(2)因子定义:在“趋势资金有所行动”这一事件发生后,我们考察未来一段窗口内的量价特征,比如各种维度的委托量、各种维度的成交量、关键量价数据发生的间隔、各种维度的不平衡指标、量价相关性等等,这些指标既可以是其本身数值,也可以是与趋势资金事件点量价数据的相互关系,也可以是与趋势资金事件发生之前量价数据的相互关系。通过各种底层逻辑的互相搭配,我们可以得到6000多种不同的因子构造方式。
若将事件识别与因子定义这两个因素相结合,理论上就可以构建超过6万个逐笔羊群效应因子。随着研究的进一步深入,我们未来能够想到的方法肯定还有更多,各位读者也可以根据自己的理解,基于各种衍生的经济学逻辑,对该因子簇进行扩充。
4. 逐笔羊群效应因子簇的表现
4.1 因子的批量生产与筛选
在实际生产中,考虑到因子逻辑、因子值覆盖度、算力等因素,我们对前文提到的事件识别方法、因子定义方法做了精简,目前一共构建了约2万个逐笔羊群效应因子(比如超大单成交单数据的覆盖度往往较低,予以剔除;再比如对于用逐笔委托数据构建的流动性事件,我们将其与基于逐笔委托、逐笔成交数据的因子定义做了互相搭配,而对于用逐笔成交数据构建的流动性事件,我们只将其与基于逐笔成交数据的因子定义做了互相搭配)。通过进一步分时段筛选,留下有效且相关性较低的因子,得到“逐笔羊群效应因子簇”:
(1)在时间段2016/01/01-2018/12/31内,综合考虑因子的IC、ICIR、多头超额收益、多头超额收益的信息比率以及因子互相之间的相关性,挑选效果最优且相关性较低的因子;
(2)对于挑选出的因子,再考虑它们2019/01/01-2021/12/31的IC、ICIR、多头超额收益、多头超额收益的信息比率以及因子互相之间的相关性,进一步挑选其中效果最优且相关性较低的因子,最终剩下50个,称之为逐笔羊群效应因子簇(2022年开始即为样本外)。
![]()
回测结果显示,在2016/01/01-2025/10/31期间,全体A股中,50个因子的年化ICIR绝对值都能达到2以上。图表11罗列了其中20个因子的回测绩效,为了方便展示,因子名称以序号的方式做了简化。特别地,这些因子都是未经行业、市值中性化操作的原始因子,大部分因子中性化后的稳定性可进一步提升。
以图表11中的因子16为例,我们详细介绍该因子是如何构建的:
(1)根据逐笔成交数据,只关注其中方向为主动卖出的成交单,将“成交量大于当日所有主卖成交量90%分位数”的主卖成交,视为趋势资金有所行动的事件点;
(2)提取当日所有方向为主动买入的成交单,将它们的成交量进行标准化处理,即对于每一笔主动买入成交量,减去当日所有主买成交量的平均值、再除以当日所有主买成交量的标准差,得到标准化后的主买成交量序列;
(3)对于每一个趋势资金事件点,计算未来20笔成交中的标准化主买成交量的偏度,得到此次跟随行为的强度;
(4)每个交易日,以对应的事件强度、即趋势资金事件点对应的主卖成交量为权重,对当日所有跟随行为强度求加权平均值,得到当日的跟随行为强弱指标;
(5)滚动回看过去20个交易日,求20日跟随行为强弱指标的算术平均值,即为日度因子值(本文展示的回测效果,均为月度调仓,取每月月底最后一个交易日对应的因子值即为月度因子值,用于后续回测)。
4.2 逐笔羊群效应综合因子示例
以选取样本内(2016-2021年)信息比率最高的10个因子等权合成为例,展示逐笔羊群效应综合因子的表现。回测时间段2016/01/01-2025/10/31内,以全体A股为研究样本,逐笔羊群效应综合因子的月度IC均值为0.080,年化ICIR为3.49,月度RankIC均值为0.101,年化RankICIR为3.74;10分组多空对冲的年化收益为44.26%,年化波动为10.90%,信息比率为4.06,月度胜率为89.74%,最大回撤为10.66%。
图表12展示了逐笔羊群效应综合因子的10分组及多空对冲净值走势,图表13则汇报了其各年度表现情况。
![]()
![]()
得到了选股效果不错的综合因子后,我们考察其与市场常用风格因子的相关性。图表14展示了逐笔羊群效应综合因子与10个Barra风格因子的相关系数,可以看到,综合因子与波动率、流动性因子的相关性相对较高,相关系数绝对值在0.30左右,与其他因子的相关性较低。
![]()
为了剔除市场常用风格和行业的干扰,我们每月月底将逐笔羊群效应综合因子对Barra风格因子和中信一级行业虚拟变量进行回归,取残差作为纯净因子,检验其选股效果。图表15展示了纯净因子在全体A股中的10分组及多空对冲净值走势,图表16则汇报了其分年度的表现情况。
剔除常用风格与行业的影响后,因子仍然有效。纯净逐笔羊群效应综合因子的月度IC均值为0.044,年化ICIR为3.33,月度RankIC均值为0.046,年化RankICIR为3.03;10分组多空对冲的年化收益为19.53%,年化波动为6.36%,信息比率为3.07,月度胜率为78.63%,最大回撤为5.13%。
![]()
![]()
4.3 指数增强组合的表现
本小节内容基于逐笔羊群效应综合因子,以最大化预期收益为优化目标,构建沪深300、中证500、中证1000指数增强组合,组合的调仓频率为月度。
沪深300指数增强组合的约束条件为:(1)指数成分股权重不低于85%;(2)中信一级行业权重偏离不超过1%;(3)个股权重偏离不超过0.3%。
2016/01/01-2025/10/31,沪深300指数增强组合的年化收益为12.43%,相对沪深300指数的超额年化收益为8.89%,跟踪误差为3.50%,信息比率为2.54,月度胜率为77.78%,最大回撤为2.96%。
![]()
中证500指数增强组合的约束条件为:(1)指数成分股权重不低于85%;(2)中信一级行业权重偏离不超过1%;(3)个股权重偏离不超过0.3%。
2016/01/01-2025/10/31,中证500指数增强组合的年化收益为15.23%,相对中证500指数的超额年化收益为13.46%,跟踪误差为5.31%,信息比率为2.54,月度胜率为79.49%,最大回撤为5.15%。
![]()
中证1000指数增强组合的约束条件为:(1)指数成分股权重不低于85%;(2)中信一级行业权重偏离不超过1%;(3)个股权重偏离不超过0.3%。
2016/01/01-2025/10/31,中证1000指数增强组合的年化收益为16.04%,相对中证1000指数的超额年化收益为17.23%,跟踪误差为4.78%,信息比率为3.61,月度胜率为84.62%,最大回撤为4.14%。
![]()
5. 总结
在本系列研究的专题报告《“高频数据+离散化构建方式”在因子研究中的重要性》中,我们曾提出,未来量价因子的研究,想要获取更多的、与现有因子低相关的增量,“逐笔数据+离散化的构建方式”将变得至关重要。
本篇报告就从一个具体案例出发,展示如何将离散化的因子定义应用在原始的逐笔数据层面,挖掘一簇有效因子。具体地,由于在前期报告《Memory Map在因子生产加速上的应用——以构建羊群效应因子簇为例》中,我们曾研究过分钟数据层面的羊群效应因子,本篇报告就继续顺着“羊群效应”的研究思路,探讨如何基于逐笔委托、逐笔成交数据构建羊群效应因子簇。
类似于分钟羊群效应因子的构建流程,在逐笔数据层面,我们仍然围绕事件识别、因子定义、数据频率这3个关键因素展开。具体地,由于本篇报告的因子都是基于原始的逐笔数据构建,因此无需对“数据频率”展开讨论,我们重点讨论了“事件识别”、“因子定义”这2个因素:
(1)事件识别:通过观测逐笔委托、逐笔成交数据的流动性冲击事件,对“趋势资金是否行动”进行识别。特别地,在逐笔挂单数据层面,我们引入了“激进程度”这一概念。
(2)因子定义:在“趋势资金有所行动”这一事件发生后,考察未来一段窗口内的量价特征,包括各种维度的委托量、各种维度的成交量、关键量价数据发生的间隔、各种维度的不平衡指标、量价相关性,这些指标既可以是其本身数值,也可以是与趋势资金事件点量价数据的相互关系,也可以是与趋势资金事件发生之前量价数据的相互关系。通过各种底层逻辑的互相搭配,我们可以得到上千种不同的因子构造方式。
在实际生产中,考虑到因子逻辑、因子值覆盖度、算力等因素,我们对上述事件识别、因子定义方法做了精简,一共构建了约2万个逐笔羊群效应因子。通过进一步筛选,保留其中效果最优且相关性较低的50个因子,称之为“逐笔羊群效应因子簇”。回测结果显示,50个逐笔羊群效应因子的年化ICIR绝对值都能达到2以上。
为了展示综合因子的表现,我们在“逐笔羊群效应因子簇”中选取样本内信息比率最高的10个因子、等权合成,得到逐笔羊群效应综合因子。回测期2016/01/01-2025/10/31内,在全体A股中,逐笔羊群效应综合因子的月度IC均值为0.080,年化ICIR为3.49,月度RankIC均值为0.101,年化RankICIR为3.74;10分组多空对冲的年化收益为44.26%,年化波动为10.90%,信息比率为4.06,月度胜率为89.74%,最大回撤为10.66%。在剔除了市场常用风格和行业的影响后,纯净因子仍然有效,年化ICIR达到3.33,全市场10分组多空对冲的信息比率为3.07。
更进一步,我们基于逐笔羊群效应综合因子,构建月频调仓的指数增强组合:
(1)沪深300指数增强组合的超额年化收益为8.89%,跟踪误差为3.50%,信息比率为2.54,月度胜率为77.78%,最大回撤为2.96%;
(2)中证500指数增强组合的超额年化收益为13.46%,跟踪误差为5.31%,信息比率为2.54,月度胜率为79.49%,最大回撤为5.15%;
(3)中证1000指数增强组合的超额年化收益为17.23%,跟踪误差为4.78%,信息比率为3.61,月度胜率为84.62%,最大回撤为4.14%。
风险提示
以上结论均基于历史数据和统计模型的测算,如果未来市场环境发生明显改变,不排除模型失效的可能性。
具体分析详见国盛证券研究所2025年11月13日发布的报告《“量价淘金”选股因子系列研究(十四):基于流动性冲击事件的逐笔羊群效应因子——“高频数据+离散化”理念的具体实践》。
沈芷琦 S0680521120005 shenzhiqi@gszq.com
刘富兵 S0680518030007 liufubing@gszq.com
阮俊烨 S0680124070019 ruanjunye@gszq.com
特别声明:《证券期货投资者适当性管理办法》于2017年7月1日起正式实施。通过微信形式制作的本资料仅面向国盛证券客户中的专业投资者。请勿对本资料进行任何形式的转发。若您非国盛证券客户中的专业投资者,为保证服务质量、控制投资风险,请取消关注,请勿订阅、接受或使用本资料中的任何信息。因本订阅号难以设置访问权限,若给您造成不便,烦请谅解!感谢您给予的理解和配合。
重要声明:本订阅号是国盛证券金融工程团队设立的。本订阅号不是国盛金融工程团队研究报告的发布平台。本订阅号所载的信息仅面向专业投资机构,仅供在新媒体背景下研究观点的及时交流。本订阅号所载的信息均摘编自国盛证券研究所已经发布的研究报告或者系对已发布报告的后续解读,若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。本资料仅代表报告发布当日的判断,相关的分析意见及推测可在不发出通知的情形下做出更改,读者参考时还须及时跟踪后续最新的研究进展。
本资料不构成对具体证券在具体价位、具体时点、具体市场表现的判断或投资建议,不能够等同于指导具体投资的操作性意见,普通的个人投资者若使用本资料,有可能会因缺乏解读服务而对报告中的关键假设、评级、目标价等内容产生理解上的歧义,进而造成投资损失。因此个人投资者还须寻求专业投资顾问的指导。本资料仅供参考之用,接收人不应单纯依靠本资料的信息而取代自身的独立判断,应自主作出投资决策并自行承担投资风险。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.