华泰 | 金工：高频特征参数化 - 分钟级可解释因子挖掘框架|算法|高维|欧氏|算子|序列|新论文

分享至

来源：市场资讯

（来源：华泰睿思）

人工智能103：因子挖掘通用公式拓展至分钟级信号

本研究将参数化因子挖掘框架从基本面维度拓展至高频量价维度，聚焦分钟级交易数据，构建了一套可解释性强、逻辑清晰的分钟级因子万能公式。延续前期报告《以空间换时间——多目标基本面选股因子挖掘框架》的参数化思路，我们设计了四步因子计算流程与万能公式因子格式，使因子表达式具备高度模块化与可解释性。在因子挖掘环节，我们采用NSGA-III多目标遗传算法，并创新性地引入动态短板惩罚机制，有效克服高维目标空间中的“维数灾难”问题。实证表明，将挖掘出的分钟级信号作为额外特征输入深度学习模型后，在各宽基指数增强场景下均取得显著提升，在2023-01-03至2026-02-27回测区间内，1000增强相比经典深度学习模型，年化超额收益提升2.9pct，Calmar比率提升0.66。

核心观点

人工智能103：因子挖掘通用公式拓展至分钟级信号

可解释性通用公式：固定范式、四步流程

分钟级因子生成需经历高度模块化的四步流程。第一步“输入与切片”锁定目标研究时段，以窗口中心slice为基准向左右各延伸0.5个窗口长度window，明确计算所需的分钟级数据范围。第二步“时序掩码”以指定量价字段mask_field为参考基准，根据预设的截断方向与阈值mask_rule生成掩码，对样本进行二次筛选。第三步“算子降维”通过单变量算子或双变量算子将分钟级时序数据降频为日频因子。第四步“因子后处理”执行中位数去极值、行业市值中性化与截面Z-Score标准化。所有因子统一格式为一行拥有十项参数的通用公式，确保表达式具备一致性与可读性。

多目标排序改进：五目标NSGA-III与短板惩罚改进

传统遗传规划往往陷入单目标最优导致的因子同质化困境。本研究构建五目标因子评价体系，涵盖|IC|、IC胜率、多头绝对收益、多头夏普比率与多头胜率，全面刻画因子的预测能力与实盘表现。针对高维目标空间下NSGA-II面临的"维数灾难"问题，我们将排序算法升级为NSGA-III，通过超平面参考点与关联操作引导种群在多维空间中均匀分布。进一步，我们在非支配排序与参考点构造之间引入动态短板惩罚机制，有效清除畸形种群，优选“德智体美劳”全面发展的优质因子。

代表性因子展示：自相关、回归截距与空间欧氏距离

通过对模型挖掘出的有效因子进行系统性复盘，我们发现成交笔数自相关特征、单笔成交回归截距与量价空间欧氏距离三类因子表现持续突出。成交笔数自相关因子基于分钟级成交笔数及其滞后序列，通过斜率、相关系数等方式计算，分钟成交笔数原有的自相关结构被打破往往意味着主力资金开始关注并主动介入标的。单笔成交回归截距因子以单笔平均成交金额对分钟成交量做线性回归，剥离个股随大盘同步放量、缩量带来的系统性波动影响，提纯出标的自身内生、真实的交易规模信号。量价空间欧氏距离因子敏锐捕捉成交笔数与成交金额之间流动性结构断裂的信息，在常态交易环境下两者应呈现高度正相关性，当产生巨大欧氏距离时意味着微观结构出现极端背离。

实验结果：新特征在深度学习既有框架取得明显提升

实证表明，分钟级信号作为新特征加入深度学习模型后取得优异表现，各宽基指增的年化超额收益均显著提升。在回测区间2023-01-03至2026-02-27内，1000增强、2000增强等中小市值策略的最大回撤明显改善，信息比率、Calmar比率同步提升。PortfolioNet_gp在1000增强的年化超额达14.8%，信息比率2.23，Calmar比率2.06。

正文

01导读

AI量价模型是一项系统性工程，优异的网络结构往往需要与高质量的特征、科学设计的损失函数相辅相成，方能达到最优效果。目前，针对网络结构的边际改进空间已日益趋窄，而AI模型的特征端——即输入模型的原始信号，仍有较大深挖潜力，特别是分钟级高频量价数据中蕴含的微观结构信息尚未被充分挖掘。本文聚焦于高频量价特征的参数化挖掘，通过可解释的万能公式框架与多目标遗传规划，为AI量价模型注入新的特征活力。

本研究的核心设计思路是将分钟级高频信号参数化、模块化，使其既具备可解释性又能被高效挖掘。基于“输入与切片、时序掩码、算子降维、因子后处理"的四步计算体系，本文构建了分钟级因子挖掘的参数化万能公式，使每一个因子表达式都有清晰的物理含义与计算逻辑。随后，本文使用NSGA-III多目标遗传规划配合动态短板惩罚机制，有效解决了高维目标空间下的因子选择与多样性保持问题。挖掘出的分钟级信号作为新特征输入PortfolioNet深度学习模型后，在300、500、1000、2000增强场景下均取得显著提升，其中1000增强年化超额收益提升2.9pct，信息比率从1.81提升至2.23。

02分钟级信号通用公式

前期报告《以空间换时间——多目标基本面选股因子挖掘框架》（2025-08-11）中，我们主动放弃了传统遗传规划中算子随机排列、易导致“黑盒”表达式的构筑方式，转而采用固定范式的万能因子表达式取而代之。在这种通用公式框架下，公式中每一参数均具备明确的经济学含义与严格取值范围。延续这一参数化、模块化的因子构建思路，我们将视角从基本面维度拓展至高频量价维度，聚焦分钟级高频交易数据，寻找具备稳健收益特征、逻辑清晰的量价因子。

公式简介

从分钟级量价数据到最终的日频Alpha信号，每一个因子的生成都需要经历一套高度模块化的计算流程。本文提出的通用公式可梳理为以下四个步骤：

输入与切片

因子计算的第一步是输入分钟量价数据并进行定位。不同时间段的分钟数据隐藏不同信息，早盘开盘波动、午盘盘整、尾盘收官等不同时段量价特征差异显著，直接使用全时段数据可能影响因子特征提取的准确性，因此需要确定目标研究时段。我们选取需要研究的量价字段，确定需研究的分钟级窗口中心slice，再以该中心为基准向左右各自延伸0.5个窗口长度window，明确界定后续计算所需的分钟级数据范围。

时序掩码

因子计算的第二步是构造时序掩码和筛选分钟样本。经过输入与切片锁定目标分钟窗口后，并非窗口内所有分钟样本都能有效反映核心规律，若不加区分地纳入所有样本进行计算，反而会弱化关键特征，而在特定筛选条件下对有效样本进行计算，才能让因子更符合交易逻辑，因此我们通过掩码对样本进行二次筛选。我们以某一指定量价字段mask_field作为参考基准，先计算该时间窗口内所有分钟级样本的分位数排名，再根据预设的截断方向与阈值mask_rule（例如仅保留排名前30%的时刻），生成时序掩码，保留所需分钟样本点。

算子降维

因子计算的第三步是算子降维。经过切片和掩码处理后，数据仍处于分钟级时序维度，无法直接作为日频因子使用，需要通过算子降维实现特征提炼。我们的算子分为两种类型：单变量算子和双变量算子。①单变量算子：对单一核心指标进行时序聚合计算，直接提炼指标的日内核心特征；②双变量算子：引入辅助指标，支持通过B_shift_lag对辅助指标进行分钟级别的超前或滞后错位处理，随后计算两个指标间的交叉特征。通过上述算子处理，我们输出标准的日频因子值。

因子后处理

因子计算的第四步是因子后处理。算子降维输出的日频因子初始矩阵，可能存在极值异常、行业风格干扰等问题。我们执行三步处理：①中位数去极值：设FM为该向量中位数，F1为向量|Ft−FM|的中位数，将向量Ft中所有大于FM+5F1的数重设为FM+5F1，将向量Ft中所有小于FM−5F1的数重设为FM−5F1；②行业市值中性化；③截面Z-Score标准化。

公式定义

本研究中所有的分钟级量价因子只允许以以下格式出现：

我们依次解释因子格式中各元素的含义：

1）f定义了因子计算方法，共涉及10个参数，是遗传规划优化的对象；N是因子后处理过程，包含中位数去极值、行业市值中性化和截面标准化。

2）A和B是用于计算因子的输入指标，为分钟级量价特征。其中，A为核心指标，B为双变量模式下引入的辅助指标。

3）window定义时间窗口的观测长度，是计算因子时所涵盖的连续分钟样本点数量，如果window为‘All’，则表示全区间。

4）slice定义时间窗口的相对中心位置，其取值范围在0.0至1.0之间，与全天交易分钟线性对应，公式根据中心点向前后各扩展0.5个window确定最终的计算区间，如slice为0.5表示仅考虑正午附近的时间窗口。若slice为‘None’，则切片尾盘window分钟的数据。因子计算将在由window和slice决定的窗口内进行。若窗口边界超过开盘，则窗口起始重设为开盘时刻；若窗口边界超过收盘，则窗口结束重设为收盘时刻。

5）mask_field定义了条件筛选的参考字段。

6）mask_rule定义了具体的截断方向与分位数阈值，格式为“high/low_分位数”，例如high_0.7表示仅保留字段排名前70%的分钟样本点。计算时基于mask_field和mask_rule生成掩码，仅保留符合条件的分钟样本点。

7）mode是指因子值计算的方式，决定了算子的调用逻辑。模式1代表单变量日内分钟数据特征计算，模式2代表双变量交叉特征挖掘。

8）当mode为1（单变量模式）时，将激活mode1参数。mode1定义了作用于指标A的时序降维算子，实现分钟级量价数据降频为日频因子。

9）当mode为2（双变量模式）时，将激活mode2和B_shift_lag两个参数。mode2定义了指标A与B之间的交互算子；B_shift_lag则是针对指标B的时序错位参数，正数表示滞后，负数表示提前，如-1代表使B提前1分钟。mode2和B_shift_lag将两个变量的日内分钟级数据降频为日频因子。

参数取值范围

参数A、B和mask_field为数据字段。为捕捉市场日内微观博弈特征，本框架构建了包含基础价量、累计均价及微观交易频率等分钟维度的26个指标库。这些指标以分钟为基本采样单位，旨在为万能表达式提供高维度的原始信息输入，从而在不同日内时段提取具有显著统计特性的Alpha信号。参数A、B和mask_field的范围见图表2的指标列。

参数mode为算子类型，取1时为单变量算子，取2时为双变量算子。本研究中，我们构建了一套涵盖单变量统计与双变量交互的复合算子库。这些算子作为因子表达式的运算内核，能够将分钟级原始量价序列在指定时间窗口内进行降频计算，转化为日频因子。图表3、图表4的名称分别为mode1、mode2的参数范围。

对于其余参数，如果允许连续取值，算法容易在训练集上寻找一个毫无逻辑的局部最优解。为抑制表达式参数过拟合，提高因子解释性，我们对其余参数做离散化处理。以下是其余参数取值范围。

03参数化挖掘——以遗传规划为例

我们将在全市场A股股票池中执行量价选股因子挖掘流程。理论上，前文构思的参数化万能公式可落地于枚举法、遗传规划、强化学习等多种算法。综合考虑显存性能、迭代效率，本文继续选取团队多次推荐的遗传规划框架进行因子挖掘。

五目标评价

传统的遗传规划往往是单目标因子挖掘体系，在追求单目标最优的过程中，对评价结果贡献最大的子表达式在交叉过程中将呈指数级别复制，最终导致因子同质化。前期报告《以空间换时间——多目标基本面选股因子挖掘框架》（2025-08-11）和《双目标遗传规划应用于行业轮动》（2024-05-20）将因子评价从传统的单目标体系升级为多目标体系，有效克服因子在单一目标上过拟合的问题。

本文中我们构建五目标因子评价体系。为保证因子的分组单调性与时序稳定性，我们延用《以空间换时间——多目标基本面选股因子挖掘框架》（2025-08-11）评价指标中的|IC|和IC胜率。除了全局预测能力，实盘交易中往往更关注头部组合的实际表现。我们构建的第三个目标是多头绝对收益，计算因子头部十分位组合的五日平均收益率，直接评估因子头部的盈利爆发力。为防止因子多头表现波动过大，我们引入的第四个目标是多头夏普比率，计算因子分组前10%收益率与收益波动的比率，在追求高收益的同时对高波动组合进行惩罚。此外，某些因子可能仅依赖历史上短期的极端暴涨贡献绝大部分收益，导致多头收益和夏普比率不低，但在绝大部分交易日表现不佳，我们引入的第五个目标是多头胜率，即十分组前10%截面收益大于0的天数比例，规避依赖偶然性暴涨的因子。

NSGA-III解决“维数灾难”

前期报告我们曾采用NSGA-II算法，通过“非支配排序”和“拥挤度距离”，在不预设权重的条件下评价因子优劣。然而，在当前的因子挖掘任务中，目标维度进一步提升，我们需要同时兼顾5个评价维度。在高维目标空间中，NSGA-II可能面临“维数灾难”：几乎所有因子都会涌入第1前沿面互相非支配，且“拥挤度距离”在稀疏的高维空间中失效，导致算法不易收敛。为突破高维空间约束，我们将底层的优化引擎升级为NSGA-III算法。同时，我们在标准算法之上，创新性地引入了“动态短板惩罚机制”，进一步提升多目标因子挖掘框架。

下面详细阐述NSGA-III 算法原理。为了便于画图展示，本小节以两维目标为例。

1）非支配排序：与 NSGA-II 类似，算法首先基于“支配”概念对因子种群进行分层。若因子 A 在所有评价维度上均不劣于因子 B，且至少在一个维度上严格优于 B，则称 A 支配 B。通过不断的相互比较，算法剥离出互不支配的第 1 前沿面，随后在剩余种群中继续剥离第 2 层、第 3 层，完成对因子优劣的初步绝对排序。如左图所示，第1前沿面的因子优于第2前沿面，第2前沿面的因子优于第3前沿面。

2）超平面参考点：接下来我们需要比较同一前沿面的因子排序。我们对因子目标进行归一化，使得因子各个维度目标介于0到1之间。为引导种群在多维空间中均匀分布，NSGA-III在一个M维的单位单纯形上生成分布极其均匀的参考点。如果我们有2个目标，对目标轴进行2等分，则可以在空间中生成3个均匀分布的参考点，分别是(0,1)，(0.5,0.5)和(1,0)，为右图黄色点。

3）关联操作：连接原点与每一个参考点，形成3条射线，射线即为参考线；对于种群中的任意点，计算与每条射线的垂直距离；个体被关联到垂直距离最小的参考点上。右图蓝色因子距离参考点2射线最近，故关联参考点2。

4）小生境计数排名：在完成更高非支配层个体与参考点的关联后，算法首先统计各个参考点当前已关联的个体数量，记为初始小生境计数ρ。随后，算法采用迭代挑选的方式，对当前层内的所有个体进行依次排序，具体步骤如下：

① 找出当前小生境计数ρ最小的参考点，若存在多个最小计数的参考点，则随机选择其中一个。

② 针对被选中的参考点，检查层中是否有与其关联的候选个体。情况a：若该参考点的ρ=0，则在与其关联的候选个体中，选择距离该参考线垂直距离最小的个体，将其排入当前序列的下一位，并从候选集合中移除。情况b：若该参考点的ρ>0，则在与其关联的候选个体中随机选取一个，将其排入当前序列的下一位，并从候选集合中移除。情况 c：若当前层中没有任何个体与该参考点关联，则将该参考点从当前的候选参考点集合中剔除，并返回步骤1。

③ 个体参与排序后，该参考点的小生境计数ρ立刻加1。

④ 重复上述步骤1至3，动态寻找下一个计数最小的参考点，直到当前层中的所有个体均完成排序为止。

为方便读者理解，我们举一个简易的例子讲述NSGA-III排序全流程：

1）3个参考点的小生境计数均为0，随机选取参考点2为最小参考点，选取距离参考线最近的因子3加入排序，排名为1，更新后小生境计数为[0,1,0]；

2）参考点1和3计数均为0，随机选取参考点1为最小参考点，选取距离参考线最近的因子1加入排序，排名为2，更新后小生境计数为[1,1,0]；

3）参考点3计数为0，选取参考点3为最小参考点，选取距离参考线最近的因子4加入排序，排名为3，更新后小生境计数为[1,1,1]；

4）3个参考点的计数均为1，随机选取最小参考点3，第一层已无关联因子，该层不再考虑参考点3；

5）剩余2个参考点的计数均为1，随机选取最小参考点2，选取因子2加入排序，排名为4，更新后小生境计数为[1,2,1]，第一层排序结束；

6）参考点1和3计数均为1，随机选取参考点1为最小参考点，选取关联的因子5加入排序，排名为5，更新后小生境计数为[2,2,1]；

7）最小参考点为参考点3，选取关联的因子6加入排序，排名为6，已对全部因子完成排序，结束。

在将多目标优化从NSGA-II升级至处理高维空间的 NSGA-III 后，因子种群的多样性和广度得到有效保障。然而，在迭代优化过程中，如果一个因子在单一目标上表现优异，但在其余指标上极度糟糕，仍会有靠前的排名。为解决这一痛点，本框架在非支配排序与参考点构造之间，引入动态短板惩罚机制。思路是对于任一因子，有某些目标表现较弱、为明显短板，则对其原定划分的前沿面层级进行下修。该方法可有效清除畸形因子，优选表现均衡的优质因子。

因子挖掘实验与结果

遗传规划相关参数设置如下：

本次因子挖掘硬件包括24G显存、型号为RTX 4090的GPU，以及512G物理内存、型号为双路Intel Xeon Gold 6430的CPU。每半年滚动挖掘一次，训练与回测参数如下表所示：

图表15展示了最新一期（2025年7月至2026年2月）遗传规划挖掘出的前十名因子参数配置。从因子结构来看，排名靠前的因子多采用双变量模式（mode=2），以成交笔数（num_trades）作为核心指标A，以成交量或成交金额的移动平均作为辅助指标B，底层算子以相关系数（Corr）、决定系数（R2）和欧氏距离（Euc_Dist）为主，时间窗口多选取尾盘时段（slice=1）或全天数据（window=238/All），掩码规则以高位筛选（high_0.7、high_0.5）为主，体现出对尾盘大资金介入信号的敏感捕捉。

04代表性因子展示

通过对2023-2026年间模型挖掘出的有效因子进行系统性复盘，我们发现成交笔数自相关特征、单笔成交回归截距与量价空间欧氏距离三类因子表现持续突出。下文将围绕这三类核心因子展开详细解析与逻辑阐释。

成交笔数自相关特征

这类因子的计算逻辑，基于分钟级成交笔数及其滞后序列，通过斜率、相关系数等方式进行计算。我们发现，以Corr、Slope、R2构建的因子IC显著为负，而基于Euc_Dist构造的因子IC显著为正。我们推测背后逻辑是，分钟成交笔数原有的自相关结构被打破，往往意味着主力资金开始关注并主动介入标的，进而对股价形成向上推动。

此外，我们观察到因子掩码多取值为high，即切片集中于成交量或价格相对高位的时段。这一特征实现了对大资金集中入场时点的有效筛选，进一步佐证了成交笔数异动是资金驱动股价上行的重要信号。

单笔成交回归截距

该类因子公式结构：变量A为amt_per_trade，变量B为volume或其移动平均，底层算子为Intercept。该因子具备选股有效性的内在逻辑，或在于剥离个股随大盘同步放量、缩量带来的系统性波动影响，从而提纯出标的自身内生、真实的交易规模信号。

量价空间欧氏距离

从2024年初起至2026年初，底层算子为Euc_Dist的因子呈现出爆发式增长，尤其是应用于刻画成交笔数与成交金额/成交总量之间的空间偏离。该类因子公式结构：变量A为num_trades，变量B为amount或volume；底层算子为Euc_Dist。在常态交易环境下，成交笔数与成交总额应呈现高度的正相关性。当两者之间产生巨大的欧氏距离时，意味着微观结构出现了极端的背离现象，因子敏锐捕捉这种流动性结构断裂的信息。

05AI多因子合成

本文推荐的多因子合成方案是将挖掘出的分钟频信号作为特征，纳入深度学习成熟模型进行融合（实验三）。此外，构建lgb简单合成（实验一）与纯日频深度学习模型（实验二）两项对照试验。

实验一：gp_lgb，仅使用分钟频因子作为特征，通过LightGBM进行简单合成。

实验二：PortfolioNet，纯日频深度学习模型。构建方法见前期报告《PortfolioNet 2.0：兼取风格收益与Pure Alpha》（2025-12-26）。

实验三：PortfolioNet_gp（推荐）。在PortfolioNet经典日频特征的基础上，额外纳入本篇报告挖掘出的分钟级特征，作为模型输入。每次滚动训练时，PortfolioNet训练集、交叉验证集、测试集区间均与前期遗传规划严格对应，确保不会引入未来信息。

合成因子测试

基于5日收益率的十分组单因子测试结果如下：

可见基于分钟级信号简单合成的实验一因子已具初步选股效果，但其作为高频信号换手过高、且RankIC相较神经网络因子仍有差距。本文主推的实验三可在保留PortfolioNet整体优势、且不显著增加换手的基础之上，有效引入分钟级信号的增量信息。

指数增强测试

以下是指数增强参数设置：

实验整体结论如下：

1）对分钟级信号基于lgb简单融合，表现不佳；

2）分钟级新特征纳入深度学习模型PortfolioNet后表现优异，各宽基指增的年化超额收益均明显提升；此外，在1000增强、2000增强等中小市值策略中，最大回撤明显改善，进而给信息比率、Calmar比率等指标带来显著提升。

3）分钟级信号在大中市值股票中更善于刻画Pure Alpha，而在中小市值域中则更有效地捕捉风格收益。

沪深300增强

基于三种方法分别构建的沪深300指增策略净值与绩效如下：

相较经典PortfolioNet，PortfolioNet_gp策略年化超额提升0.9pct，月度胜率同步提升。

中证500增强

基于三种方法分别构建的中证500指增策略净值与绩效如下：

相较经典PortfolioNet，PortfolioNet_gp策略年化超额提升1.2 pct。

中证1000增强

基于三种方法分别构建的中证1000指增策略净值与绩效如下：

在1000增强等中小市值域，策略提升更为显著，年化超额提升2.9 pct，Calmar比率提升0.66。

中证2000增强

基于三种方法分别构建的中证2000指增策略净值与绩效如下：

相较经典PortfolioNet策略，PortfolioNet_gp最大回撤显著改善，Calmar比率提升1.5。

06总结

本研究将参数化因子挖掘框架从基本面维度拓展至高频量价维度，聚焦分钟级交易数据，构建了一套可解释性强、逻辑清晰的分钟级信号通用公式。基于“输入与切片、时序掩码、算子降维、因子后处理"的四步计算体系，本文构建了分钟级因子挖掘的参数化万能公式。公式中每一参数均具备明确的经济学含义与严格取值范围，在保障算法挖掘灵活性的同时，有效平衡了机器挖掘的广度与人工归因的深度。

因子挖掘环节，我们构建五目标评价体系（|IC|、IC胜率、多头绝对收益、多头夏普比率、多头胜率），并将排序引擎升级为NSGA-III算法以应对高维目标空间的"维数灾难"问题。动态短板惩罚机制的引入有效清除畸形因子，确保选出的因子在各维度上表现均衡而非单一指标突出。通过对2023-2026年间有效因子系统性复盘，发现三类信号具备持续稳健的收益特征：成交笔数自相关因子、单笔成交回归截距因子、量价空间欧氏距离因子。

实验结果上，将挖掘出的分钟级信号作为特征输入PortfolioNet深度学习模型后，在各类宽基指数增强场景下均取得显著提升。在回测区间2023-01-03至2026-02-27内，相较于经典PortfolioNet模型，在沪深300、中证500、中证1000与中证2000增强场景下，PortfolioNet_gp年化超额收益分别提升0.9pct、1.2pct、2.9pct与1.2pct，信息比率同步改善。在中小市值策略中，最大回撤改善尤为明显，1000增强Calmar比率从1.40提升至2.06，2000增强Calmar比率从1.93提升至3.43。

本研究的分钟级信号挖掘框架为AI量价模型提供了新的特征来源。未来，将遗传规划与强化学习相结合，或引入图神经网络刻画个股间的微观结构关联，或将在此方向发挥更大作用。

风险提示

遗传规划、神经网络均在滚动窗口中挖掘历史规律，市场规律在未来可能失效。人工智能模型存在一定的过拟合风险。本文回测假定以vwap价格成交，涨跌停时不可交易，未考虑其他影响交易因素。