Learning subjective time-series data via Utopia Label Distribution Approximation
通过 Utopia 标签分布近似学习主观时间序列数据
https://www.sciencedirect.com/science/article/pii/S0031320324006757
![]()
![]()
摘要
主观时间序列回归(STR)任务最近受到了越来越多的关注。然而,大多数现有方法忽视了STR数据中的标签分布偏差,这导致了模型的偏差。在年龄和深度估计等不平衡回归任务的新兴研究中,假设标签分布是均匀且已知的。但在现实中,STR任务中测试集的标签分布通常是不均匀且未知的。此外,时间序列数据在时间上下文和标签空间中表现出连续性,这尚未被现有方法解决。为了解决这些问题,我们提出了一种乌托邦标签分布近似(ULDA)方法,该方法将近似真实世界但未知(乌托邦)的标签分布用于校准训练集和测试集。乌托邦标签分布是通过使用高斯核对原始分布进行卷积生成的。ULDA还设计了两个新模块(时间切片正态采样(TNS)生成所需的新样本和卷积加权损失(CWL)降低冗余样本的学习权重),这些模块不仅协助模型训练,还保持了时间上下文空间中的样本连续性。广泛的实验表明,ULDA提升了STR任务的最新性能,并展示了对其他时间序列任务的相当强的泛化能力。
关键词:标签分布偏差、主观时间序列回归、乌托邦标签分布近似、时间切片正态采样、卷积加权损失
- 引言
随着多媒体社交网络的快速发展,许多应用(例如多模态检索 [1]、预告片生成 [2] 和个性化推荐 [3])都需要在若干任务上具备高性能算法,如视频情感分析 [4,5]、视频摘要生成 [6,7] 和音乐情绪识别 [8] 等。这些任务通常需要帧级别的标注,即对视频或音频片段中的每一帧进行标注。这些标签通常是表示情绪极性与强度 [8,9] 或视频摘要中各帧重要性得分 [6,10] 的数值,取值在一个连续范围内。通常,这些数值是多位标注者主观判断的平均结果。本文将此类任务命名为 主观时间序列回归 (Subjective Time-series Regression, STR)任务。这与年龄估计 [11] 和深度估计 [12] 等回归任务中使用的客观标签不同,后者的标签基于可测量且可验证的标准。
由于STR任务的特殊性,每帧的回归标签是多位标注者投票的平均值。我们观察到,大多数现有数据集的标注人数不足(例如,LIRIS-ACCEDE 数据集 [9] 中每个样本仅有3位标注者,SumMe 数据集 [6] 中为15∼18人,TVSum 数据集 [10] 中为20人)。在这种情况下,训练集和测试集中的样本及其标签可被视为对现实世界的一种欠采样。这可能导致每个训练样本的标签发生偏斜,进而使得整个训练标签分布相较于真实世界的分布产生偏差。
为缓解学习有偏模型的问题,研究人员已做出大量努力,试图基于训练数据估计真实世界的标签分布,以校准训练集和测试集。然而,测试集(即真实世界)的标签分布通常是未知的。大多数现有研究假设测试集呈均匀分布,并通过平衡数据分布来解决该问题,主要分为两类方法:数据级方法(Data-level methods),通过对训练数据的子集进行过采样或欠采样以平衡分布,例如 SmoteR [13]、SmogN [14] 等;以及算法级方法(Algorithm-level methods),通过调整现有学习算法(尤其是损失函数)以更好地处理不平衡的训练数据,例如 BMC [15]、Dense loss [16]、RankSim [17] 等。近期一项新兴工作 DIR [18] 结合了上述两类方法。尽管这些方法对于非时间序列回归任务(如年龄估计 [11] 或深度估计 [12])可能是合理的,但在STR任务中,数据不太可能服从均匀分布,因为标签具有主观性。以情绪为例,在日常生活中,人们表达愤怒与中性情绪的概率几乎不可能相等。因此,上述方法在STR任务中可能并不适用。
鉴于STR任务中均匀分布的假设不合理,我们认为采用数据驱动的方法应是更优的选择。为验证这一假设,我们开展了一项初步研究。然而,由于收集具有充足标注的数据集极为困难,我们基于 LIRIS-ACCEDE 数据集 [9] 中所有影片的前1000秒,构建了一个虚拟电影的合成数据分布。该电影每一帧的标签由大量虚拟标注者(100人)给出,其分布服从高斯分布,如图1(a)所示。这些标签的均值被用作真实世界中的“真实分布”,其统计分布如图1(b)所示。为模拟现有数据集的情况,我们从这100名虚拟标注者中随机选取3人,以其投票均值模拟训练集的数据分布,如图1(c)所示。图1(d)展示了三种标签分布:原始训练集标签分布(红色)、均匀分布(浅蓝色)以及本文所提方法估计的近似“乌托邦”标签分布(深蓝色)。可以观察到,均匀分布与图1(b)中的真实世界标签分布存在显著差异;而仅由少数标注者投票得到的均值也严重偏离真实标签,进一步导致标签分布出现偏差。我们计算了这三种标签分布与真实世界标签分布之间的皮尔逊相关系数(PCC)。结果显示,均匀分布的PCC最低(0.015),训练集标签分布次之(0.880),而我们近似的乌托邦标签分布取得了最高的PCC(0.922)。
![]()
为逼近乌托邦标签分布,我们的思路不同于其他不平衡回归方法——后者直接校准训练集与测试集之间的标签分布(如图2(a)所示)。我们通过间接方式校准标签分布,即将训练集的分布逼近真实世界的分布(如图2(b)所示)。然而,关键挑战在于真实世界的分布是未知的。幸运的是,已有充分研究表明:在现实世界中,当标注者数量足够多时,中心极限定理成立 [19,20]。这意味着,每个标签值对应的样本数量应服从高斯分布。基于这一观察,我们提出一种数据驱动的方法,称为乌托邦标签分布近似(Utopia Label Distribution Approximation, ULDA),该方法利用高斯核对训练集的标签分布进行卷积,从而逼近真实但未知的(“乌托邦”)标签分布。图1(d)中的PCC对比表明,仅使用训练集,ULDA即可获得最接近真实世界分布的代表性分布,且无需引入任何有偏假设。
卷积之后,每个回归标签所需的样本数量可能发生改变。然而,STR任务数据还具有另一个显著特性——在时间上下文空间和标签空间中均具有连续性,这使得前述数据级和算法级方法不再适用。为应对这一问题,我们设计了两种策略:(1) 当卷积后所需样本数量大于原始数量时,我们提出时间切片正态采样(Time-slice Normal Sampling, TNS)方法,用于增强时间序列训练样本。TNS在短时间切片内估计样本特征的正态分布,并通过蒙特卡洛采样生成新样本,以保持上下文连续性。(2) 当所需样本数量小于原始数量时,我们设计了卷积加权损失(Convolution Weighted Loss, CWL),通过降低这些样本的权重而非进行欠采样来实现平衡。权重根据卷积前后样本数量的比值计算得出。同样,由于未剔除任何训练样本,CWL也能维持上下文连续性。
本文的贡献有三点:
- 我们深入探究了STR任务中数据分布的本质,并提出了乌托邦标签分布近似(ULDA)方法,以解决时间序列数据中的标签分布偏差问题。据我们所知,ULDA是文献中首个针对该问题提出的方法。
- 我们设计了时间切片正态采样(Time-slice Normal Sampling, TNS),这是一种数据级方法,用于在所需样本数量大于原始样本数量时生成新的时间序列数据;同时提出了卷积加权损失(Convolution Weighted Loss, CWL),这是一种算法级方法,用于在所需样本数量小于原始数量时降低样本的权重。
- 大量实验表明,我们提出的 ULDA(结合 TNS 与 CWL)显著提升了基线模型的性能,并在四个基准数据集上优于当前最先进的(SOTA)方法。我们的代码已公开于:https://github.com/wxxv/ULDA_LIRIS_PGL 。
- 相关工作
2.1 主观时间序列回归任务
随着主观时间序列回归(STR)任务受到越来越多的关注,近期已提出多个针对STR任务的数据集和方法。Baveye 等人 [9] 构建了 LIRIS-ACCEDE 数据集——一个用于情感内容分析的大规模视频数据集,其中视频每秒都被标注。他们还使用支持向量回归(SVR)模型验证了情绪回归预测的可行性。Zhang 等人 [8] 创建了用于音乐情绪识别(MER)的 PMEmo 数据集,其中每首歌曲在每0.5秒处都带有情绪标注。Gygli 等人 [6] 和 Song 等人 [10] 分别构建了 SumMe 和 TVSum 视频摘要数据集,其中每一帧都被赋予一个重要性得分。
在 STR 任务方面,Zhao 等人 [21] 为电影情感分析设计了一种双时间尺度结构,能够同时捕捉片段间(inter-clip)与片段内(intra-clip)的关系,以充分利用视频中的时间上下文信息。Mittal 等人 [22] 提出了 Affect2MM 用于视频情感分析,该方法利用 LSTM 模型提取视频情绪特征,并声称 Affect2MM 是首个通过注意力机制和格兰杰因果(Granger causality)显式建模时间因果关系的方法。为克服以往方法在建模长期依赖方面的不足,Apostolidis 等人 [23] 提出了 PGL-SUM 用于视频摘要,该方法通过结合全局与局部的多头注意力机制,在不同粒度级别上建模帧之间的依赖关系。Zhang 等人 [24] 提出了 RMN(Reinforced Memory Network),这是一种基于强化学习的记忆网络,可缓解 LSTM 的存储限制以及长序列预测中的梯度消失/爆炸问题。据目前报道,RMN 在多种 STR 任务上达到了最先进的(SOTA)性能。
上述所有方法均聚焦于学习时间序列数据更优的上下文特征。然而,它们忽略了现有 STR 数据集中因标注者数量不足所导致的标签分布偏差问题,从而导致模型产生偏倚。
2.2 不平衡回归
不平衡分类问题已得到广泛研究 [25]。相比之下,不平衡回归直到最近才引起研究者的关注。其目标是从天然不平衡的数据中学习连续目标值,并泛化到在整个连续目标值范围内均衡分布的测试集上 [18]。由于标签空间的连续性使得不平衡回归区别于不平衡分类,研究人员提出了新的数据级或算法级方法,在从不平衡训练集中学习时校正模型的偏差。
数据级方法基于多种采样策略。通常,它们试图在数据预处理阶段通过在预定义的稀有标签区域合成新样本、并在普通标签区域进行欠采样,从而构建一个平衡的训练集。SmoteR [13] 基于 SMOTE [26],通过对输入和目标在稀有区域进行线性插值来合成新数据。Branco 等人 [14,27] 提出了 SmogN,该方法将 SmoteR 与通过高斯噪声进行的过采样相结合;同时,他们还设计了 REBAGG 算法,该算法集成多个使用不同重采样方法训练的回归器。
算法级方法假设测试集是均衡且一致的,进而设计不同的重加权损失函数,以从不平衡训练集中学习均衡的特征。Yang 等人 [18] 和 Steininger 等人 [16] 提出了 LDS 和 KDE 方法,将标签的连续性纳入考量:他们首先使用核密度估计(KDE)估计标签密度分布,然后通过与标签密度成反比的加权损失来优化模型。Gong 等人 [17] 引入了 RankSim,这是一种排序损失函数,同时考虑邻近和远距离标签之间的关系,以学习更优的连续特征空间。Ren 等人 [15] 提出了 Balanced MSE,通过改进均方误差(MSE)损失,防止在训练集不平衡时对稀有标签的低估。
上述方法无论显式还是隐式,都假设测试数据呈均匀分布。此外,非时间序列回归任务中的采样方法可能无法维持时间序列数据的上下文连续性。因此,这些方法不适用于 STR 任务。相比之下,我们提出的 ULDA(结合 TNS 与 CWL)在逼近“乌托邦”标签分布的同时,保持了时间序列数据在标签空间和时间上下文空间中的连续性。
- 所提出的方法
众所周知,在有偏的数据分布上进行学习会导致模型产生偏差。为了获得公平的模型和更好的泛化能力,期望模型能在真实世界的数据分布上进行训练。因此,我们的目标是让模型在“乌托邦”标签分布上学习——该分布基于数据集中原始的标签分布来逼近真实世界的分布,如图2(b)所示。
![]()
3.1 问题设定与动机
![]()
![]()
其中,表示人们投票不一致性的方差。一些研究者将不一致的投票视为噪声标签。我们可以看到,幸运的是,逼近“乌托邦”标签分布等价于在标签空间中进行高斯核回归。尽管数据集中标注者数量较少,但他们的标注结果仍落在高斯分布范围内。这启发我们提出了“乌托邦标签分布近似”方法。其核心组件是“标签分布卷积”,用于逼近“乌托邦”标签分布。为了使模型能更好地在“乌托邦”标签分布上训练,我们设计了一种数据级方法——“时间切片正态采样”(TNS),以及一种算法级方法——“卷积加权损失”(CWL)。具体细节如下所述。
3.2 标签分布卷积
![]()
![]()
3.3 时间切片正态采样
卷积之后,我们可以观察到,某些回归标签所需的样本数量大于原始样本数量,如图3(d)所示。SmoteR [13] 和 SmogN [14] 通过过采样原始样本来解决这一问题。然而,STR任务中标签空间和时间上下文空间的连续性,使得其样本与年龄估计或深度估计等任务中的样本有所不同 [15,17,18]。例如,在时间序列数据中,具有相同标签的样本可能位于不同的时间点,它们可能表现出显著不同的外观,如场景切换或视角变换,如图4(a)所示。因此,传统方法(例如 Mixup [28] 和 SMOTE [26],这些方法通过随机组合原始样本来生成新样本)可能无法维持样本在时间上下文空间中的连续性。
为解决这一问题,我们提出“时间切片正态采样”(TNS),利用邻近样本以保持上下文连续性。TNS 在一个短时间切片内使用正态分布估计局部样本的特征分布,然后基于该估计分布通过蒙特卡洛采样来增强样本。具体步骤如下:
3.3.1 新样本分配
![]()
![]()
这确保了新样本沿时间线均匀地添加到时间序列数据中。
3.3.2 切片特征的正态分布估计
![]()
![]()
![]()
![]()
3.4 卷积加权损失
图3(d)显示,在某些回归标签处,所需样本数量少于原始样本数量。然而,欠采样会破坏样本的上下文连续性。受 Dense Loss [16] 和 LDS [18] 的启发,我们根据每个标签在卷积前后样本数量的比例对这些样本重新加权。
![]()
![]()
其中, m m 是时间序列数据中的帧数,的真实标签和预测标签。CWL 通过降低样本权重而非删除样本,来维持时间序列数据的上下文连续性。与期望模型在均衡标签分布上训练的逆频率损失 [29] 和 Dense Loss [16] 不同,CWL 基于近似的乌托邦标签分布。
- 实验
为评估所提出方法的性能,我们在四个用于 STR 任务的基准数据集上进行了实验,包括电影情感分析、音乐情绪识别和视频摘要。
此外,还进行了性能与标签分布之间相关性的分析,以揭示性能提升的内在机理。
4.1 数据集与评估指标
LIRIS-ACCEDE [9] 是一个广泛用于电影情感分析的视频内容语料库,包含160部电影,每秒均标注有连续的效价(valence)和唤醒度(arousal)分数,取值范围为 [−1, 1]。该数据集涵盖恐怖、喜剧、动作等多种主题,并提供英语、法语和西班牙语等多个语言版本。
PMEmo [8] 包含794段音乐副歌片段,每个0.5秒片段均带有动态标注的效价和唤醒度分数(范围为 [−1, 1]),每个标签至少由10位标注者提供。
SumMe [6] 包含25个用户拍摄的视频,涵盖烹饪、体育等多样化事件,视频时长在1.5至6.5分钟之间。每一帧的重要性得分(范围为 [0, 1])由15至18位标注者投票得出。
TVSum [10] 包含从YouTube收集的50个视频,涵盖10个不同类别,如动物美容、制作三明治、更换汽车轮胎等。视频时长在1至5分钟之间,由20位用户对每一帧进行重要性评分,生成帧级别的连续重要性得分序列(范围为 [0, 1])。
对于 LIRIS-ACCEDE,评估指标采用均方误差(MSE)和皮尔逊相关系数(PCC);对于 PMEmo,使用均方根误差(RMSE)和 PCC;对于 SumMe 和 TVSum,我们遵循文献 [23],采用 F1 分数作为评估指标。
4.2 基线方法
我们在三个用于主观时间序列回归(Subjective Time-series Regression, STR)任务的模型上评估了所提出的 ULDA 方法。
PGL-SUM [23] 是为视频摘要任务设计的模型,在 SumMe 和 TVSum 数据集上表现出色。该方法将每个视频划分为 M M 个片段,并利用多头注意力机制建模全局帧与局部帧之间的依赖关系。PGL-SUM 将原始深度表征与编码了全局和局部依赖关系的表征相结合,再通过 Dropout 和归一化层输入到回归网络中,以预测重要性得分。
仅编码器 Transformer(Encoder-only Transformer, ET)[30] 是 MuSe-Stress 2022 挑战赛中表现最佳的模型之一。该挑战赛旨在构建序列回归模型,用于预测个体在压力情境下的效价(valence)和生理唤醒度(arousal)水平。ET 由两个线性层、一个位置编码器和一个 Transformer 编码器组成。
RMN [24] 最初为电影情感分析任务提出,据报告是目前在 LIRIS-ACCEDE 数据集上性能最好的模型。此外,它在其他长序列预测任务上也展现出良好的泛化能力。RMN 引入了一个可读可写的记忆库,用于存储有用的历史特征,并采用强化学习机制更新记忆库中的内容。我们根据论文中的描述复现了 RMN 模型。
4.3 实现细节
对于 LIRIS-ACCEDE 数据集,为每一帧提取多模态特征,包括音频、背景音乐、视觉场景、人体动作和面部表情。
- 音频特征:使用在 AudioSet [32] 上预训练的 VGGish [31] 提取一个 128 维向量。
- 背景音乐(bgm)特征:同样使用预训练的 VGGish 提取一个 128 维向量。
- 场景特征:在 Places365 [33] 上预训练的 VGG16 模型的最后一层卷积层上执行全局最大池化操作,得到一个 512 维向量。
- 人体动作特征:在 OpenPose 的主干网络 [34] 后附加两组卷积/最大池化层和一个全连接层,并在 LIRIS-ACCEDE 数据集上进行微调;从最后一层全连接层中提取一个 128 维的动作特征。
- 面部表情特征:利用 MTCNN [35] 检测到的最大人脸,并使用在 RAF [37] 上预训练的 Xception 网络 [36] 提取一个 3072 维向量。
为了将这些帧级特征融合为片段级(slice-level)向量,采用了一个包含 128 个单元的两层双向 LSTM。
对于 PMEmo 数据集,使用 VGGish [31] 提取音频特征。对于 SumMe 和 TVSum 数据集,使用在 ImageNet [39] 上预训练的 GoogleNet [38] 倒数第二层(pool5)的输出作为帧表示。
对于 LIRIS-ACCEDE 和 PMEmo 数据集,参数 b 设为 100;对于 SumMe 和 TVSum 数据集, b 设为 10。高斯核函数 k ( ⋅ )
用于卷积的核大小 δ 和标准差 σ 分别为:
- LIRIS-ACCEDE:0.06, 0.06
- PMEmo:0.3, 0.3
- SumMe:0.02, 0.02
- TVSum:0.1, 0.1
在估计片段内特征集的正态分布时,所有数据集的时间片段长度阈值 T T 均设为 10。
由于 TNS 在特征空间中生成新样本,我们根据各基线模型自身的架构,将这些样本放置在合适的位置:
- 对于 PGL-SUM,TNS 被置于全局与局部特征融合之后;
- 对于 ET,TNS 被置于 Transformer 编码器之后;
- RMN 不应用 TNS,因为它沿时间轴通过样本逐步更新,因此仅对 RMN 应用 CWL。
所有三个基线模型的超参数均与其原论文中的设置保持一致。
4.4 主要结果
我们在四个主观时间序列回归数据集上,基于三个基线模型对所提出的 ULDA 方法进行了评估。对于每个数据集,我们首先将 RMN+ULDA 与其他竞争方法进行比较,然后将三个基线模型分为四个子部分,以展示 ULDA 为每个基线带来的性能提升。每项测试均重复三次,并在表 1、表 2 和表 3 中报告平均结果。其中,“Baseline” 表示我们复现的模型结果,“CWL” 表示仅在对原始标签分布进行卷积后使用 CWL 的结果,“TNS + CWL” 表示对需要过采样的标签使用 TNS、对需要欠采样的标签使用 CWL(均在标签卷积之后)的结果。
![]()
![]()
![]()
LIRIS-ACCEDE 数据集上的视频情感分析结果如表 1 所示。我们最佳的模型 RMN+ULDA 几乎优于所有竞争方法。可以看出,最新的 SOTA 方法 RMN 在使用近似乌托邦标签分布进行训练后,在效价(Valence)的 PCC 以及唤醒度(Arousal)的 MSE 和 PCC 上均获得了显著提升,仅效价的 MSE 基本保持不变。
我们还评估了 CWL 和 TNS 在每个基线模型上的有效性。需要注意的是,我们自行实现了三个基线模型,并在我们的计算环境中进行了测试,其性能与文献 [24] 中报告的结果存在一定差距。可以观察到,仅使用 CWL 就能提升这些基线模型的性能:
- 在 MSE 指标上,CWL 对效价和唤醒度的基线模型平均相对提升了约 11.7% 和 6.4%;
- 在 PCC 指标上,CWL 对效价和唤醒度的基线模型平均相对提升了约 10.0% 和 6.0%。
在结合 CWL 与 TNS 后,基线模型的性能进一步提升:
- 在 MSE 指标上,TNS + CWL 对效价和唤醒度的基线模型平均相对提升了约 17.1% 和 7.8%;
- 在 PCC 指标上,平均相对提升了约 20.5% 和 14.4%。
我们认为这一额外性能增益的原因如下:在稀有标签处,由于样本不足,数据空间无法被充分表征;相比之下,TNS 通过蒙特卡洛采样生成新样本,增加了数据多样性,使模型能够学习到更优的数据表示。
在 PMEmo 数据集上(见表 2)也可观察到类似结果。RMN+ULDA 在效价和唤醒度的 PCC 上显著优于竞争方法;在 MSE 上,其结果与竞争方法相当。对于各基线模型,仅使用 CWL 就能在效价和唤醒度的 MSE 与 PCC 上带来显著提升;在结合 CWL 与 TNS 后,几乎所有指标的性能都进一步提高。
视频摘要任务在 SumMe 和 TVSum 数据集上的结果如表 3 所示。我们同样观察到类似趋势:我们最佳的模型 RMN+ULDA 在 SumMe 数据集上显著优于所有竞争方法,在 TVSum 数据集上取得的 F1 分数与 RMN 相当。对于基线模型,TNS + CWL 在 SumMe 和 TVSum 上分别带来了平均约 3.9% 和 3.5% 的绝对提升。
上述所有结果表明,在主观时间序列回归(STR)任务中,近似乌托邦标签分布比原始标签分布更为有效。
4.5 性能与标签分布的相关性分析
为了深入理解性能提升的原因,我们在 LIRIS-ACCEDE 数据集上对训练集在使用和不使用高斯卷积情况下的标签分布,以及测试集的标签分布进行了相关性分析,如图 5(a) 所示。这三种分布分别用蓝色、红色和黄色表示。在该分析中,我们以 PGL-SUM 模型为例。图 5(b) 绘制了使用和不使用 ULDA 训练的 PGL-SUM 模型的 MSE 结果。其中,实线表示每个标签下所有样本的平均 MSE,阴影带表示对应标签下所有样本 MSE 的取值范围。
![]()
总体来看,经过卷积后,训练集的近似乌托邦标签分布与测试集标签分布之间的 PCC(皮尔逊相关系数)有所提高,即这两个标签分布变得更加相似。与此同时,平均 MSE 下降(见图 5(b) 中的蓝色实线)。更重要的是,MSE 的取值范围显著变窄(见蓝色阴影带)。
我们观察到,平均 MSE 随样本数量的变化而变化。因此,我们将训练集的标签分布进一步划分为三个区域:以 500 为阈值,样本数量高的区域记为 II,样本数量低的两个区域记为 I 和 III。在区域 II 中,无论是否使用 ULDA,平均 MSE 都较小;在区域 III 中,平均 MSE 降低;而在区域 I 中,平均 MSE 反而升高。可以看出,平均 MSE 的变化与 PCC 的变化呈负相关。然而,在几乎所有三个区域中,MSE 的取值范围都明显收窄,表明模型预测的稳定性(即模型公平性)得到了提升。
基于上述观察,我们可以得出两个结论:
(1) 性能提升主要源于近似乌托邦标签分布更接近测试集的标签分布;
(2) 在近似乌托邦标签分布上训练后,模型能够产生更加稳定的预测结果。
4.6 消融实验
我们在 LIRIS-ACCEDE 数据集上进行了消融研究,以分析 ULDA 中各类加权损失函数、过采样方法以及关键参数的有效性。
4.6.1 加权损失函数
为验证卷积加权损失(Convolution Weighted Loss, CWL)的有效性,我们将其与三种用于不平衡回归任务的其他损失函数进行比较:
(1) 逆频率加权(Inverse-frequency Weighting, INV)[29]:根据每个标签观测到的概率密度的乘法逆进行样本重加权;
(2) 标签分布平滑(Label Distribution Smoothing, LDS)[18]:首先使用高斯核对标签分布进行平滑,以估计包含标签相关性的标签密度分布,然后应用 INV 损失;
(3) Dense Loss [16]:与 LDS 类似地估计标签密度分布,但使用平滑后标签概率密度分布的加法逆对样本进行重加权。
这些损失函数的假设与 CWL 不同:它们假设测试集是均匀分布的,并期望模型在平衡的训练集上进行训练。而 CWL 则期望模型学习的是“乌托邦标签分布”——该分布不一定均匀,但更接近真实世界的情况。
表 4 的结果显示,CWL 在几乎所有测试中表现最佳。这表明“数据集均匀分布”的假设在主观时间序列回归(STR)任务中可能不成立,同时也验证了我们所提出的近似乌托邦标签分布的有效性。
4.6.2 过采样方法
为评估 TNS 的有效性,我们将其与两种广泛接受的回归任务过采样方法进行比较:
(1) SMOGN [14]:结合 SmoteR [13] 与高斯噪声生成新样本;
(2) C-Mixup [28]:基于标签距离选择更可靠的邻近样本用于合成新样本。
在本次实验中,SMOGN 和 C-Mixup 仅在时间片段(slice)内部选择样本进行过采样,以保持新样本在时序上下文空间中的连续性。为适配近似乌托邦标签分布,我们同时使用 CWL 来降低那些需要欠采样的标签上样本的损失。
![]()
![]()
表 5 的结果表明,TNS 在 ET 模型上取得了最佳性能;在 PGL-SUM 模型上,TNS 在唤醒度(arousal)预测中表现最佳,在效价(valence)预测中排名第二。这说明 TNS 在 STR 任务中比其他两种方法更有效,因为它能够更好地保持新样本的上下文连续性。
4.6.3 关键参数
![]()
![]()
- 结论与局限性
我们提出了一种新颖的“乌托邦标签分布近似”(Utopia Label Distribution Approximation, ULDA)方法,用于解决主观时间序列回归(STR)任务中时间序列数据存在的标签分布偏差问题。ULDA 通过使训练集与测试集的标签分布更加相似,提升了模型的公平性,从而将现有 STR 方法在四个基准数据集上的性能推至新的最先进(state-of-the-art)水平。
然而,我们的方法仍存在一些局限性。时间片段正态采样(Time-slice Normal Sampling, TNS)虽用于保持时间序列的上下文连续性,但其在模型前向过程中需要增加样本数量,这限制了它在某些其他模型中的应用。此外,对片段特征进行正态分布估计会增加时间复杂度,且该复杂度与特征维度成正比:更高的维度虽能带来更精确的数据表示,却也导致显著更高的计算开销。
未来,我们将研究更高效的采样方法以克服上述局限,并希望我们的工作能够激发更多关于在标签分布存在偏差情况下如何有效训练模型的研究。
原文链接:https://www.sciencedirect.com/science/article/pii/S0031320324006757
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.