网易首页 > 网易号 > 正文 申请入驻

LossVal:一种集成于损失函数的高效数据价值评估方法

0
分享至

在机器学习领域,训练数据的价值并非均等:部分训练数据点对模型训练的影响显著高于其他数据点。评估单个数据点的影响程度通常需要反复重训练模型,计算效率低下。LossVal提出了一种创新方法,通过将数据价值评估过程直接集成到神经网络的损失函数中,实现了高效的数据价值评估。

现代机器学习模型通常依赖大规模数据集进行训练。在实际应用中,数据集中的训练样本对模型的信息贡献度存在显著差异。例如含噪声数据点或标注错误的样本往往对机器学习模型的学习过程贡献有限。在这篇研究的一个实验中,利用车辆碰撞测试数据集训练模型,目标是基于车辆参数预测碰撞对乘员的伤害程度。数据集中包含80年代和90年代的车辆数据,这些历史数据对现代车辆的碰撞预测可能具有较低的参考价值。

LossVal技术原理

LossVal的核心思想是在模型训练过程中同步学习样本重要性得分,这一过程与模型权重的学习机制类似。这种方法避免了传统方法中需要多次重训练模型的计算开销,同时也无需记录训练过程中的模型权重更新序列。

实现上述目标的关键在于对标准损失函数(如均方误差MSE和交叉熵损失)进行改进。通过在损失函数中引入实例级权重,并将其与加权分布距离函数相乘。LossVal损失函数的一般形式可表示为:

其中ℒ表示加权目标损失(可以是加权MSE或交叉熵),OT代表最优传输的加权分布距离。这种改进后的损失函数可直接用于神经网络训练,其中权重w通过梯度下降方法在每个训练步骤中更新。

以下分别介绍回归任务和分类任务中LossVal的具体实现方法,随后详细探讨分布距离OT的计算原理。

回归任务中的LossVal实现

从最基础的MSE开始分析。标准MSE定义为模型预测值ŷ与真实值y之间的平方差(n为训练样本索引):

LossVal对MSE进行了两步改进:首先引入样本权重wₙ,为每个训练实例分配权重;其次将加权MSE与分布距离函数相乘。

分类任务中的LossVal实现

标准交叉熵损失的表达式为:

对交叉熵损失的改进方式与MSE类似:

最优传输距离度量

最优传输距离反映了将一个分布转换为另一个分布所需的最小代价,也称为推土机距离(这一形象化的名称源自于描述将一堆土填入坑洞的最优路径问题)。其数学定义为:

其中c表示将点xₙ移动到xⱼ的代价,γ代表可能的传输方案集合,定义了点的移动路径。最优传输方案γ*是指具有最小分布距离的传输方案。值得注意的是,论文通过联合分布Π(w, 1)将权重w整合到代价函数中。因此OTᵥᵥ实际上度量了训练集与验证集之间的加权距离。

从实际应用角度来看,通过优化权重以最小化OTᵥᵥ,算法会自动为与验证数据相似的训练数据点分配较高权重,而噪声样本则会获得较低权重。这种机制确保了模型能够更多地从高质量数据中学习。

算法实现

完整的实现代码和相关数据集已在GitHub平台开源。以下代码展示了LossVal在均方误差场景下的核心实现:

def LossVal_mse(train_X: torch.Tensor,
train_y_true: torch.Tensor, train_y_pred: torch.Tensor,
val_X: torch.Tensor, sample_ids: torch.Tensor
weights: torch.Tensor, device: torch.device) -> torch.Tensor:
weights = weights.index_select(0, sample_ids) # 根据sample_ids选择对应的权重
# 步骤1:计算加权均方误差损失
loss = torch.sum((train_y_true - train_y_pred) ** 2, dim=1)
weighted_loss = torch.sum(weights @ loss) # loss为向量,weights为矩阵
# 步骤2:计算训练集与验证集之间的Sinkhorn距离
sinkhorn_distance = SamplesLoss(loss="sinkhorn")
dist_loss = sinkhorn_distance(weights, train_X, torch.ones(val_X.shape[0], requires_grad=True).to(device), val_X)
# 步骤3:组合MSE损失与Sinkhorn距离
return weighted_loss * dist_loss**2

该损失函数在PyTorch框架中的使用方式与标准损失函数类似,但需要注意以下特殊之处:函数参数中包含验证集、样本权重以及批次样本索引,这些参数对于计算批处理样本的加权损失至关重要。实现依赖PyTorch的自动微分机制,因此样本权重向量需要作为模型参数的一部分。这样设计使得权重优化可以直接利用Adam等优化器的优势。另外也可以通过手动计算损失对各权重i的梯度来更新权重。对于交叉熵损失的实现,架构相似,主要区别在于需要修改第8行的损失计算方式。

实验验证

噪声样本检测任务中各数据价值评估方法的性能对比。指标越高表示性能越好。

上图展示了各种数据价值评估方法在噪声样本检测任务中的性能对比。该任务基于OpenDataVal基准测试框架:首先在训练数据的p%样本中注入噪声,然后利用数据价值评估方法识别这些噪声样本。评估方法的性能通过其识别噪声样本的准确度(F1分数)来衡量。图中结果是在6个分类数据集和6个回归数据集上的平均表现。实验中考虑了三种噪声类型:标签噪声、特征噪声和混合噪声(其中混合噪声条件下,一半样本包含特征噪声,另一半包含标签噪声)。结果表明,在标签噪声和混合噪声场景下,LossVal的性能优于其他方法。但在特征噪声场景中,LAVA展现出更好的性能。

数据点移除实验(如下图所示)采用了类似的实验设计。该实验的目标是评估移除高价值数据点对模型性能的影响。理论上,更准确的数据价值评估方法会优先识别出更重要的数据点,因此移除这些点会导致模型性能更快下降。实验结果显示,LossVal在此任务上与当前最先进的方法达到相当的性能水平。

高价值数据点移除实验中各方法的性能对比。指标越低表示性能越好。

总结

LossVal方法的技术创新在于:通过梯度下降方法优化每个数据点的权重,从而量化数据点的重要性。

实验结果表明,LossVal在OpenDataVal基准测试中达到了领先性能水平。相比其他基于模型的方法,LossVal具有更低的时间复杂度,并在不同类型的噪声和任务场景下展现出更稳定的性能。

综上所述,LossVal为神经网络的数据价值评估提供了一种高效且有效的新方法。

https://avoid.overfit.cn/post/2998b89f8457448e8b26febcd706edc0

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
毁三伤二!伊朗突袭科威特基地,五架“台风”战机遭重创

毁三伤二!伊朗突袭科威特基地,五架“台风”战机遭重创

武器纵论
2026-03-21 15:47:05
4S店卖一辆亏一辆?杭州经销商:一辆官方指导价12.59万元的车,成交价已击穿8.4万元

4S店卖一辆亏一辆?杭州经销商:一辆官方指导价12.59万元的车,成交价已击穿8.4万元

都市快报橙柿互动
2026-03-20 19:36:04
癌症去世的人越来越多?协和再次提醒:宁可打打牌,也别做这5事

癌症去世的人越来越多?协和再次提醒:宁可打打牌,也别做这5事

鬼菜生活
2026-03-21 19:20:12
3次降温!5次降水!江苏最新预测

3次降温!5次降水!江苏最新预测

无锡eTV全媒体
2026-03-22 03:16:30
1-1!意甲争四大冷:尤文不胜+无缘进前4,米兰差国米5分有望逆袭

1-1!意甲争四大冷:尤文不胜+无缘进前4,米兰差国米5分有望逆袭

体育知多少
2026-03-22 06:16:21
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
北京这夜:章子怡脸肿撞脸倪萍,刘浩存好土 周冬雨靠几百裙子出

北京这夜:章子怡脸肿撞脸倪萍,刘浩存好土 周冬雨靠几百裙子出

卷史
2026-03-21 19:54:29
不知大家发现没!超奇怪的用车现象:电车跑1000公里电费仅100元

不知大家发现没!超奇怪的用车现象:电车跑1000公里电费仅100元

阿芒娱乐说
2026-03-20 04:13:07
“梅姨”现身并落网!对贩卖儿童事实供认不讳,已被依法逮捕

“梅姨”现身并落网!对贩卖儿童事实供认不讳,已被依法逮捕

南方都市报
2026-03-21 11:35:00
普通人接触富人的生活有多震撼?网友:吸引力法则让我刷到你!

普通人接触富人的生活有多震撼?网友:吸引力法则让我刷到你!

解读热点事件
2026-03-22 00:05:09
《好好的时光》收官,3人零差评1人翻红,她全程龇牙咧嘴差评一片

《好好的时光》收官,3人零差评1人翻红,她全程龇牙咧嘴差评一片

洲洲影视娱评
2026-03-21 14:20:20
近期贾玲去参加了自己恩师冯巩的生日聚会,你们看看还有谁缺席了

近期贾玲去参加了自己恩师冯巩的生日聚会,你们看看还有谁缺席了

草莓解说体育
2026-03-22 05:58:56
“80后”、九三学社社员,任高校“掌门”

“80后”、九三学社社员,任高校“掌门”

双一流高校
2026-03-22 00:12:02
破纪录在即,拜仁距德甲历史单赛季进球纪录只差4球

破纪录在即,拜仁距德甲历史单赛季进球纪录只差4球

懂球帝
2026-03-22 01:19:20
中国精准反制巴拿马!放弃180亿换5亿?两大航运巨头做两难抉择!

中国精准反制巴拿马!放弃180亿换5亿?两大航运巨头做两难抉择!

归史
2026-03-22 05:04:20
战争第20天,终于打出了让全世界屏住呼吸的一幕!

战争第20天,终于打出了让全世界屏住呼吸的一幕!

浪子的烟火人间
2026-03-21 17:15:59
女子赴发小婚礼穿瑜伽裤,打扮过于火辣,网友直呼跟没穿似的

女子赴发小婚礼穿瑜伽裤,打扮过于火辣,网友直呼跟没穿似的

一盅情怀
2026-03-16 17:28:45
35岁上海男子心脏骤停离世!“降糖偏方”竟成催命符

35岁上海男子心脏骤停离世!“降糖偏方”竟成催命符

不甜的李子
2026-03-22 04:15:36
2024年叶诚尘被注射死刑,警方恢复大量聊天内容,发现她有一怪癖

2024年叶诚尘被注射死刑,警方恢复大量聊天内容,发现她有一怪癖

瞻史
2026-03-19 21:06:35
陈云晚年首次披露:遵义会议上这两个人死活不同意毛主席,吵得面红耳赤

陈云晚年首次披露:遵义会议上这两个人死活不同意毛主席,吵得面红耳赤

老杉说历史
2026-03-21 17:38:44
2026-03-22 08:39:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1955文章数 1459关注度
往期回顾 全部

科技要闻

库克在华这四天,一场既定的市场秀

头条要闻

男子在壶口瀑布外拍视频喊"门口要钱"被投诉 景区回应

头条要闻

男子在壶口瀑布外拍视频喊"门口要钱"被投诉 景区回应

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

本地
亲子
房产
公开课
军事航空

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

亲子要闻

“锌”是聪明根!春天孩子多吃高锌菜,脑子灵、记性好、个头猛长

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊导弹击中以核设施附近 爆炸视频公布

无障碍浏览 进入关怀版