网易首页 > 网易号 > 正文 申请入驻

ICLR 2024 | NUS尤洋团队联合MIT/上海AI Lab等提出首个无损数据集蒸馏方法DATM

0
分享至

数据集蒸馏旨在以生成的方式将一个大的数据集压缩成一个小的数据集。得益于生成数据的高信息密度,在压缩率较高时,数据集蒸馏的效果远超数据集剪枝等其他数据压缩方法。然而,随着压缩率的逐渐降低,现有数据集蒸馏方法的效果逐渐变差,甚至弱于从原数据集中随机选取等量数据。这导致现有数据集蒸馏方法局限于高压缩率场景,无法实现对原数据集的无损压缩。

在本文中,作者分析了生成数据的难易以及其对压缩效果的影响,发现应该根据压缩比率控制生成数据的难易。通过应用这一策略,作者提出了第一个可以在低压缩率保持有效的数据集蒸馏方法,并首次实现了无损数据集蒸馏。

论文题目: Towards Lossless Dataset Distillation via Difficulty-Aligned Trajectory Matching 论文链接: https://arxiv.org/abs/2310.05773 代码链接: https://github.com/NUS-HPC-AI-Lab/DATM

一、动机

数据蒸馏可以看作是一个从目标数据集提取特征并将之添加到生成数据上的过程。 目前,主流的数据集蒸馏方法大多通过匹配模型在目标数据集和生成数据集上的某种指标来完成特征的提取与压缩。其中,基于匹配模型训练轨迹[1](Matching Training Trajectory)的方法在多个基准下达到了最优。由于该方法通过匹配模型在生成数据集和目标数据集上的训练轨迹(匹配模型参数)来进行蒸馏,因此其效果受模型在目标数据集上的训练轨迹影响。

根据文献[2]可知,对于分类任务而言,模型倾向于在训练前期学习目标物体的简单特征而在后期学习难特征。因此我们推测匹配模型的前期轨迹就会倾向于在生成数据上添加更多的简单特征而匹配后期轨迹则会倾向于添加难特征。意识到这一点,我们开始探索匹配不同阶段路径对于数据集蒸馏的影响。

图一、匹配不同阶段的轨迹的蒸馏效果

实验结果如图一所示,当IPC较低(即压缩率较高)时,匹配前期轨迹(即添加简单特征)是最有效的。而随着压缩率的降低,匹配后期轨迹则变成了最优选择,此时匹配前期路径甚至变得有害。基于这些实验现象,我们提出根据压缩比率控制生成特征的难易,并基于此提出了我们的方法。

二、方法

控制生成特征的难易对于基于轨迹匹配的方法来说较为简单,可以通过控制用于匹配的训练轨迹来实现。为了便于理解,我们用 来表示模型在目标数据集上的训练轨迹,并用 表示第 个epoch时模型的参数。为了能够灵活控制用于匹配的训练轨迹,我们为匹配范围设置了两个超参:匹配范围的下限 和上限 ,如下所示。

同时,为了使蒸馏数据集所含的信息更加丰富,我们将蒸馏数据的硬标签(one-hot label)替换为软标签并在蒸馏过程中不断优化它。然而这种做法面临着一些挑战,例如软标签的初始化可能会包含错误信息,以及优化软标签会让蒸馏变得不稳定。为了解决这些问题,我们提出了以下策略:


  1. 用可以被预训练模型正确分类的数据初始化蒸馏数据。



  2. 在蒸馏的早期阶段只生成简单特征(匹配前期轨迹),以此来提高蒸馏稳定性。


为了实现第二点,我们为匹配范围新增一个可浮动的上限 ,让它在蒸馏初期较小并随着蒸馏的进行逐渐增加直至其上限 。最终,匹配的范围可以表示为:

三、实验

3.1 效果比较

我们在CIFAR10,CIFAR100和TinyImageNet数据集下和多个有代表性的数据集蒸馏方法进行了对比,并进一步探索了数据集蒸馏在高IPC情境下的表现。主要的实验结果如下,更多的结果请参考我们的论文。

和多个蒸馏方法在不同数据集和不同IPC(image per class)设定下的比较

在高IPC情境下数据集蒸馏和数据集剪枝的表现比较

3.2 分析

简单特征和难特征有什么特点?为什么压缩率较低时添加简单特征有害?我们对这些问题进行了探索。如下图所示,匹配前期轨迹(添加简单特征)会更大幅度的改变图片内容,将目标物体融入背景,使图片有更多关于目标物体的基本信息。这使得添加简单特征在压缩率较高时有效,因为此时蒸馏数据集太小以至于模型无法很好的学习到各个类别的基本特征。

匹配处于不同训练阶段的轨迹所得的蒸馏样本

此外,我们可以观察到添加简单特征会让图片损失关于目标物体的细节信息,而添加难特征(匹配后期轨迹)则会让目标物体具有更丰富的纹理细节。因此在压缩率较低时添加难特征的表现更好,因为此时蒸馏数据集本身就含有足够多的数据让模型学会基本的类别特征,添加更多的细节有利于模型识别离群样本。下图是蒸馏图片的可视化,更多分析请见论文。

不同IPC设定下蒸馏所得样本

匹配前期轨迹过程中图片的变化

匹配后期轨迹过程中图片的变化

四、总结

在这项工作中,作者发现应该根据压缩比率控制生成样本的难度。通过应用这一思想,作者提出了第一个可以在高/低压缩率皆能保持有效的数据集蒸馏算法,并首次实现了无损数据集蒸馏,将CIFAR-10,CIFAR-100压缩到了原数据集的1/5大小而不对训练ConvNet造成性能损失。

参考文献

[1] Dataset distillation by matching training trajectories. In CVPR, 2022.

[2] A closer look at memorization in deep networks. In ICML, 2017.

Illustration From IconScout By Delesign Graphics

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
AI破解乌鸦语言后确认:这就是地球上的另一波文明

AI破解乌鸦语言后确认:这就是地球上的另一波文明

自说自话的总裁
2026-02-13 17:24:54
失业小区门口摆摊:凌晨两点半熬粥,6小时没人买,剩粥倒掉心疼

失业小区门口摆摊:凌晨两点半熬粥,6小时没人买,剩粥倒掉心疼

捣蛋窝
2026-02-10 18:19:27
王心迪:帮徐梦桃圆梦!她期待变成奥运冠军夫妇,我在家里排老二

王心迪:帮徐梦桃圆梦!她期待变成奥运冠军夫妇,我在家里排老二

奥拜尔
2026-02-20 22:33:11
“性萧条”才是这个时代真正的危机

“性萧条”才是这个时代真正的危机

深蓝夜读
2025-09-24 16:00:09
浙江一快递员跳河救落水小孩,弄湿客户名牌包被索赔8万,谁料孩子爷爷拿出一张卡,客户瞬间懵了!

浙江一快递员跳河救落水小孩,弄湿客户名牌包被索赔8万,谁料孩子爷爷拿出一张卡,客户瞬间懵了!

明智家庭教育
2026-02-20 20:15:56
微信出现了一道淡灰线,表示好友把你移出了

微信出现了一道淡灰线,表示好友把你移出了

娱乐督察中
2026-02-21 10:45:04
004航母排水量意外泄露,美媒称中国将建造13万吨ECBL

004航母排水量意外泄露,美媒称中国将建造13万吨ECBL

梁伫爱玩车
2026-02-21 08:23:57
被王毅外长痛斥后日本生气了!小泉进次郎通告全球,不向中国妥协

被王毅外长痛斥后日本生气了!小泉进次郎通告全球,不向中国妥协

阿离家居
2026-02-20 06:39:18
美媒感慨:若不是中国还在反抗特朗普,几乎全世界都向他投降了

美媒感慨:若不是中国还在反抗特朗普,几乎全世界都向他投降了

时尚的弄潮
2026-02-21 05:34:26
王中磊破产,携全家搬出庄园住进别墅,老婆愁眉苦脸被迫接受降级

王中磊破产,携全家搬出庄园住进别墅,老婆愁眉苦脸被迫接受降级

王瑄自驾
2025-11-13 20:32:34
美国一富豪被冷冻50年,原定2017年苏醒,解冻时工作人员紧急叫停

美国一富豪被冷冻50年,原定2017年苏醒,解冻时工作人员紧急叫停

蜉蝣说
2025-12-01 11:20:58
韩国法庭披露:尹锡悦发动内乱失败,是因为没料到国会很多人加班

韩国法庭披露:尹锡悦发动内乱失败,是因为没料到国会很多人加班

蓝色海边
2026-02-20 15:36:14
她在柬埔寨7天被轮奸9次,被大陆解救,回台湾后立马抹黑大陆

她在柬埔寨7天被轮奸9次,被大陆解救,回台湾后立马抹黑大陆

李橑在北漂
2026-02-09 16:13:50
当年因“背母上学”感动国人的刘霆,十年后选择变性,更在选美赛事上获奖

当年因“背母上学”感动国人的刘霆,十年后选择变性,更在选美赛事上获奖

文史明鉴
2026-01-24 16:50:16
美最大航母驶入地中海,特朗普提出“最后期限”,多国敦促在伊朗公民尽快撤离

美最大航母驶入地中海,特朗普提出“最后期限”,多国敦促在伊朗公民尽快撤离

上游新闻
2026-02-21 10:54:58
临近春节,《惊蛰无声》被多家影院控诉,张艺谋或将脸面尽失

临近春节,《惊蛰无声》被多家影院控诉,张艺谋或将脸面尽失

TVB的四小花
2026-02-20 23:40:11
人间铁律!别人的儿子永远养不熟,天下的继父没有一个有好结果!

人间铁律!别人的儿子永远养不熟,天下的继父没有一个有好结果!

历史按察使司
2026-02-13 08:00:22
手气爆棚!河南52岁男子打麻将连续自摸胡牌,兴奋过度,突然栽倒牌桌,送医时血压飙升至201/115mmHg

手气爆棚!河南52岁男子打麻将连续自摸胡牌,兴奋过度,突然栽倒牌桌,送医时血压飙升至201/115mmHg

扬子晚报
2026-02-20 16:18:13
西方怪象:中国搞定高科技武器,西方马上宣布其为“低科技”,酸了

西方怪象:中国搞定高科技武器,西方马上宣布其为“低科技”,酸了

音乐时光的娱乐
2026-02-21 10:38:03
"都够组一支国家队了!"德甲"18名日本选手"令郑大世震惊惊呼

"都够组一支国家队了!"德甲"18名日本选手"令郑大世震惊惊呼

星耀国际足坛
2026-02-20 11:31:50
2026-02-21 11:59:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

7名中国游客贝加尔湖遇难:冰面裂缝约3米 在打捞遗体

头条要闻

7名中国游客贝加尔湖遇难:冰面裂缝约3米 在打捞遗体

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

教育
时尚
数码
家居
本地

教育要闻

母亲的爱有什么特点?很多人抱怨这件事

2026纽约秋冬时装周,在春天开启美的新故事!

数码要闻

苹果低价MacBook下月登场:首次搭载A18 Pro手机芯片!

家居要闻

本真栖居 爱暖伴流年

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

无障碍浏览 进入关怀版