网易首页 > 网易号 > 正文 申请入驻

数据更多更好还是质量更高更好?这项研究能帮你做出选择

0
分享至

机器之心报道

编辑:Panda W

当计算预算低时,重复使用高质量数据更好;当不差钱时,使用大量数据更有利。

对基础模型进行 scaling 是指使用更多数据、计算和参数进行预训练,简单来说就是「规模扩展」。

虽然直接扩展模型规模看起来简单粗暴,但也确实为机器学习社区带来了不少表现卓越的模型。之前不少研究都认可扩大神经模型规模的做法,所谓量变引起质变,这种观点也被称为神经扩展律(neural scaling laws)。

近段时间,又有不少人认为「数据」才是那些当前最佳的闭源模型的关键,不管是 LLM、VLM 还是扩散模型。随着数据质量的重要性得到认可,已经涌现出了不少旨在提升数据质量的研究:要么是从大型语料库中过滤出高质量数据,要么是生成高质量的新数据。但是,过去的扩展律一般是将「数据」视为一个同质实体,并未将近期人们关注的「数据质量」作为一个考量维度。

尽管网络上的数据规模庞大,但高质量数据(基于多个评估指标)通常很有限。现在,开创性的研究来了 —— 数据过滤维度上的扩展律!它来自卡内基梅隆大学和 Bosch Center for AI,其中尤其关注了「大规模」与「高质量」之间的数量 - 质量权衡(QQT)。



  • 论文标题:Scaling Laws for Data Filtering—Data Curation cannot be Compute Agnostic
  • 论文地址:https://arxiv.org/pdf/2404.07177.pdf
  • 代码地址:https://github.com/locuslab/scaling_laws_data_filtering

如图 1 所示,当训练多个 epoch 时,高质量数据的效用(utility)就不大了(因为模型已经完成了学习)。



此时,使用更低质量的数据(一开始的效用更小)往往比重复使用高质量数据更有助益。

在数量 - 质量权衡(QQT)之下,我们该如何确定训练使用怎样的数据搭配更好?

为了解答这个问题,任何数据整编(data curation)工作流程都必须考虑模型训练所用的总计算量。这不同于社区对数据过滤(data filtering)的看法。举个例子,LAION 过滤策略是从常见爬取结果中提取出质量最高的 10%。

但从图 2 可以看出,很明显一旦训练超过 35 epoch,在完全未整编的数据集上训练的效果优于在使用 LAION 策略整编的高质量数据上训练的效果。



当前的神经扩展律无法建模质量与数量之间这种动态的权衡。此外,视觉 - 语言模型的扩展律研究甚至还要更加更少,目前的大多数研究都仅限于语言建模领域。

今天我们要介绍的这项开创性研究攻克了之前的神经扩展律的三大重要局限,其做到了:

(1)在扩展数据时考虑「质量」这个轴;

(2)估计数据池组合的扩展律(而无需真正在该组合上进行训练),这有助于引导实现最优的数据整编决策;

(3)调整 LLM 扩展律,使之适用于对比训练(如 CLIP),其中每一批都有平方数量的比较次数。

该团队首次针对异构和数量有限的网络数据提出了扩展律。

大型模型是在多种质量的数据池组合上训练完成的。通过对从各个数据池的扩散参数(如图 1 (a) 中的 A-F)派生的聚合数据效用进行建模,就可以直接估计模型在这些数据池的任意组合上的性能。

需要重点指出,这种方法并不需要在这些数据池组合上进行训练就能估计它们的扩展律,而是可以根据各个组成池的扩展参数直接估计它们的扩展曲线。

相比于过去的扩展律,这里的扩展律有一些重要差异,可以建模对比训练机制中的重复,实现 O (n²) 比较。举个例子,如果训练池的大小倍增,对模型损失有影响的比较次数就会变成原来的四倍。

他们用数学形式描述了来自不同池的数据的相互交互方式,从而可以在不同的数据组合下估计模型的性能。这样便可以得到适合当前可用计算的数据整编策略。

这项研究给出的一个关键信息是:数据整编不能脱离计算进行

当计算预算少时(更少重复),在 QQT 权衡下质量优先,如图 1 中低计算量下的激进过滤(E)的最佳性能所示。

另一方面,当计算规模远超过所用训练数据时,有限高质量数据的效用会下降,就需要想办法弥补这一点。这会得到不那么激进的过滤策略,即数据量更大时性能更好。

该团队进行了实验论证,结果表明这个用于异构网络数据的新扩展律能够使用 DataComp 的中等规模池(128M 样本)预测从 32M 到 640M 的各种计算预算下的帕累托最优过滤策略。

一定计算预算下的数据过滤

该团队通过实验研究了不同计算预算下数据过滤的效果。

他们使用一个大型初始数据池训练了一个 VLM。至于基础的未过滤数据池,他们选用了近期的数据整编基准 Datacomp 的「中等」规模版本。该数据池包含 128M 样本。他们使用了 18 个不同的下游任务,评估的是模型的零样本性能。

他们首先研究了用于获得 LAION 数据集的 LAION 过滤策略,结果见图 2。他们观察到了以下结果:

1. 在计算预算低时,使用高质量数据更好。

2. 当计算预算高时,数据过滤会造成妨害。

原因为何?

LAION 过滤会保留数据中大约 10% 的数据,因此计算预算大约为 450M,来自已过滤 LAION 池的每个样本会被使用大约 32 次。这里的关键见解是:对于同一个样本,如果其在训练过程中被多次看见,那么每一次所带来的效用就会下降。

之后该团队又研究了其它两种数据过滤方法:

(1)CLIP 分数过滤,使用了 CLIP L/14 模型;

(2)T-MARS,在掩蔽了图像中的文本特征(OCR)后基于 CLIP 分数对数据进行排名。对于每种数据过滤方法,他们采用了四个过滤层级和多种不同的总计算量。

图 3 给出了在计算规模为 32M、128M、640M 时 Top 10-20%、 Top 30%、Top 40% CLIP 过滤的结果比较。



在 32M 计算规模时,高度激进的过滤策略(根据 CLIP 分数仅保留前 10-20%)得到的结果最好,而最不激进的保留前 40% 的过滤方法表现最差。但是,当计算规模扩展到 640M 时,这个趋势就完全反过来了。使用 T-MARS 评分指标也能观察类似的趋势。

数据过滤的扩展律

该团队首先用数学方式定义了效用(utility)。

他们的做法不是估计 n 的样本在训练结束时的损失,而是考虑一个样本在训练阶段的任意时间点的瞬时效用。其数学公式为:



这表明,一个样本的瞬时效用正比于当前损失且反比于目前所见到的样本数量。这也符合我们的直观想法:当模型看到的样本数量变多,样本的效用就会下降。其中的重点是数据效用参数 b 。

接下来是数据被重复使用之下的效用。

数学上,一个被见到 k+1 次的样本的效用参数 b 的定义为:



其中 τ 是效用参数的半衰期。τ 值越高,样本效用随着重复而衰减得越慢。δ 则是效用随重复的衰减情况的简洁写法。那么,模型在看过 n 个样本且每个样本都被看过 k 次之后的损失的表达式就为:



其中 n_j 是在第 j 轮训练 epoch 结束时的模型看到的样本数量。这一等式是新提出的扩展律的基础。

最后,还有一层复杂性,即异构的网络数据。

然后就得到了他们给出的定理:给定随机均匀采样的 p 个数据池,其各自的效用和重复参数分别为 (b_1, τ_1)...(b_p, τ_p),则每个 bucket 的新重复半衰期就为 τˆ = p・τ。此外,组合后的数据池在第 k 轮重复时的有效效用值 b_eff 是各个效用值的加权平均值。其数学形式为:



其中,这是新的每 bucket 衰减参数。

最后,可以在 (3) 式中使用上述定理中的 b_eff,就能估计出在数据池组合上进行训练时的损失。

针对各种数据效用池拟合扩展曲线

该团队用实验探究了新提出的扩展律。

图 4 给出了拟合后的各种数据效用池的扩展曲线,其使用的数据效用指标是 T-MARS 分数。



图 4 的第 2 列表明各个数据池的效用会随 epoch 增多而降低。下面是该团队给出的一些重要观察结果:

1. 网络数据是异构的,无法通过单一一组扩展参数进行建模。

2. 不同数据池有不同的数据多样性。

3. 具有重复现象的高质量数据的效果赶不上直接使用低质量数据。

结果:在 QQT 下为数据组合估计扩展律

前面针对不同质量的数据池推断了各自相应的参数 a、b、d、τ。而这里的目标是确定当给定了训练计算预算时,最有效的数据整编策略是什么。

通过前面的定理以及各个数据池的扩展参数,现在就能估计不同池组合的扩展律了。举个例子,可以认为 Top-20% 池是 Top-10% 和 Top 10%-20% 池的组合。然后,这种来自扩展曲线的趋势就可以用于预测给定计算预算下的帕累托最优数据过滤策略。

图 5 给出了不同数据组合的扩展曲线,这是在 ImageNet 上评估的。



这里需要强调,这些曲线是基于上述定理,直接根据各个组成池的扩展参数估计的。他们并未在这些数据池组合上训练来估计这些扩展曲线。散点是实际的测试性能,其作用是验证估计得到的结果。

可以看到:(1)当计算预算低 / 重复次数少时,激进的过滤策略是最好的。

(2)数据整编不能脱离计算进行。

对扩展曲线进行扩展

2023 年 Cherti et al. 的论文《Reproducible scaling laws for contrastive language-image learning》研究了针对 CLIP 模型提出的扩展律,其中训练了计算规模在 3B 到 34B 训练样本之间的数十个模型,并且模型涵盖不同的 ViT 系列模型。在这样的计算规模上训练模型的成本非常高。Cherti et al. (2023) 的目标是为这一系列的模型拟合扩展律,但对于在小数据集上训练的模型,其扩展曲线有很多错误。

CMU 这个团队认为这主要是因为他们没考虑到重复使用数据造成的效用下降问题。于是他们使用新提出的扩展律估计了这些模型的误差。

图 6 是修正之后扩展曲线,其能以很高的准确度预测误差。



这表明新提出的扩展律适用于用 34B 数据计算训练的大型模型,这说明在预测模型训练结果时,新的扩展律确实能考虑到重复数据的效用下降情况。

更多技术细节和实验结果请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男子在自己的3个车位上停放3辆玩具车,被保安砸烂后赔偿5.9万!

男子在自己的3个车位上停放3辆玩具车,被保安砸烂后赔偿5.9万!

趣味萌宠的日常
2024-06-12 20:33:55
泰媒:尽管无缘晋级18强赛,但泰国队仍将获得1100万泰铢奖金

泰媒:尽管无缘晋级18强赛,但泰国队仍将获得1100万泰铢奖金

直播吧
2024-06-12 16:01:09
火了!140万以下的几乎售空,有人算了一笔账,现在买入还赚了

火了!140万以下的几乎售空,有人算了一笔账,现在买入还赚了

爱看剧的阿峰
2024-06-13 10:24:31
你见过最坏的男生到底有多坏?简直毫无底线,就该拉出去凌迟处死

你见过最坏的男生到底有多坏?简直毫无底线,就该拉出去凌迟处死

娱乐洞察点点
2024-06-12 02:08:40
继续降价!北京一四环新房单价直降超1万开盘

继续降价!北京一四环新房单价直降超1万开盘

36氪
2024-06-13 09:56:35
冯提莫被封号,平台这次是玩真的

冯提莫被封号,平台这次是玩真的

电商报APP
2024-06-12 14:15:43
王思聪回应私生子事件后,黄一鸣删视频,前任小羽开启嘲讽模式

王思聪回应私生子事件后,黄一鸣删视频,前任小羽开启嘲讽模式

小海娱计
2024-06-10 14:48:33
乌战机开始直攻俄本土目标,F16一周左右进场,俄扛不住只能溃退

乌战机开始直攻俄本土目标,F16一周左右进场,俄扛不住只能溃退

邵旭峰域
2024-06-12 12:13:50
退休跑网约车:每天跑12小时,月收入8000元,对生活挺知足

退休跑网约车:每天跑12小时,月收入8000元,对生活挺知足

网约车观察室
2024-06-12 11:16:09
匈牙利认怂?不参与北约关于乌克兰的任何决定,也不阻止这些决定

匈牙利认怂?不参与北约关于乌克兰的任何决定,也不阻止这些决定

山河路口
2024-06-12 20:56:07
昨晚,“NBA”死了

昨晚,“NBA”死了

左右为篮
2024-06-13 13:07:09
免费领了10个鸡蛋,却付出了惨痛代价,专家讲课可信吗?

免费领了10个鸡蛋,却付出了惨痛代价,专家讲课可信吗?

娱乐圈见解说
2024-06-13 01:28:46
娱乐圈森严的等级,从“慕容复”的一份盒饭上,看得明明白白

娱乐圈森严的等级,从“慕容复”的一份盒饭上,看得明明白白

谈娱新语
2024-06-12 22:31:10
具俊晔菲律宾演出一片凄惨,只卖出24张票,现场布置太寒酸!

具俊晔菲律宾演出一片凄惨,只卖出24张票,现场布置太寒酸!

古希腊掌管月桂的神
2024-06-11 22:33:31
“一丝不挂”新舞蹈?惹争议,被摸下体更不害臊,金星质疑是对的

“一丝不挂”新舞蹈?惹争议,被摸下体更不害臊,金星质疑是对的

吃鱼思故渊
2024-05-16 21:48:21
阿曼达·霍尔顿脱掉胸罩和内裤穿着透明连衣裙宣传 Netflix 的新节目

阿曼达·霍尔顿脱掉胸罩和内裤穿着透明连衣裙宣传 Netflix 的新节目

综艺拼盘汇
2024-06-13 09:08:16
奥运会男篮5队大名单公布:美国男篮豪华,法国和德国男篮也不弱

奥运会男篮5队大名单公布:美国男篮豪华,法国和德国男篮也不弱

你的篮球频道
2024-06-13 09:21:27
官僚资本主义比资本主义危害更大,是社会的悲哀,是人民的灾难

官僚资本主义比资本主义危害更大,是社会的悲哀,是人民的灾难

笑嘻嘻的苹果
2024-06-06 21:07:36
女员工上班在摄像头下撑伞,遭公司开除,法院判了

女员工上班在摄像头下撑伞,遭公司开除,法院判了

极目新闻
2024-06-12 09:16:48
战地记者卢宇光:乌军火力开始与俄军持平,收复巴赫穆特部分阵地

战地记者卢宇光:乌军火力开始与俄军持平,收复巴赫穆特部分阵地

娱宙观
2024-06-12 15:08:44
2024-06-13 13:38:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
9072文章数 141943关注度
往期回顾 全部

科技要闻

"在小红书,员工是实验品,不好用就扔掉"

头条要闻

中央召开重要会议 鼓励有条件的民企建立现代企业制度

头条要闻

中央召开重要会议 鼓励有条件的民企建立现代企业制度

体育要闻

国足,别辜负这场奇迹!

娱乐要闻

森林北报案,称和汪峰的感情遭受压力

财经要闻

徽商银行的影子 借基金向地方城投放贷?

汽车要闻

升级8155芯片 新款卡罗拉锐放将于今日上市

态度原创

教育
时尚
数码
亲子
健康

教育要闻

给孩子安排上这款大学目标墙,激励孩子要好好学习,将来的你,一定会感激现在的自己!以前姑娘对好大学没什...

中年女性不一定要买大牌!裙子买基础款、繁简搭配,舒适得体

数码要闻

酷态科发布10号充电器CP超级闪充块120W,149元

亲子要闻

兄妹俩天下第一好

晚餐不吃or吃七分饱,哪种更减肥?

无障碍浏览 进入关怀版