网易首页 > 网易号 > 正文 申请入驻

字节团队找到了一把"智能配方秤",让AI训练数据的选择不再靠猜

0
分享至


这项由字节跳动与加州大学圣克鲁兹分校联合开展的研究,以预印本形式发布于2026年5月4日,论文编号为arXiv:2605.02364,感兴趣的读者可通过该编号在arXiv平台查阅完整原文。

训练一个大型语言模型,本质上和开一家高档餐厅没什么两样——食材的质量与搭配比例,直接决定了最终端上桌的菜肴水准。然而现实情况是,高质量的"食材"(即优质训练数据)永远供不应求。每一家试图训练大模型的团队,都面临着同一个让人头疼的问题:当高质量数据不够用时,到底该怎么办?

字节跳动的研究团队针对这个问题,提出了一套叫做"InfoLaw"(信息缩放定律)的理论框架。它的核心思想可以用一个厨房里的比喻来理解:与其凭直觉往锅里加食材,不如先建立一个精确的"配方计算公式",告诉你在不同火力(计算预算)、不同锅的大小(模型规模)、不同食材新鲜度(数据质量)的情况下,应该如何搭配食材、应该重复使用几次剩菜,才能烧出最好的一锅饭。

一、为什么"加倍使用好食材"这条路走不通

要理解这项研究解决了什么问题,先得搞清楚训练大型语言模型时的一个现实困境。

在人工智能领域,训练数据的质量对模型最终表现有着决定性影响。高质量数据——比如逻辑清晰、内容丰富的文章——能让模型学到更多有用的知识。因此,一个很自然的想法是:在训练时尽量多用高质量数据,少用低质量数据。

然而问题在于,优质数据本身就是稀缺资源。就好比一家餐厅想多用松露和鱼子酱,但全球松露的产量就那么多,无论多有钱都买不到无限量的松露。对于AI训练来说,高质量数据也是如此——一旦用完了,就只能反复使用同一批数据。这种"反复使用"在AI领域叫做"重复训练"(repetition),或者用更形象的比喻来说,就是让厨师反复炒同一盘剩菜。

研究团队发现,重复使用高质量数据,就像反复加热同一锅菜——第一次加热,味道还不错;第二次加热,味道开始变淡;等到第十六次加热,这锅菜基本上已经毫无营养可言,甚至开始变质。实验数据非常清晰地证实了这一点:当高质量数据被重复使用超过一定次数后,模型的性能不但不会继续提升,反而会下滑。

更让研究人员头疼的是,目前AI行业普遍流行一种叫做"过度训练"(overtraining)的策略——这是指故意用比"刚好合适"更多的数据来训练一个相对较小的模型,以便这个小模型在实际使用时更省钱。这就像是为了节省燃气费,用小火慢慢把一锅菜熬很久。这种策略本身是合理的,但它进一步加剧了数据重复的问题,让高质量数据被迫反复使用的次数更多。

面对这个困境,业界通常的做法是做大量小规模实验,然后用"缩放定律"(scaling law)这个工具来预测:在大规模训练时,某个数据配方大概会达到什么样的效果。缩放定律本质上是一个数学公式,它试图描述模型性能与计算资源之间的关系,就像一个食谱告诉你"用多少火力烤多久能出什么效果"。

然而,字节跳动的研究团队发现,传统的缩放定律在存在数据重复的情况下会严重失灵。如果用传统缩放定律来预测"重复使用高质量数据"时大模型的表现,预测结果会比实际结果乐观得多——就像一个食谱告诉你"再烤20分钟会更完美",但实际上蛋糕早就烤焦了。这种预测偏差在数据规模越大、模型越大时越明显,正是这个失灵之处,催生了InfoLaw的诞生。

二、给数据建立一套"信息量账本"

既然传统的工具失灵了,研究团队就从头开始,重新思考训练过程的本质。

他们的核心洞察是:与其用"消耗了多少计算量"来预测模型表现,不如直接追踪"模型真正从数据中学到了多少信息"。这就是InfoLaw的基本哲学——把训练过程理解为一个"信息积累"的过程,而不仅仅是一个消耗算力的过程。

用厨房比喻来说:传统方法只关心"你在炉子上花了多少时间和燃气",而InfoLaw则关心"这锅菜实际上吸收了多少营养"。同样的时间和燃气,用来炖新鲜食材和反复加热剩菜,营养摄入量是完全不同的。

为了量化"信息量",研究团队建立了一个精巧的数学模型。这个模型的工作原理是这样的:首先,研究团队把所有训练数据按照质量评分从高到低排序,划分成六个"质量桶"(quality bucket)。想象成一个食材库,从顶层的特级食材(质量评分前5%)到底层的普通食材(质量评分后20%),共六个档次。

然后,研究团队对每一个质量档次的数据,都建立了一个"信息获取公式"。这个公式的核心思想来自一个生活中很常见的现象:你第一次看一部电影,会学到很多东西;第二次看,还能注意到一些之前没发现的细节;但如果你看了十次、二十次,每次看完后几乎不会再有新收获。也就是说,重复学习同一内容的边际收益是递减的,而且是以指数级速度衰减的。

研究团队把这个"指数递减"的规律用数学公式精确描述了出来。在他们的模型中,每次重复接触某份数据,模型获得的新信息量都会乘以一个小于1的系数,这个系数与模型的大小(更准确地说,是模型每处理一个词需要的计算量)密切相关。模型越大,它的"学习能力"越强,衰减系数越大,意味着它能从同一份数据的重复学习中多榨取一点信息,但同样遵循边际递减规律。

此外,研究团队还发现了一个微妙但重要的细节:整体训练数据量的大小本身也会影响信息积累的速率。具体来说,信息获取的速率与训练数据总量的对数成正比。为什么是对数而不是线性关系?因为当训练数据量从十亿增加到百亿时,带来的额外学习效益,远没有从一亿增加到十亿时那么显著——就像同一个厨师,从只有十种食材到拥有百种食材时,厨艺会突飞猛进,但从拥有一千种食材到一万种食材时,进步就会缓慢得多。研究团队用对数函数来捕捉这个规律,并通过大量实验验证了这个选择的正确性——他们也尝试过常数归一化和幂律归一化,但这两种方式都无法正确描述数据,只有对数归一化才能把不同训练规模下的结果统一到一条曲线上。

把所有质量桶的信息量累加起来,就得到了一个综合的"信息量"(InfoLaw中称之为info)。这个数字综合考虑了:数据质量(通过"质量密度"函数体现,高质量数据被赋予更高的密度值)、数据的重复次数(通过指数衰减函数体现)、模型大小(通过学习能力参数λ体现),以及总训练量(通过对数归一化体现)。有了这个统一的信息量指标,接下来的事情就变得优雅起来——研究团队发现,把所有不同数据配方、不同模型大小、不同训练规模的实验结果,统一用"信息量"来表示横轴,所有的数据点就会神奇地落在同一条曲线上,而不是像以前那样散乱分布。这条统一曲线遵循简单的幂律关系:损失值 = 3.7373 × 信息量的-0.0441次方。

三、数据配方实验室:LayerMix与27场烹饪大赛

理论框架搭好了,但要让它真正管用,还需要用大量实验来确定模型里那些未知参数的值。

研究团队设计了一套叫做"LayerMix"的数据采样方案。这套方案本质上就是一个可调节的"配方系统":你可以调整每个质量桶的采样比例,从而得到从"全高质量"到"全低质量"的各种不同配方。研究团队预设了五种标准配方,从HQ(高质量)到LQ(低质量),其中HQ配方中高质量数据(前5%)占比高达80%,而LQ配方中这个比例只有24%。

这些不同配方的差异非常现实:HQ配方意味着高质量食材被大量反复使用,就像餐厅里同一道招牌菜被反复炒了十六七次;而LQ配方则意味着低质量食材被大量使用,好比厨房里堆满了大路货但每种只用一两次,质量参差不齐,新鲜度尚好。

为了给InfoLaw提供训练数据,研究团队从Common Crawl(一个覆盖数万亿词的互联网文本数据库)中精选出3.7万亿词的英文语料,并进行了严格的去重处理,确保原始数据集本身不含重复内容。随后,他们用两个主流的质量分类器对每篇文章打分,取平均值后按分数高低排成队,分成六个质量桶。

在这个数据集基础上,研究团队训练了9种不同大小的模型,参数量从2.52亿到12亿不等。每种大小的模型分别用HQ、MQ(中等质量)、LQ三种配方训练,因此一共得到了27组实验结果。所有实验都在"过度训练"状态下进行,具体设定为3.6倍的过度训练比例——也就是说,训练的数据量是"刚好合适"所需数据量的3.6倍。

用这27组实验结果,研究团队拟合出了InfoLaw中的两个关键函数:一是"质量密度函数"(fd),它描述了不同质量桶的数据对模型的相对价值。拟合结果非常符合直觉:数据质量越高,密度值越大,而且密度值随质量下降呈指数级减小。拟合出的参数θ为0.922,意味着相邻质量桶之间的密度差距大约是e的0.922次方倍,约为2.5倍。换句话说,顶级质量数据的"营养密度"是次级数据的2.5倍,是第三级的6.3倍,以此类推。

二是"学习能力函数"(λ(N)),它描述了模型大小与其从重复数据中汲取信息的能力之间的关系。研究团队发现,随着模型增大,这个学习能力参数也在增大,但增速越来越慢,最终会趋于平稳——这种形状用对数函数来描述最为准确。拟合结果给出a=0.140、b=0.018,也就是λ(N) = 0.140 × ln(N) + 0.018。

四、从小厨房到大型宴会厅:InfoLaw的外推能力

任何工具的价值,都要看它能不能在没见过的情况下依然给出准确预测。研究团队对InfoLaw的外推能力进行了三个维度的全面检验。

第一个维度是"新配方预测"。研究团队用HQ、MQ、LQ三种配方拟合出的InfoLaw,去预测其他没有参与拟合的配方(MLQ、MHQ,以及另外随机采样的25种配方)的模型表现。结果表明,这些新配方的实验数据点都非常整齐地落在了InfoLaw预测的曲线上——就像一个厨师,通过研究三款菜肴的食谱,就能准确预测其他几十款从未做过的菜肴的口味,这种泛化能力是传统缩放定律完全不具备的。传统方法遇到新配方,就必须重新跑实验来重新拟合曲线,而InfoLaw可以直接计算。

第二个维度是"更大模型预测"。拟合阶段使用的模型最大只有12亿参数,研究团队随后挑战了15亿、25亿,乃至77亿参数的模型(用425亿词的数据训练)。InfoLaw在这些从未见过的更大规模上依然保持了高度准确性:在所有未见配方和未见模型规模的预测中,平均绝对误差仅为0.15%,最大绝对误差为0.96%。作为对比,传统缩放定律在相同条件下的预测误差要大得多,而且会系统性地给出过于乐观的预测,就像一个总是预报晴天的天气预报员,在晴天准确率很高,但一遇到阴雨天就完全失灵。

第三个维度是"不同过度训练程度预测"。研究团队此前一直在3.6倍过度训练的条件下工作,现在他们想知道:InfoLaw能不能推广到25倍过度训练这种极端情况?实验结果显示,用3.6倍条件下拟合的质量密度函数和学习能力函数,直接计算25倍过度训练时的信息量,得到的预测结果依然与实际结果非常接近。两条不同过度训练程度的缩放曲线几乎平行——这意味着,过度训练程度主要只影响整条曲线的高低位置,而不影响曲线的形状。这个发现非常有价值,因为它意味着只需要在一种过度训练程度下做实验,就可以大致预测其他过度训练程度下的表现。

五、"信息量配方秤"的实际应用:帮你找到最优配方

InfoLaw不只是一个预测工具,它还能被用来主动搜索最优数据配方,而无需进行实际训练。

具体做法是:从配方空间中随机抽取十万种不同的LayerMix参数组合,对每一种组合都计算出对应的信息量,再通过幂律公式换算成预测的损失值,最后选取损失值最低的那种配方作为推荐配方。整个搜索过程不需要运行任何实际训练,就像一个厨师可以在脑子里先把所有食材比例的组合过一遍,挑出理论上最好吃的配比,然后才动手下厨。

研究团队用这种方法为一个25亿参数的模型(3.6倍过度训练)搜索出了最优配方,结果发现最优配方把50%的权重给了最高质量数据(前5%),49%给了次高质量数据(5%~20%),只有1%留给了第三档数据,剩余档次几乎不用。然后,研究团队真的训练了这个配方下的25亿模型,并与其他四种随机配方的模型比较——使用InfoLaw推荐配方的模型,在下游任务验证损失上确实最低,验证了这套搜索方法的有效性。

此外,研究团队还系统地列出了不同模型大小和训练量下的最优配方表,从中可以读出两条非常清晰的规律。当模型大小固定时,训练的数据量越大,最优配方就越倾向于使用更多样化(而非集中在最高质量)的数据;当训练量固定时,模型参数越少,最优配方就越倾向于集中使用最高质量数据。换句话说,小厨房做小菜,要用最好的食材精工细作;大酒楼做宴席,则需要广泛采购、兼顾多样。这个规律背后的直觉是:小模型的容量有限,每一个训练样本都显得珍贵,只能把有限的容量用在最有价值的数据上;而大模型有足够的容量来消化更广泛的知识,过分集中在同一批高质量数据上反而会造成严重的重复损失。

六、配方秤能不能在不同厨房里用?在RefinedWeb上的泛化检验

一个好工具,不应该只在特定条件下管用。研究团队最后在一个完全不同的数据集——RefinedWeb——上测试了InfoLaw的泛化能力。

RefinedWeb是由法国人工智能公司Falcon团队发布的另一个大规模高质量网络文本数据集,虽然同样来源于Common Crawl,但采用了完全不同的过滤和清洗策略。研究团队用同样的方法,在RefinedWeb上对InfoLaw进行了拟合和外推实验,结果发现:质量密度函数的拟合参数θ为0.93,与在自有数据集上拟合出的0.92几乎完全相同。这一发现颇耐人寻味——研究团队认为,尽管两个数据集的过滤方式不同,但由于底层数据都来自Common Crawl,数据的"信息密度分布"结构非常相似,所以质量密度函数具有很强的跨数据集泛化性。在未见配方(MLQ)的外推测试中,平均绝对误差仅为0.24%,最大绝对误差为0.36%,再次证明了这套方法的鲁棒性。

归根结底,这项研究做的事情就是给AI训练数据的搭配问题,建立了一套有理论支撑、可以计算、可以外推的"配方公式"。过去,研究者们在面对"用多少高质量数据、允许重复几次、配多少低质量数据"这类问题时,基本上只能靠经验和直觉,再辅以大量烧钱的小规模实验。现在,只要测量出数据的质量分布,知道模型的参数量和训练量,就可以事先算出不同配方对应的信息量,再通过一个简单的幂律公式预测出最终的模型表现。

研究中也坦诚地点出了若干局限:质量桶的划分方式基于经验判断,没有做系统性的消融实验来确定最优分桶数量和边界;过度训练程度影响曲线位置的理论解释尚不完整;模型的质量评估同样依赖于特定的质量评分器,更换评分器是否会影响InfoLaw的适用性还有待检验。

这些开放性问题本身也勾勒出了未来工作的方向——毕竟,任何一套好的"配方系统",都需要在更多厨房、更多场合下反复验证,才能真正成为行业公认的标准工具。

Q&A

Q1:InfoLaw为什么比传统缩放定律在数据重复情况下预测更准确?

A:传统缩放定律只用"消耗了多少计算量"来预测模型表现,完全忽略了数据被重复使用时边际收益递减的现象。InfoLaw引入了"信息量"这一新指标,通过指数衰减函数显式地建模重复训练带来的收益递减,并结合数据质量分布和模型大小进行综合计算。这让不同配方、不同规模的实验结果都能统一落在同一条预测曲线上,外推误差平均仅0.15%,而传统方法在数据重复条件下会系统性地给出过于乐观的预测。

Q2:LayerMix采样方案具体是怎么工作的?

A:LayerMix把所有训练数据按质量评分从高到低排成六个桶(前5%、5-20%、20-40%、40-60%、60-80%、80-100%),然后通过一组权重参数w控制每个桶在最终训练集中占多大比例。调整这组权重,就能得到从"全高质量数据"到"全低质量数据"之间的各种混合配方。当某个桶的目标采样量超过该桶实际可用数据量时,就会出现重复采样,桶内数据被反复使用。这套系统能精确控制每个质量档次数据的重复次数,是InfoLaw理论框架得以量化的实验基础。

Q3:InfoLaw推荐的最优数据配方有什么规律?

A:根据InfoLaw对不同模型和训练量的搜索结果,最优配方呈现出两条清晰规律:训练数据量越大,最优配方越倾向于使用更多样化的数据,而非把权重全部压注在最高质量数据上;模型参数量越少,最优配方越倾向于集中使用最高质量数据。简单说就是,小模型或小训练预算应优先保证数据质量,大模型或大训练预算则应兼顾数据多样性。这是因为高质量数据重复过多会造成严重的信息边际递减,大模型有足够容量消化更广泛的知识。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
豪赌两岸统一!黄仁勋这招"暗度陈仓",直接把美国政客看傻了

豪赌两岸统一!黄仁勋这招"暗度陈仓",直接把美国政客看傻了

地球记
2026-05-31 00:23:43
中超半程无罚分积分榜:成都13分优势领跑,第2到第14只差7分

中超半程无罚分积分榜:成都13分优势领跑,第2到第14只差7分

懂球帝
2026-05-31 22:13:05
终于理解古装剧为什么不允许师徒恋了!惊悚程度不亚于鬼故事

终于理解古装剧为什么不允许师徒恋了!惊悚程度不亚于鬼故事

另子维爱读史
2026-05-30 08:31:49
云南鸵鸟肉案凶手被判死刑,当地曾多人购买,这些人后来怎样了

云南鸵鸟肉案凶手被判死刑,当地曾多人购买,这些人后来怎样了

林林故事揭秘
2025-01-03 17:30:21
当你接触的人多了,你会明白如果一个人还在穿5年前的衣服,只说明这几个问题

当你接触的人多了,你会明白如果一个人还在穿5年前的衣服,只说明这几个问题

LULU生活家
2026-05-29 19:07:23
看了三联生活周刊的文章《两年不上班,一个36岁名校海归博士的失重人生》,卷学历还有用吗?

看了三联生活周刊的文章《两年不上班,一个36岁名校海归博士的失重人生》,卷学历还有用吗?

卷阿
2026-06-01 06:59:41
费内巴切主席候选人:我和莱奥聊过,他不会加盟我们

费内巴切主席候选人:我和莱奥聊过,他不会加盟我们

懂球帝
2026-06-01 07:22:01
录音显示伊朗革命卫队海军和美军分别向船只喊话警告

录音显示伊朗革命卫队海军和美军分别向船只喊话警告

新华社
2026-05-31 06:27:03
阿森纳痛失欧冠!名嘴黄健翔赛后犀利点评:输球纯属自作自受!

阿森纳痛失欧冠!名嘴黄健翔赛后犀利点评:输球纯属自作自受!

田先生篮球
2026-05-31 09:29:01
稳中求进每月看|稳舵扬帆正当时——5月全国各地经济社会发展观察

稳中求进每月看|稳舵扬帆正当时——5月全国各地经济社会发展观察

新华社
2026-05-31 10:35:15
被判无期的犯人,每天在监狱里如何生活?真实日常远比想象难熬

被判无期的犯人,每天在监狱里如何生活?真实日常远比想象难熬

芳姐侃社会
2026-05-31 20:40:00
我如今已68了,以亲身血泪教训告诉你:不要跟任何人,包括你的父母、子女、枕边人,分享这两件事

我如今已68了,以亲身血泪教训告诉你:不要跟任何人,包括你的父母、子女、枕边人,分享这两件事

心理观察局
2026-05-23 07:00:06
卫冕欧冠后,法国多地发生骚乱

卫冕欧冠后,法国多地发生骚乱

第一财经资讯
2026-05-31 13:09:40
2026年最寒心的“农夫与蛇”:恩将仇报连狗都不如

2026年最寒心的“农夫与蛇”:恩将仇报连狗都不如

红色少女主播
2026-05-31 15:18:01
国际原油涨幅扩大至2%

国际原油涨幅扩大至2%

财联社
2026-06-01 06:05:21
22岁全票西决MVP!文班亚马一纪录前无古人

22岁全票西决MVP!文班亚马一纪录前无古人

茅塞盾开本尊
2026-05-31 23:10:40
从第14追到第8!34岁德比斯尽力了 张雪回应2场低迷:赛车有些吃亏

从第14追到第8!34岁德比斯尽力了 张雪回应2场低迷:赛车有些吃亏

风过乡
2026-05-31 21:09:49
2026年6月1日重要财经事件

2026年6月1日重要财经事件

每日经济新闻
2026-06-01 00:15:04
年会上我当众递辞职信,董事长见年终奖只有88元,全场看向经理

年会上我当众递辞职信,董事长见年终奖只有88元,全场看向经理

千秋文化
2026-05-29 19:54:56
巴拿马自食其果,联合国外上演求和戏

巴拿马自食其果,联合国外上演求和戏

小眼睛小世界
2026-06-01 06:14:08
2026-06-01 08:03:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8575文章数 564关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

媒体:中国防长不去"香会" 主办方的意图落空了

头条要闻

媒体:中国防长不去"香会" 主办方的意图落空了

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

网红驱蚊产品,标注化妆品竟含农药成分

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

艺术
教育
游戏
时尚
数码

艺术要闻

李讷刘思齐邵华童年照曝光!"红二代"狂草热榜,大草为何难写好?

教育要闻

新能源专业到底好不好就业

超越十年二游皇帝,登顶手游氪金榜!胜利女神是怎么做到的?

梓渝:慢下来,也很好

数码要闻

英伟达N1x SoC跑分不及苹果2023年发布的M3 Max

无障碍浏览 进入关怀版