字节团队找到了一把"智能配方秤"，让AI训练数据的选择不再靠猜|实验|拟合|新论文

分享至

这项由字节跳动与加州大学圣克鲁兹分校联合开展的研究，以预印本形式发布于2026年5月4日，论文编号为arXiv:2605.02364，感兴趣的读者可通过该编号在arXiv平台查阅完整原文。

训练一个大型语言模型，本质上和开一家高档餐厅没什么两样——食材的质量与搭配比例，直接决定了最终端上桌的菜肴水准。然而现实情况是，高质量的"食材"（即优质训练数据）永远供不应求。每一家试图训练大模型的团队，都面临着同一个让人头疼的问题：当高质量数据不够用时，到底该怎么办？

字节跳动的研究团队针对这个问题，提出了一套叫做"InfoLaw"（信息缩放定律）的理论框架。它的核心思想可以用一个厨房里的比喻来理解：与其凭直觉往锅里加食材，不如先建立一个精确的"配方计算公式"，告诉你在不同火力（计算预算）、不同锅的大小（模型规模）、不同食材新鲜度（数据质量）的情况下，应该如何搭配食材、应该重复使用几次剩菜，才能烧出最好的一锅饭。

一、为什么"加倍使用好食材"这条路走不通

要理解这项研究解决了什么问题，先得搞清楚训练大型语言模型时的一个现实困境。

在人工智能领域，训练数据的质量对模型最终表现有着决定性影响。高质量数据——比如逻辑清晰、内容丰富的文章——能让模型学到更多有用的知识。因此，一个很自然的想法是：在训练时尽量多用高质量数据，少用低质量数据。

然而问题在于，优质数据本身就是稀缺资源。就好比一家餐厅想多用松露和鱼子酱，但全球松露的产量就那么多，无论多有钱都买不到无限量的松露。对于AI训练来说，高质量数据也是如此——一旦用完了，就只能反复使用同一批数据。这种"反复使用"在AI领域叫做"重复训练"（repetition），或者用更形象的比喻来说，就是让厨师反复炒同一盘剩菜。

研究团队发现，重复使用高质量数据，就像反复加热同一锅菜——第一次加热，味道还不错；第二次加热，味道开始变淡；等到第十六次加热，这锅菜基本上已经毫无营养可言，甚至开始变质。实验数据非常清晰地证实了这一点：当高质量数据被重复使用超过一定次数后，模型的性能不但不会继续提升，反而会下滑。

更让研究人员头疼的是，目前AI行业普遍流行一种叫做"过度训练"（overtraining）的策略——这是指故意用比"刚好合适"更多的数据来训练一个相对较小的模型，以便这个小模型在实际使用时更省钱。这就像是为了节省燃气费，用小火慢慢把一锅菜熬很久。这种策略本身是合理的，但它进一步加剧了数据重复的问题，让高质量数据被迫反复使用的次数更多。

面对这个困境，业界通常的做法是做大量小规模实验，然后用"缩放定律"（scaling law）这个工具来预测：在大规模训练时，某个数据配方大概会达到什么样的效果。缩放定律本质上是一个数学公式，它试图描述模型性能与计算资源之间的关系，就像一个食谱告诉你"用多少火力烤多久能出什么效果"。

然而，字节跳动的研究团队发现，传统的缩放定律在存在数据重复的情况下会严重失灵。如果用传统缩放定律来预测"重复使用高质量数据"时大模型的表现，预测结果会比实际结果乐观得多——就像一个食谱告诉你"再烤20分钟会更完美"，但实际上蛋糕早就烤焦了。这种预测偏差在数据规模越大、模型越大时越明显，正是这个失灵之处，催生了InfoLaw的诞生。

二、给数据建立一套"信息量账本"

既然传统的工具失灵了，研究团队就从头开始，重新思考训练过程的本质。

他们的核心洞察是：与其用"消耗了多少计算量"来预测模型表现，不如直接追踪"模型真正从数据中学到了多少信息"。这就是InfoLaw的基本哲学——把训练过程理解为一个"信息积累"的过程，而不仅仅是一个消耗算力的过程。

用厨房比喻来说：传统方法只关心"你在炉子上花了多少时间和燃气"，而InfoLaw则关心"这锅菜实际上吸收了多少营养"。同样的时间和燃气，用来炖新鲜食材和反复加热剩菜，营养摄入量是完全不同的。

为了量化"信息量"，研究团队建立了一个精巧的数学模型。这个模型的工作原理是这样的：首先，研究团队把所有训练数据按照质量评分从高到低排序，划分成六个"质量桶"（quality bucket）。想象成一个食材库，从顶层的特级食材（质量评分前5%）到底层的普通食材（质量评分后20%），共六个档次。

然后，研究团队对每一个质量档次的数据，都建立了一个"信息获取公式"。这个公式的核心思想来自一个生活中很常见的现象：你第一次看一部电影，会学到很多东西；第二次看，还能注意到一些之前没发现的细节；但如果你看了十次、二十次，每次看完后几乎不会再有新收获。也就是说，重复学习同一内容的边际收益是递减的，而且是以指数级速度衰减的。

研究团队把这个"指数递减"的规律用数学公式精确描述了出来。在他们的模型中，每次重复接触某份数据，模型获得的新信息量都会乘以一个小于1的系数，这个系数与模型的大小（更准确地说，是模型每处理一个词需要的计算量）密切相关。模型越大，它的"学习能力"越强，衰减系数越大，意味着它能从同一份数据的重复学习中多榨取一点信息，但同样遵循边际递减规律。

此外，研究团队还发现了一个微妙但重要的细节：整体训练数据量的大小本身也会影响信息积累的速率。具体来说，信息获取的速率与训练数据总量的对数成正比。为什么是对数而不是线性关系？因为当训练数据量从十亿增加到百亿时，带来的额外学习效益，远没有从一亿增加到十亿时那么显著——就像同一个厨师，从只有十种食材到拥有百种食材时，厨艺会突飞猛进，但从拥有一千种食材到一万种食材时，进步就会缓慢得多。研究团队用对数函数来捕捉这个规律，并通过大量实验验证了这个选择的正确性——他们也尝试过常数归一化和幂律归一化，但这两种方式都无法正确描述数据，只有对数归一化才能把不同训练规模下的结果统一到一条曲线上。

把所有质量桶的信息量累加起来，就得到了一个综合的"信息量"（InfoLaw中称之为info）。这个数字综合考虑了：数据质量（通过"质量密度"函数体现，高质量数据被赋予更高的密度值）、数据的重复次数（通过指数衰减函数体现）、模型大小（通过学习能力参数λ体现），以及总训练量（通过对数归一化体现）。有了这个统一的信息量指标，接下来的事情就变得优雅起来——研究团队发现，把所有不同数据配方、不同模型大小、不同训练规模的实验结果，统一用"信息量"来表示横轴，所有的数据点就会神奇地落在同一条曲线上，而不是像以前那样散乱分布。这条统一曲线遵循简单的幂律关系：损失值 = 3.7373 × 信息量的-0.0441次方。

三、数据配方实验室：LayerMix与27场烹饪大赛

理论框架搭好了，但要让它真正管用，还需要用大量实验来确定模型里那些未知参数的值。

研究团队设计了一套叫做"LayerMix"的数据采样方案。这套方案本质上就是一个可调节的"配方系统"：你可以调整每个质量桶的采样比例，从而得到从"全高质量"到"全低质量"的各种不同配方。研究团队预设了五种标准配方，从HQ（高质量）到LQ（低质量），其中HQ配方中高质量数据（前5%）占比高达80%，而LQ配方中这个比例只有24%。

这些不同配方的差异非常现实：HQ配方意味着高质量食材被大量反复使用，就像餐厅里同一道招牌菜被反复炒了十六七次；而LQ配方则意味着低质量食材被大量使用，好比厨房里堆满了大路货但每种只用一两次，质量参差不齐，新鲜度尚好。

为了给InfoLaw提供训练数据，研究团队从Common Crawl（一个覆盖数万亿词的互联网文本数据库）中精选出3.7万亿词的英文语料，并进行了严格的去重处理，确保原始数据集本身不含重复内容。随后，他们用两个主流的质量分类器对每篇文章打分，取平均值后按分数高低排成队，分成六个质量桶。

在这个数据集基础上，研究团队训练了9种不同大小的模型，参数量从2.52亿到12亿不等。每种大小的模型分别用HQ、MQ（中等质量）、LQ三种配方训练，因此一共得到了27组实验结果。所有实验都在"过度训练"状态下进行，具体设定为3.6倍的过度训练比例——也就是说，训练的数据量是"刚好合适"所需数据量的3.6倍。

用这27组实验结果，研究团队拟合出了InfoLaw中的两个关键函数：一是"质量密度函数"（fd），它描述了不同质量桶的数据对模型的相对价值。拟合结果非常符合直觉：数据质量越高，密度值越大，而且密度值随质量下降呈指数级减小。拟合出的参数θ为0.922，意味着相邻质量桶之间的密度差距大约是e的0.922次方倍，约为2.5倍。换句话说，顶级质量数据的"营养密度"是次级数据的2.5倍，是第三级的6.3倍，以此类推。

二是"学习能力函数"（λ(N)），它描述了模型大小与其从重复数据中汲取信息的能力之间的关系。研究团队发现，随着模型增大，这个学习能力参数也在增大，但增速越来越慢，最终会趋于平稳——这种形状用对数函数来描述最为准确。拟合结果给出a=0.140、b=0.018，也就是λ(N) = 0.140 × ln(N) + 0.018。

四、从小厨房到大型宴会厅：InfoLaw的外推能力

任何工具的价值，都要看它能不能在没见过的情况下依然给出准确预测。研究团队对InfoLaw的外推能力进行了三个维度的全面检验。

第一个维度是"新配方预测"。研究团队用HQ、MQ、LQ三种配方拟合出的InfoLaw，去预测其他没有参与拟合的配方（MLQ、MHQ，以及另外随机采样的25种配方）的模型表现。结果表明，这些新配方的实验数据点都非常整齐地落在了InfoLaw预测的曲线上——就像一个厨师，通过研究三款菜肴的食谱，就能准确预测其他几十款从未做过的菜肴的口味，这种泛化能力是传统缩放定律完全不具备的。传统方法遇到新配方，就必须重新跑实验来重新拟合曲线，而InfoLaw可以直接计算。

第二个维度是"更大模型预测"。拟合阶段使用的模型最大只有12亿参数，研究团队随后挑战了15亿、25亿，乃至77亿参数的模型（用425亿词的数据训练）。InfoLaw在这些从未见过的更大规模上依然保持了高度准确性：在所有未见配方和未见模型规模的预测中，平均绝对误差仅为0.15%，最大绝对误差为0.96%。作为对比，传统缩放定律在相同条件下的预测误差要大得多，而且会系统性地给出过于乐观的预测，就像一个总是预报晴天的天气预报员，在晴天准确率很高，但一遇到阴雨天就完全失灵。

第三个维度是"不同过度训练程度预测"。研究团队此前一直在3.6倍过度训练的条件下工作，现在他们想知道：InfoLaw能不能推广到25倍过度训练这种极端情况？实验结果显示，用3.6倍条件下拟合的质量密度函数和学习能力函数，直接计算25倍过度训练时的信息量，得到的预测结果依然与实际结果非常接近。两条不同过度训练程度的缩放曲线几乎平行——这意味着，过度训练程度主要只影响整条曲线的高低位置，而不影响曲线的形状。这个发现非常有价值，因为它意味着只需要在一种过度训练程度下做实验，就可以大致预测其他过度训练程度下的表现。

五、"信息量配方秤"的实际应用：帮你找到最优配方

InfoLaw不只是一个预测工具，它还能被用来主动搜索最优数据配方，而无需进行实际训练。

具体做法是：从配方空间中随机抽取十万种不同的LayerMix参数组合，对每一种组合都计算出对应的信息量，再通过幂律公式换算成预测的损失值，最后选取损失值最低的那种配方作为推荐配方。整个搜索过程不需要运行任何实际训练，就像一个厨师可以在脑子里先把所有食材比例的组合过一遍，挑出理论上最好吃的配比，然后才动手下厨。

研究团队用这种方法为一个25亿参数的模型（3.6倍过度训练）搜索出了最优配方，结果发现最优配方把50%的权重给了最高质量数据（前5%），49%给了次高质量数据（5%~20%），只有1%留给了第三档数据，剩余档次几乎不用。然后，研究团队真的训练了这个配方下的25亿模型，并与其他四种随机配方的模型比较——使用InfoLaw推荐配方的模型，在下游任务验证损失上确实最低，验证了这套搜索方法的有效性。

此外，研究团队还系统地列出了不同模型大小和训练量下的最优配方表，从中可以读出两条非常清晰的规律。当模型大小固定时，训练的数据量越大，最优配方就越倾向于使用更多样化（而非集中在最高质量）的数据；当训练量固定时，模型参数越少，最优配方就越倾向于集中使用最高质量数据。换句话说，小厨房做小菜，要用最好的食材精工细作；大酒楼做宴席，则需要广泛采购、兼顾多样。这个规律背后的直觉是：小模型的容量有限，每一个训练样本都显得珍贵，只能把有限的容量用在最有价值的数据上；而大模型有足够的容量来消化更广泛的知识，过分集中在同一批高质量数据上反而会造成严重的重复损失。

六、配方秤能不能在不同厨房里用？在RefinedWeb上的泛化检验

一个好工具，不应该只在特定条件下管用。研究团队最后在一个完全不同的数据集——RefinedWeb——上测试了InfoLaw的泛化能力。

RefinedWeb是由法国人工智能公司Falcon团队发布的另一个大规模高质量网络文本数据集，虽然同样来源于Common Crawl，但采用了完全不同的过滤和清洗策略。研究团队用同样的方法，在RefinedWeb上对InfoLaw进行了拟合和外推实验，结果发现：质量密度函数的拟合参数θ为0.93，与在自有数据集上拟合出的0.92几乎完全相同。这一发现颇耐人寻味——研究团队认为，尽管两个数据集的过滤方式不同，但由于底层数据都来自Common Crawl，数据的"信息密度分布"结构非常相似，所以质量密度函数具有很强的跨数据集泛化性。在未见配方（MLQ）的外推测试中，平均绝对误差仅为0.24%，最大绝对误差为0.36%，再次证明了这套方法的鲁棒性。

归根结底，这项研究做的事情就是给AI训练数据的搭配问题，建立了一套有理论支撑、可以计算、可以外推的"配方公式"。过去，研究者们在面对"用多少高质量数据、允许重复几次、配多少低质量数据"这类问题时，基本上只能靠经验和直觉，再辅以大量烧钱的小规模实验。现在，只要测量出数据的质量分布，知道模型的参数量和训练量，就可以事先算出不同配方对应的信息量，再通过一个简单的幂律公式预测出最终的模型表现。

研究中也坦诚地点出了若干局限：质量桶的划分方式基于经验判断，没有做系统性的消融实验来确定最优分桶数量和边界；过度训练程度影响曲线位置的理论解释尚不完整；模型的质量评估同样依赖于特定的质量评分器，更换评分器是否会影响InfoLaw的适用性还有待检验。

这些开放性问题本身也勾勒出了未来工作的方向——毕竟，任何一套好的"配方系统"，都需要在更多厨房、更多场合下反复验证，才能真正成为行业公认的标准工具。

Q&A

Q1：InfoLaw为什么比传统缩放定律在数据重复情况下预测更准确？

A：传统缩放定律只用"消耗了多少计算量"来预测模型表现，完全忽略了数据被重复使用时边际收益递减的现象。InfoLaw引入了"信息量"这一新指标，通过指数衰减函数显式地建模重复训练带来的收益递减，并结合数据质量分布和模型大小进行综合计算。这让不同配方、不同规模的实验结果都能统一落在同一条预测曲线上，外推误差平均仅0.15%，而传统方法在数据重复条件下会系统性地给出过于乐观的预测。

Q2：LayerMix采样方案具体是怎么工作的？

A：LayerMix把所有训练数据按质量评分从高到低排成六个桶（前5%、5-20%、20-40%、40-60%、60-80%、80-100%），然后通过一组权重参数w控制每个桶在最终训练集中占多大比例。调整这组权重，就能得到从"全高质量数据"到"全低质量数据"之间的各种混合配方。当某个桶的目标采样量超过该桶实际可用数据量时，就会出现重复采样，桶内数据被反复使用。这套系统能精确控制每个质量档次数据的重复次数，是InfoLaw理论框架得以量化的实验基础。

Q3：InfoLaw推荐的最优数据配方有什么规律？

A：根据InfoLaw对不同模型和训练量的搜索结果，最优配方呈现出两条清晰规律：训练数据量越大，最优配方越倾向于使用更多样化的数据，而非把权重全部压注在最高质量数据上；模型参数量越少，最优配方越倾向于集中使用最高质量数据。简单说就是，小模型或小训练预算应优先保证数据质量，大模型或大训练预算则应兼顾数据多样性。这是因为高质量数据重复过多会造成严重的信息边际递减，大模型有足够容量消化更广泛的知识。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.