网易首页 > 网易号 > 正文 申请入驻

少用33%数据,模型性能不变,陈丹琦团队用元数据来做降本增效

0
分享至

机器之心报道

编辑:杜伟

除了提升数据效率之外,本文方法 MeCo 保证了计算开销与复杂性也几乎不会增加。

普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文,这次将重点放在了「使用元数据来加速预训练」上来。

我们知道,语言模型通过在大量网络语料库上进行训练来实现卓越的通用能力。多样性训练数据凸显了一个根本性挑战:人们自然地根据数据源来调整他们的理解,与之不同,语言模型将所有内容作为等效样本来处理。

这种以相同方式处理异构源数据的做法会带来两个问题:一是忽略了有助于理解的重要上下文信号,二是在专门的下游任务中阻碍模型可靠地展示适当的行为,比如幽默或事实。

面对以上这些挑战,并为了提供每个文档来源的更多信息,陈丹琦团队在本文中提出通过在每个文档之前添加广泛可用的源 URL,从而在预训练期间使用文档相应的元数据进行调节。并且为了确保模型在推理过程中无论有无元数据都能高效地运行,在最后 10% 的训练中实施了冷却(cooldown)。他们将这种预训练方法称为 Metadata Conditioning then Cooldown(MeCo)

先前的工作中已经有人使用元数据条件来引导模型生成并提高模型对恶意提示的稳健性,但研究者通过关键的两点确认了所提方法的通用实用性。首先,他们证明这一范式可以直接加速语言模型的预训练并提高下游任务性能。其次,MeCo 的冷却阶段确保模型在没有元数据的情况下可以执行推理,这点与以往的方法不同。

本文的主要贡献包括如下:

一、MeCo 大大加速了预训练过程。研究者证明,MeCo 使得 1.6B 的模型在少用 33%训练数据的情况下,实现与标准预训练模型相同的平均下游性能。MeCo 在模型规模(600M、1.6B、3B 和 8B)和数据源(C4、RefinedWeb 和 DCLM)表现出了一致的增益。

二、MeCo 开辟了一种引导模型的新方法。在推理过程中,在提示之前添加合适的真实或合成 URL 可以诱导期望的模型行为。举个例子,使用「factquizmaster.com」(并非真实 URL)可以增强常识知识任务的性能,比如零样本常识问题绝对性能可以提升 6%。相反,使用「wikipedia.org」(真实 URL)可以将有毒生成的可能性比标准无条件推理降低数倍。

三、MeCo 设计选择的消融实验表明,它能与不同类型的元数据兼容。使用散列 URL 和模型生成主题的消融实验表明,元数据的主要作用是按照来源对文档进行分组。因此,即使没有 URL,MeCo 也可以有效地合并不同类型的元数据,包括更细粒度的选项。

研究结果表明,MeCo 可以显著提高语言模型的数据效率,同时几乎不会增加预训练过程的计算开销和复杂性。此外,MeCo 提供了增强可控性,有望创建更可控的语言模型,并且它与更细粒度和创造性的元数据的普遍兼容性值得进一步探索。

总之,作为一种简单、灵活、有效的训练范式,MeCo 可以同时提高语言模型的实用性和可控性。

  • 论文标题:Metadata Conditioning Accelerates Language Model Pre-training
  • 论文地址:https://arxiv.org/pdf/2501.01956v1
  • 代码地址:https://github.com/princeton-pli/MeCo

论文一作高天宇(Tianyu Gao)还在评论区与读者展开了互动,并回答了一个问题「MeCo 是否需要平衡过拟合和欠拟合」。他表示,本文的一个假设是 MeCo 进行隐式数据混合优化(DoReMi、ADO)并上采样欠拟合和更多有用域。

OpenAI 一位研究人员 Lucas Beyer 表示,他很久之前就对视觉语言模型(VLM)做过类似的研究,很有趣,但最终用处不大。

方法概览

本文方法包括以下两个训练阶段,如下图 1 所示。

使用元数据条件进行预训练(前 90%):模型在串接的元数据和文档上进行训练,并遵循以下模板「URL: en.wikipedia.org\n\n [document]」。使用其他类型的元数据时,URL 替换为相应的元数据名称。研究者仅计算文档 token 的交叉熵损失,而忽略出自模板或元数据的 token。他们在初步实验中发现:使用这些 token 训练会损害下游任务性能。

使用标准数据进行冷却(后 10%):对于仅使用元数据增强的数据进行训练的模型,在没有元数据的情况下性能会下降(具体可见下表 4)。为了确保通用性,研究者在冷却阶段,使用了没有任何元数据的标准预训练文档来训练模型,该阶段涵盖了预训练过程最后 10% 的步骤。

冷却阶段继承了来自元数据条件阶段的学习率计划和优化器状态,即它从上一个阶段的最后一个检查点初始化学习率、模型参数和优化器状态,并继续根据计划来调整学习率。

研究者还在所有实验中采用了以下两项技术,并且初步实验表明它们提高了基线预训练模型的性能:

  • 禁用了跨文档注意力,此举既加快了训练速度(1.6B 模型的速度提升了 25%),又提高了下游任务的性能;
  • 将多个文档打包成一个序列时,确保每个序列都从一个新文档开始,而不是从一个文档的中间开始,这可能会导致在将文档打包为一个固定长度时丢弃一些数据,但被证明有利于提高下游任务性能。

实验结果

研究者在所有实验中使用了 Llama 系列模型使用的 Transformer 架构和 Llama-3tokenizer,使用了四种规模的模型大小,分别是 600M、1.6B、3B 和 8B。他们对语言模型采用了标准优化设置,即 AdamW 优化器和余弦学习率计划。

少用 33% 数据,MeCo 性能与标准预训练方法相当

下表 1 显示了研究者在 DCLM 上的 160B token 上,对 1.6B 语言模型进行预训练的主要结果。他们首先观察到,在大多数任务中,MeCo 的性能显著优于标准预训练方法。MeCo 还超越了数据挑选基线。并且与数据挑选方法不同的是,MeCo 不会产生任何计算开销,它利用了预训练数据中随时可用的 URL 信息。

更重要的是,MeCo 实现了与标准预训练方法相当的性能,同时使用的数据和计算量减少了 33%,代表了数据效率的显著提高。

下表 1 为困惑度指标,表明了验证困惑度与下游性能无关。值得注意的是,当将 240B 基线模型与 160B MeCo 模型比较时,由于数据量较大,基线模型表现出的困惑度要低得多,但这两个模型实现了类似的平均性能。

研究者在下图 2 中展示了整个预训练过程中下游任务的性能变化。对于 MeCo,图中的每个检查点都包含使用 16B token(占总训练 token 的 10%)的冷却阶段。例如,80B 检查点包含了 64B token 的条件训练和 16B token 的冷却。他们观察到,MeCo 始终超越了基线模型,尤其是在训练后期。

MeCo 在所有模型规模下均提升了性能

下图 3 显示了不同模型规模(600 M、1.6B、3B 和 8B)的结果。研究者使用相同的优化超参数和相同的数据量(DCLM 上的 160B)来训练所有模型,其中 8B 模型是个个例,它使用 80B token 进行训练,由于资源限制和训练不稳定而导致学习率较低。

研究者观察到,MeCo 在所有规模下均提升了模型性能。并且 MeCo 看起来可以为更大的模型带来更多的改进,十亿级参数的模型与 600M 相比显示出更显著的收益。不过需要注意,这是一个定性观察,与预训练损失相比,下游任务性能的扩展不太平稳。

MeCo 提升了不同训练语料库的性能

研究者基于三个不同的数据源(C4、RefinedWeb 和 DCLM),在 160B token 上训练了 1.6B 模型,结果如下图 4 所示。如果将平均下游性能作为数据质量指标,三个数据源的排序为 DCLM > RefinedWeb > C4。他们观察到,MeCo 在不同数据源上实现了一致且显著的增益,平均准确率和单个任务均是如此。

更多技术细节请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一代香港美人,感觉不是很开心的样子,大家还记得她的名字吗?

一代香港美人,感觉不是很开心的样子,大家还记得她的名字吗?

动物奇奇怪怪
2026-03-26 08:35:16
石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

蜉蝣说
2026-03-26 16:52:10
FIFA系列赛新规:比赛需决出胜负 打平将互射点球

FIFA系列赛新规:比赛需决出胜负 打平将互射点球

体坛周报
2026-03-26 15:53:18
男女约会隐秘又安全的12个地方,有6个场合你根本想不到

男女约会隐秘又安全的12个地方,有6个场合你根本想不到

聪明小石头
2026-03-21 09:13:42
马英九专访中途喊停,原因曝光

马英九专访中途喊停,原因曝光

郭茂辰海峡传真
2026-03-26 21:32:49
张雪峰女儿张姩菡发文:我不想哭,但眼泪止不住,我没有得到父爱

张雪峰女儿张姩菡发文:我不想哭,但眼泪止不住,我没有得到父爱

爆笑大聪明阿衿
2026-03-26 20:48:48
哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

蜉蝣说
2026-03-25 10:54:58
新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

荷兰豆爱健康
2026-03-26 08:26:08
吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

念洲
2026-03-26 13:14:22
流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

澎湃新闻
2026-03-26 07:06:31
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
一口气刷完全集,Netflix新剧又杀疯了

一口气刷完全集,Netflix新剧又杀疯了

来看美剧
2026-03-26 19:45:54
20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

悄悄史话
2026-03-26 14:09:05
新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社
2026-03-26 10:06:18
洛克希德·马丁:将精确打击导弹产量提升四倍

洛克希德·马丁:将精确打击导弹产量提升四倍

财联社
2026-03-25 19:18:36
曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

180视角
2026-03-25 16:58:57
斯柯达将退出中国,大众中国回应

斯柯达将退出中国,大众中国回应

第一财经资讯
2026-03-26 15:14:56
曼城115项指控迎大结局?专家预测扣分在40到60分之间

曼城115项指控迎大结局?专家预测扣分在40到60分之间

乐道足球
2026-03-26 19:55:49
拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

移光幻影
2026-03-26 09:56:37
李幼平同志逝世

李幼平同志逝世

澎湃新闻
2026-03-26 18:05:03
2026-03-27 00:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
手机
游戏
公开课
军事航空

旅游要闻

3月26日最佳情报|郊野公园杨柳依依,樱花烂漫醉游人!恭喜

手机要闻

OPPO K15 Pro 系列定档,岚影呼吸灯搭配金属中框

"死亡搁浅"外骨骼来了!小岛工作室转发联名 原度拉满

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版