网易首页 > 网易号 > 正文 申请入驻

调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模

0
分享至

DELT团队 投稿
量子位 | 公众号 QbitAI

模型训练重点在于数据的数量与质量?其实还有一个关键因素——

数据的出场顺序。

对此,微软亚洲研究院提出了一种全新的文本数据组织范式DELT(Data Efficacy in LM Training),通过引入数据排序策略,充分挖掘训练数据潜力,在不同模型尺寸与规模下都达到了良好性能。



数据效率与效能提升

该方法用优化训练数据的组织方式来让语言模型学得更好,还不用增加数据量或扩大模型规模

来看看是怎么做到的。

训练样本的组织顺序很关键

首先,我们先来理清几个概念。

在语言模型训练中,数据使用效率至关重要。现有研究多关注于数据效率(Data Efficiency),即如何通过数据选择提升模型训练效率并保持优异性能。

然而,数据效能(Data Efficacy),即如何通过数据组织增强模型训练表现,却常常被忽视。

以烹饪为例,数据效率就像在市场挑选新鲜、合适的食材,而数据效能则像名厨把握投放调料的时机与分寸,让菜品发挥出最佳风味。

数据组织的重要性

为了避免过拟合,当前的大语言模型往往在海量数据上进行训练,并且训练的次数非常有限,甚至仅进行一次完整的训练周期(epoch=1),这与早期模型依赖多次迭代训练(epoch>>1)截然不同。

这些变化让数据呈现的先后顺序对结果影响巨大

早期的AI模型类似于让学生多次反复翻阅同一本书,在多轮学习中慢慢补齐细节;而现在更像只给一遍通读,不再反复回看。

这就对阅读顺序提出了极高要求,必须精心规划学习材料出现的先后和结构。因此,训练样本的组织顺序显得尤为关键。然而,关于这一点的研究却很少。

基于此观察,微软亚洲研究院最新提出的文本数据组织范式DELT,通过引入数据排序策略,充分挖掘训练数据潜力,实现了数据的高效利用与效能提升。



DELT范式不但通过数据选择提升效率,选取高质量数据,加快训练速度;

而且通过数据排序提升效能,在预训练和后训练阶段都显著提升了模型性能,且适用于通用、数学和代码等多领域任务。

给模型按部就班安排训练课程
数据训练效能定义Data Efficacy

研究首先定义了数据训练效能(Data Efficacy),是指通过优化训练数据的组织方式来最大化语言模型的性能表现,而无需改变数据内容或模型架构。

与以往关注的“数据训练效率” (Data Efficiency) 侧重数据筛选的研究目的不同,数据效能强调对训练数据的评分和排序,以充分挖掘数据的潜在价值。

数据顺序在语言模型训练中的潜力尚未被充分挖掘, 数据效能旨在通过合理的数据组织方式,使模型在有限的训练数据和资源下实现更高的性能和泛化能力,成为提升语言模型性能的一种新兴方法。

数据组织范式DELT介绍



DELT范式架构

DELT(DataEfficacy inLMTraining)是一种创新的文本数据组织范式。

它集成了数据评分(Data Scoring)、数据选择(Data Selection) 和数据排序(Data Ordering) 三大核心组件。

数据评分根据特定的属性为每个样本赋予分数,如:难度、质量、多样性等。

数据选择通过评分筛选出最优子集(如:top-k、按阈值筛选等),然后数据排序根据评分重新组织所选择数据的呈现顺序(如:基于课程学习的分数从低到高排列)。 为了兼顾数据处理效率,DELT范式的数据选择和数据排序共用数据评分的结果。

因此,数据评分的规则设置非常重要。于是,研究还提出了Learning-Quality Score(LQS)方法。



LQS打分方式

该数据评分方式结合了质量可学习性两个关键指标,不但可以筛选出低质量数据,而且也能捕捉数据在不同阶段的训练价值,进一步提供了可靠的数据排列顺序。

为了进一步提升数据效能,团队还提出了一种全新的折叠排序方法Folding Ordering(FO)。

基于课程学习的排序(即,按分数升序排序)可能导致模型遗忘和数据内部分布偏差。

折叠排序策略通过多层“折叠”,将数据按分数分层并多次采样,无重复且均衡分布。



Folding排序方式

相比随机打乱或单一排序,它既保留难度排序优势,又避免模型过度遗忘或依赖特定数据,提升了鲁棒性和泛化能力。

与传统随机排序方法相比,DELT范式不仅通过减小数据规模提升了训练效率;而且在不同模型尺寸和数据规模下,在各种评测集上都显著提升了模型性能。



不同数据规模和模型尺寸下的结果

DELT给Data-centric AI领域带来了全新思路。

看来,类比于人类教学实践,讲究个性化与按部就班地安排学习内容,AI训练也需要类似的学习方法。

论文链接:https://arxiv.org/abs/2506.21545
代码链接:https://github.com/microsoft/DELT

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
12胜0负!联盟第1!全联盟都说你要退役了,你却天神下凡再创神迹

12胜0负!联盟第1!全联盟都说你要退役了,你却天神下凡再创神迹

老侃侃球
2026-01-07 03:30:03
【官方】蓉城宣布签约海牛旧将席尔瓦 上赛季入11球

【官方】蓉城宣布签约海牛旧将席尔瓦 上赛季入11球

体坛周报
2026-01-07 11:49:11
特斯拉中国:购买Model 3和Model Y、Model Y L车型5年0息

特斯拉中国:购买Model 3和Model Y、Model Y L车型5年0息

极目新闻
2026-01-06 09:58:24
帮忙带娃被网暴后续,小姑子晒出多张证据,亲戚透露更多内情

帮忙带娃被网暴后续,小姑子晒出多张证据,亲戚透露更多内情

丁丁鲤史纪
2026-01-07 11:13:43
黄油欧美卖爆,顿顿都离不开,为啥中国人却不爱,超市也很少卖?

黄油欧美卖爆,顿顿都离不开,为啥中国人却不爱,超市也很少卖?

揽星河的笔记
2025-12-08 13:30:38
有钱却总喜欢装穷的三个星座男

有钱却总喜欢装穷的三个星座男

星座叶大仙
2026-01-07 10:42:19
中国为何几乎不拍“元朝历史剧”?不是不想拍,而是确实不能拍

中国为何几乎不拍“元朝历史剧”?不是不想拍,而是确实不能拍

老踝是个手艺人
2026-01-07 09:24:27
2-1逆转,25岁英格兰猛将绝杀,英超第17掀翻西汉姆联,终结4连败

2-1逆转,25岁英格兰猛将绝杀,英超第17掀翻西汉姆联,终结4连败

侧身凌空斩
2026-01-07 05:56:04
2026年春节将现5大现象:摩托军消失,亲戚不在走动,原因很现实

2026年春节将现5大现象:摩托军消失,亲戚不在走动,原因很现实

小虎新车推荐员
2026-01-07 06:15:09
“刘文彩,喝人奶”,他到底喝没喝过?刘文彩的儿子揭露真相!

“刘文彩,喝人奶”,他到底喝没喝过?刘文彩的儿子揭露真相!

铭记历史呀
2025-12-31 02:05:57
事件升级!司晓迪晒开房记录,16个男顶流被锤!内娱彻底玩完

事件升级!司晓迪晒开房记录,16个男顶流被锤!内娱彻底玩完

小玡说故事
2026-01-06 10:02:21
黄国昌正式辞职!好在郑丽文早有准备,柯文哲留下关键一人

黄国昌正式辞职!好在郑丽文早有准备,柯文哲留下关键一人

肖兹探秘说
2026-01-06 13:21:16
张怡宁没想到,2026刚开始,官媒高调官宣邓亚萍喜讯,终等到这天

张怡宁没想到,2026刚开始,官媒高调官宣邓亚萍喜讯,终等到这天

阿纂看事
2026-01-07 13:44:51
“世纪审判”首次听证会:马杜罗“我无罪、我是个正直的人”,法官“92岁高龄”,“36年前有先例”

“世纪审判”首次听证会:马杜罗“我无罪、我是个正直的人”,法官“92岁高龄”,“36年前有先例”

华尔街见闻官方
2026-01-06 08:27:09
蒙古国大胆想法:拿400平方公里和中国换通道?想将稀土运往美国

蒙古国大胆想法:拿400平方公里和中国换通道?想将稀土运往美国

科普100克克
2025-12-27 13:33:52
姚安娜这事儿真让人想不通,每月掏二十万请全剧组喝咖啡,

姚安娜这事儿真让人想不通,每月掏二十万请全剧组喝咖啡,

小光侃娱乐
2026-01-06 20:45:03
醪糟被关注!医生:常吃醪糟的人,不用多久,肠道或迎来3个变化

醪糟被关注!医生:常吃醪糟的人,不用多久,肠道或迎来3个变化

阿兵科普
2025-11-30 20:53:55
遭中方谴责后,马斯克星链降轨70公里!更逼近空间站,到底想干啥

遭中方谴责后,马斯克星链降轨70公里!更逼近空间站,到底想干啥

铁锤简科
2026-01-05 15:30:14
苏富比5.9亿“稀世粉钻”惨遭流拍,西方巨头破防:河南负全责!

苏富比5.9亿“稀世粉钻”惨遭流拍,西方巨头破防:河南负全责!

诗意世界
2025-12-31 17:59:26
前所未有!俄军空袭刚开始,乌军就开始反击,直接与俄罗斯对轰!

前所未有!俄军空袭刚开始,乌军就开始反击,直接与俄罗斯对轰!

阿龙聊军事
2025-06-07 20:04:46
2026-01-07 15:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
11981文章数 176356关注度
往期回顾 全部

科技要闻

豪掷世界第一"球" 杨元庆亮出联想AI护城河

头条要闻

北京独生女被男友殴打致残:他让我再买房写他儿子名字

头条要闻

北京独生女被男友殴打致残:他让我再买房写他儿子名字

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

蔚来2025百万台收官 一场迟到的自我修复

态度原创

房产
亲子
手机
数码
军事航空

房产要闻

海珠双冠王!中交天翠以强兑现力+生活温度,筑就长期主义产品

亲子要闻

帮忙带娃被网暴后续,小姑子晒出多张证据,亲戚透露更多内情

手机要闻

消息称三星2月25日发布Galaxy S26系列手机

数码要闻

先于标准获批,华硕计划2026年内发布首批Wi-Fi 8家用路由器

军事要闻

特朗普政府正在讨论获取格陵兰岛的方案 包括军事选项

无障碍浏览 进入关怀版