网易首页 > 网易号 > 正文 申请入驻

调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模

0
分享至

DELT团队 投稿
量子位 | 公众号 QbitAI

模型训练重点在于数据的数量与质量?其实还有一个关键因素——

数据的出场顺序。

对此,微软亚洲研究院提出了一种全新的文本数据组织范式DELT(Data Efficacy in LM Training),通过引入数据排序策略,充分挖掘训练数据潜力,在不同模型尺寸与规模下都达到了良好性能。



数据效率与效能提升

该方法用优化训练数据的组织方式来让语言模型学得更好,还不用增加数据量或扩大模型规模

来看看是怎么做到的。

训练样本的组织顺序很关键

首先,我们先来理清几个概念。

在语言模型训练中,数据使用效率至关重要。现有研究多关注于数据效率(Data Efficiency),即如何通过数据选择提升模型训练效率并保持优异性能。

然而,数据效能(Data Efficacy),即如何通过数据组织增强模型训练表现,却常常被忽视。

以烹饪为例,数据效率就像在市场挑选新鲜、合适的食材,而数据效能则像名厨把握投放调料的时机与分寸,让菜品发挥出最佳风味。

数据组织的重要性

为了避免过拟合,当前的大语言模型往往在海量数据上进行训练,并且训练的次数非常有限,甚至仅进行一次完整的训练周期(epoch=1),这与早期模型依赖多次迭代训练(epoch>>1)截然不同。

这些变化让数据呈现的先后顺序对结果影响巨大

早期的AI模型类似于让学生多次反复翻阅同一本书,在多轮学习中慢慢补齐细节;而现在更像只给一遍通读,不再反复回看。

这就对阅读顺序提出了极高要求,必须精心规划学习材料出现的先后和结构。因此,训练样本的组织顺序显得尤为关键。然而,关于这一点的研究却很少。

基于此观察,微软亚洲研究院最新提出的文本数据组织范式DELT,通过引入数据排序策略,充分挖掘训练数据潜力,实现了数据的高效利用与效能提升。



DELT范式不但通过数据选择提升效率,选取高质量数据,加快训练速度;

而且通过数据排序提升效能,在预训练和后训练阶段都显著提升了模型性能,且适用于通用、数学和代码等多领域任务。

给模型按部就班安排训练课程
数据训练效能定义Data Efficacy

研究首先定义了数据训练效能(Data Efficacy),是指通过优化训练数据的组织方式来最大化语言模型的性能表现,而无需改变数据内容或模型架构。

与以往关注的“数据训练效率” (Data Efficiency) 侧重数据筛选的研究目的不同,数据效能强调对训练数据的评分和排序,以充分挖掘数据的潜在价值。

数据顺序在语言模型训练中的潜力尚未被充分挖掘, 数据效能旨在通过合理的数据组织方式,使模型在有限的训练数据和资源下实现更高的性能和泛化能力,成为提升语言模型性能的一种新兴方法。

数据组织范式DELT介绍



DELT范式架构

DELT(DataEfficacy inLMTraining)是一种创新的文本数据组织范式。

它集成了数据评分(Data Scoring)、数据选择(Data Selection) 和数据排序(Data Ordering) 三大核心组件。

数据评分根据特定的属性为每个样本赋予分数,如:难度、质量、多样性等。

数据选择通过评分筛选出最优子集(如:top-k、按阈值筛选等),然后数据排序根据评分重新组织所选择数据的呈现顺序(如:基于课程学习的分数从低到高排列)。 为了兼顾数据处理效率,DELT范式的数据选择和数据排序共用数据评分的结果。

因此,数据评分的规则设置非常重要。于是,研究还提出了Learning-Quality Score(LQS)方法。



LQS打分方式

该数据评分方式结合了质量可学习性两个关键指标,不但可以筛选出低质量数据,而且也能捕捉数据在不同阶段的训练价值,进一步提供了可靠的数据排列顺序。

为了进一步提升数据效能,团队还提出了一种全新的折叠排序方法Folding Ordering(FO)。

基于课程学习的排序(即,按分数升序排序)可能导致模型遗忘和数据内部分布偏差。

折叠排序策略通过多层“折叠”,将数据按分数分层并多次采样,无重复且均衡分布。



Folding排序方式

相比随机打乱或单一排序,它既保留难度排序优势,又避免模型过度遗忘或依赖特定数据,提升了鲁棒性和泛化能力。

与传统随机排序方法相比,DELT范式不仅通过减小数据规模提升了训练效率;而且在不同模型尺寸和数据规模下,在各种评测集上都显著提升了模型性能。



不同数据规模和模型尺寸下的结果

DELT给Data-centric AI领域带来了全新思路。

看来,类比于人类教学实践,讲究个性化与按部就班地安排学习内容,AI训练也需要类似的学习方法。

论文链接:https://arxiv.org/abs/2506.21545
代码链接:https://github.com/microsoft/DELT

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京市公安局副局长董亦军突发疾病去世,中央政法委发文号召学习

北京市公安局副局长董亦军突发疾病去世,中央政法委发文号召学习

澎湃新闻
2025-11-15 10:34:28
江苏快递员被捅后续:双方争执女子丈夫失控,知情人透露更多

江苏快递员被捅后续:双方争执女子丈夫失控,知情人透露更多

史行途
2025-11-14 13:37:38
日本人扛不住了!高市早苗对央行下手,日元狂跌,丰田却多赚百亿

日本人扛不住了!高市早苗对央行下手,日元狂跌,丰田却多赚百亿

云上乌托邦
2025-11-15 15:03:50
致15死1失踪,湖南怀化沅水流域重大水上交通事故调查报告公布

致15死1失踪,湖南怀化沅水流域重大水上交通事故调查报告公布

界面新闻
2025-11-15 15:13:18
台名嘴狠批高市早苗:就凭你日本?无条件投降国

台名嘴狠批高市早苗:就凭你日本?无条件投降国

看看新闻Knews
2025-11-15 15:12:08
南宁地铁站大便后续:眼镜男身份被扒,已社死,车企无辜遭牵连

南宁地铁站大便后续:眼镜男身份被扒,已社死,车企无辜遭牵连

鋭娱之乐
2025-11-14 12:41:34
随着樊振东4-2逆转王楚钦,产生了两大不可思议:连续4届杀进决赛

随着樊振东4-2逆转王楚钦,产生了两大不可思议:连续4届杀进决赛

侃球熊弟
2025-11-15 13:24:14
高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

寻墨阁
2025-11-12 21:14:07
快讯!日本:已向中方再次作出说明

快讯!日本:已向中方再次作出说明

南权先生
2025-11-15 16:49:53
14套房产作价885万元,A股公司宣布“以房抵债”!股价1个月暴涨153%,公司却已资不抵债,面临银行巨债、违约担保双重“雷区”

14套房产作价885万元,A股公司宣布“以房抵债”!股价1个月暴涨153%,公司却已资不抵债,面临银行巨债、违约担保双重“雷区”

每日经济新闻
2025-11-15 14:19:47
卓伟爆了一个新瓜!

卓伟爆了一个新瓜!

八卦疯叔
2025-11-15 10:16:28
中日两国必有一战,谁也无法调和,谁也无法阻挡中华民族统一大业

中日两国必有一战,谁也无法调和,谁也无法阻挡中华民族统一大业

易玄
2025-11-13 06:25:22
11月15日俄乌最新:转折点来了?

11月15日俄乌最新:转折点来了?

西楼饮月
2025-11-15 13:27:48
被拍到手上有“美甲”,汪士钦社媒收到网友大量攻击性评论

被拍到手上有“美甲”,汪士钦社媒收到网友大量攻击性评论

懂球帝
2025-11-15 15:28:06
日本议员:受降的是中华民国,新中国没资格说话!网友:那更好了

日本议员:受降的是中华民国,新中国没资格说话!网友:那更好了

青青子衿
2025-11-15 15:51:35
公摊电梯厅成火锅涮菜区和“私人影院”?福州业主爆改一梯一户引争议 律师提醒

公摊电梯厅成火锅涮菜区和“私人影院”?福州业主爆改一梯一户引争议 律师提醒

封面新闻
2025-11-15 09:17:05
日媒关注:中方愤怒正在升级

日媒关注:中方愤怒正在升级

环球时报新闻
2025-11-15 14:00:04
确认影响上海,这波超猛!上海人挺住!刺激的来了:直接最低0℃!

确认影响上海,这波超猛!上海人挺住!刺激的来了:直接最低0℃!

鲁中晨报
2025-11-15 17:45:31
楼继伟称房地产将持续低迷,需提高财政赤字支持房地产转型

楼继伟称房地产将持续低迷,需提高财政赤字支持房地产转型

风向观察
2025-11-15 14:32:21
中国领事遭围攻,日本记者:要100多年前,我们就直接打过去了!

中国领事遭围攻,日本记者:要100多年前,我们就直接打过去了!

浅深说
2025-11-13 10:34:33
2025-11-15 19:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
11682文章数 176330关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

时尚
本地
亲子
旅游
军事航空

冬天的“销冠”,已被羽绒服预定

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

亲子要闻

孕妇饿了要立即吃东西吗

旅游要闻

浙江放大招!秋假 5 天连休 + 家长半价,亲子游热潮席卷 11 市!

军事要闻

解密福建舰电磁弹射背后的硬核支撑

无障碍浏览 进入关怀版