网易首页 > 网易号 > 正文 申请入驻

调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模

0
分享至

DELT团队 投稿
量子位 | 公众号 QbitAI

模型训练重点在于数据的数量与质量?其实还有一个关键因素——

数据的出场顺序。

对此,微软亚洲研究院提出了一种全新的文本数据组织范式DELT(Data Efficacy in LM Training),通过引入数据排序策略,充分挖掘训练数据潜力,在不同模型尺寸与规模下都达到了良好性能。



数据效率与效能提升

该方法用优化训练数据的组织方式来让语言模型学得更好,还不用增加数据量或扩大模型规模

来看看是怎么做到的。

训练样本的组织顺序很关键

首先,我们先来理清几个概念。

在语言模型训练中,数据使用效率至关重要。现有研究多关注于数据效率(Data Efficiency),即如何通过数据选择提升模型训练效率并保持优异性能。

然而,数据效能(Data Efficacy),即如何通过数据组织增强模型训练表现,却常常被忽视。

以烹饪为例,数据效率就像在市场挑选新鲜、合适的食材,而数据效能则像名厨把握投放调料的时机与分寸,让菜品发挥出最佳风味。

数据组织的重要性

为了避免过拟合,当前的大语言模型往往在海量数据上进行训练,并且训练的次数非常有限,甚至仅进行一次完整的训练周期(epoch=1),这与早期模型依赖多次迭代训练(epoch>>1)截然不同。

这些变化让数据呈现的先后顺序对结果影响巨大

早期的AI模型类似于让学生多次反复翻阅同一本书,在多轮学习中慢慢补齐细节;而现在更像只给一遍通读,不再反复回看。

这就对阅读顺序提出了极高要求,必须精心规划学习材料出现的先后和结构。因此,训练样本的组织顺序显得尤为关键。然而,关于这一点的研究却很少。

基于此观察,微软亚洲研究院最新提出的文本数据组织范式DELT,通过引入数据排序策略,充分挖掘训练数据潜力,实现了数据的高效利用与效能提升。



DELT范式不但通过数据选择提升效率,选取高质量数据,加快训练速度;

而且通过数据排序提升效能,在预训练和后训练阶段都显著提升了模型性能,且适用于通用、数学和代码等多领域任务。

给模型按部就班安排训练课程
数据训练效能定义Data Efficacy

研究首先定义了数据训练效能(Data Efficacy),是指通过优化训练数据的组织方式来最大化语言模型的性能表现,而无需改变数据内容或模型架构。

与以往关注的“数据训练效率” (Data Efficiency) 侧重数据筛选的研究目的不同,数据效能强调对训练数据的评分和排序,以充分挖掘数据的潜在价值。

数据顺序在语言模型训练中的潜力尚未被充分挖掘, 数据效能旨在通过合理的数据组织方式,使模型在有限的训练数据和资源下实现更高的性能和泛化能力,成为提升语言模型性能的一种新兴方法。

数据组织范式DELT介绍



DELT范式架构

DELT(DataEfficacy inLMTraining)是一种创新的文本数据组织范式。

它集成了数据评分(Data Scoring)、数据选择(Data Selection) 和数据排序(Data Ordering) 三大核心组件。

数据评分根据特定的属性为每个样本赋予分数,如:难度、质量、多样性等。

数据选择通过评分筛选出最优子集(如:top-k、按阈值筛选等),然后数据排序根据评分重新组织所选择数据的呈现顺序(如:基于课程学习的分数从低到高排列)。 为了兼顾数据处理效率,DELT范式的数据选择和数据排序共用数据评分的结果。

因此,数据评分的规则设置非常重要。于是,研究还提出了Learning-Quality Score(LQS)方法。



LQS打分方式

该数据评分方式结合了质量可学习性两个关键指标,不但可以筛选出低质量数据,而且也能捕捉数据在不同阶段的训练价值,进一步提供了可靠的数据排列顺序。

为了进一步提升数据效能,团队还提出了一种全新的折叠排序方法Folding Ordering(FO)。

基于课程学习的排序(即,按分数升序排序)可能导致模型遗忘和数据内部分布偏差。

折叠排序策略通过多层“折叠”,将数据按分数分层并多次采样,无重复且均衡分布。



Folding排序方式

相比随机打乱或单一排序,它既保留难度排序优势,又避免模型过度遗忘或依赖特定数据,提升了鲁棒性和泛化能力。

与传统随机排序方法相比,DELT范式不仅通过减小数据规模提升了训练效率;而且在不同模型尺寸和数据规模下,在各种评测集上都显著提升了模型性能。



不同数据规模和模型尺寸下的结果

DELT给Data-centric AI领域带来了全新思路。

看来,类比于人类教学实践,讲究个性化与按部就班地安排学习内容,AI训练也需要类似的学习方法。

论文链接:https://arxiv.org/abs/2506.21545
代码链接:https://github.com/microsoft/DELT

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
神舟二十二号秘密出征!太空快递员解锁新技能,中国航天再破局

神舟二十二号秘密出征!太空快递员解锁新技能,中国航天再破局

探史
2025-11-16 09:53:00
申真谞走下神坛,中国围棋抬眼一看:对手呢?

申真谞走下神坛,中国围棋抬眼一看:对手呢?

真理是我亲戚
2025-11-16 11:07:58
“狗主人有五次不死机会,他们还串供了”,来自李胜律师最新爆料

“狗主人有五次不死机会,他们还串供了”,来自李胜律师最新爆料

汉史趣闻
2025-11-16 17:22:09
《解放军报》刊文:武力介入台海,日本全国都有沦为战场的风险

《解放军报》刊文:武力介入台海,日本全国都有沦为战场的风险

每日经济新闻
2025-11-16 15:09:54
外媒:爆冷0-2输给缅甸,中国U17出征亚少赛预选赛前景蒙阴

外媒:爆冷0-2输给缅甸,中国U17出征亚少赛预选赛前景蒙阴

星耀国际足坛
2025-11-16 22:28:26
今年各行各业惨到什么程度?网友:穷的越穷,富的越富!

今年各行各业惨到什么程度?网友:穷的越穷,富的越富!

解读热点事件
2025-11-15 00:15:03
王力宏的新瓜,有点炸

王力宏的新瓜,有点炸

热闹吃瓜大姐
2025-11-16 21:15:45
新中国成立后,我国至今未破的大案、要案有哪些?

新中国成立后,我国至今未破的大案、要案有哪些?

文史道
2025-11-16 12:31:42
突然爆雷!人去屋空,电话停机,不少人慌了:刚付了钱

突然爆雷!人去屋空,电话停机,不少人慌了:刚付了钱

起喜电影
2025-11-16 10:06:16
中方通告全球:3名航天员带回约100斤太空“特产”,引发高度关注

中方通告全球:3名航天员带回约100斤太空“特产”,引发高度关注

一个有灵魂的作者
2025-11-15 21:09:12
她这大体格身材,颜值气质都是十分完美,真的不错

她这大体格身材,颜值气质都是十分完美,真的不错

陈意小可爱
2025-10-21 12:53:32
利物浦主帅斯洛特得到了一个绝佳机会,可以将萨拉赫从首发中剔除

利物浦主帅斯洛特得到了一个绝佳机会,可以将萨拉赫从首发中剔除

夜白侃球
2025-11-16 23:26:14
世预赛:英格兰2-0收官!8战全胜进22球0失球,凯恩梅开二度

世预赛:英格兰2-0收官!8战全胜进22球0失球,凯恩梅开二度

念洲
2025-11-17 03:11:11
全运会乒乓:8项冠军已出炉!11月17日赛程公布,诞生团体8强

全运会乒乓:8项冠军已出炉!11月17日赛程公布,诞生团体8强

全言作品
2025-11-17 01:42:51
5.8万人军演!日本自卫队配合高市早苗亮刀?

5.8万人军演!日本自卫队配合高市早苗亮刀?

看看新闻Knews
2025-11-15 12:24:13
红军城失守,俄军猛攻逼和谈,西方援乌军事支持已现退缩迹象?

红军城失守,俄军猛攻逼和谈,西方援乌军事支持已现退缩迹象?

马蹄烫嘴说美食
2025-11-17 01:28:05
即将开启“速冻”模式!广东最低仅6℃!至于佛山......

即将开启“速冻”模式!广东最低仅6℃!至于佛山......

佛山发布
2025-11-16 14:39:52
“特朗普做出最大让步”

“特朗普做出最大让步”

观察者网
2025-11-16 22:36:04
大家可能错怪王思雨、李梦和韩旭了,教练迪萨尔有4个抉择有争议

大家可能错怪王思雨、李梦和韩旭了,教练迪萨尔有4个抉择有争议

安海客
2025-11-16 14:25:35
小孩到底几岁才有正常审美?网友:这些小朋友上辈子过得不好!

小孩到底几岁才有正常审美?网友:这些小朋友上辈子过得不好!

解读热点事件
2025-11-16 00:05:03
2025-11-17 04:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
11687文章数 176331关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

中国公民需谨慎前往日本 四大原因披露

头条要闻

中国公民需谨慎前往日本 四大原因披露

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

教育
旅游
时尚
健康
数码

教育要闻

妈妈晒高二儿子吃宵夜,女网友眼睛看直了:这颜值,小姑娘遭殃了

旅游要闻

历史学者纪连海打卡徐州户部山:在这里可以享受生活

秋天怎么穿出时尚感?避开老气的着装方式,美得自然又大方

血液科专家揭秘白血病七大误区

数码要闻

华为鸿蒙HarmonyOS 6.0.0.112版本首曝,支持电脑投平板

无障碍浏览 进入关怀版