网易首页 > 网易号 > 正文 申请入驻

华人团队终结Token危机:扩散模型数据潜力超自回归三倍

0
分享至

时令 发自 凹非寺
量子位 | 公众号 QbitAI

Token危机真的要解除了吗?

最新研究发现,在token数量受限的情况下,扩散语言模型的数据潜力可达自回归模型的三倍多。

不仅如此,一个参数规模为1B的扩散模型,用1B tokens进行480个周期的训练,就在HellaSwag和MMLU基准上分别取得56%和33%的准确率,且未使用任何技巧或数据筛选。

更令人惊讶的是,即使是在如此极端的重复下,模型都未出现性能饱和,这表明此模型甚至还可以从这1B数据中挖掘出更多有用信息。

论文一作Jinjie Ni在x上详细介绍了其团队的研究结论和方法。

下面让我们详细了解更多细节。

扩散语言模型是超强的数据学习者

扩散语言模型之所以具备超强的数据学习能力,主要有两个原因:

1)扩散目标和双向注意力机制使其能够进行双向建模,更充分地挖掘网络数据中的信息,,而这些数据并非完全因果关系。

简单来说,传统自回归语言模型只能从前向上下文预测,存在严格的因果限制,这限制了模型对语言和其他非因果数据(如代码、生物序列等)中复杂模式的捕捉能力。

扩散语言模型通过支持双向建模,打破了这种因果限制,更全面地利用数据,从而提升了学习效果。

2)其计算密度极高。扩散模型在训练和推理过程中投入了更多计算资源(FLOPs),通过多次处理数据和迭代优化预测,提高了计算密度和模型性能。

相比之下,自回归模型优先考虑计算效率,而非数据潜力。它们的transformer设计采用了教师强制(teacher forcing)和因果掩码(causal masking),虽然能最大化GPU的利用率,但也限制了模型的建模能力。

随着计算成本下降,数据的可获得性成为关键瓶颈——这正是研究团队开展DLMs研究的出发点。

此外,扩散目标明确要求在预训练时,对每个数据点进行多种掩码比例和组合的扰动,以便更有效地训练并获得更准确的期望估计,这也解释了为什么多次重复使用数据能带来显著的提升。

尽管扩散语言模型对数据重复具有一定的鲁棒性,但当训练足够多的周期后,它们也会出现过拟合现象。

具体来说,研究团队观察到模型开始过拟合的训练周期数与独特数据量呈正相关,与模型规模呈负相关。

换句话说,独特数据量越大,过拟合出现得越晚;而模型规模越大,过拟合则越早发生

除了得出上述结论,研究者还发现当模型在预训练验证集上“过拟合”时,它们在下游任务中的性能不一定会下降,反而可能会一直上升,直到训练结束。

出现这种现象的原因在于,验证损失是是以绝对的交叉熵损失(负对数似然,NLL)来衡量的,而下游任务的准确率基于比较不同选项的相对交叉熵损失。

因此,绝对NLL值的变化并不一定转化为其相对顺序的变化

上图中,研究者还展示了在64个训练周期内,一个参数规模为1B的自回归模型在使用1.5B tokens进行训练时,其多选评测中真实答案与其他选项的平均负对数似然(NLL)、以及它们之间差值(△NLL)的变化情况。

值得注意的是,即使在第一个验证检查点(训练3600步后),模型对真实答案的NLL值已经显著较低(即概率较高),这表明模型早期就具备优先为正确选项分配更高logits的能力。

然而,随着训练的继续,模型开始出现过拟合,导致真实答案和错误选项的NLL值均有所上升。

但有趣的是,即便出现了“过拟合”,真实答案与其他选项之间的NLL差距依然持续扩大,表明模型的判别能力在验证损失上升的情况下仍在不断提升。

一个合理的解释是,模型反复接触有限的训练数据后,可能会对某些文本片段过于自信,从而放大了错误预测的NLL值。

然而,真实答案与其他选项之间的相对NLL差距不断拉大,表明模型的判别能力仍在持续提升。

类似的道理也适用于生成式评估(即在单个token级别进行选择)。因此,研究者推测,模型对非关键token的错误过度自信,对整体任务性能影响有限。

之后,团队将在研究中使用更大模型和更多独特数据,进一步验证这一假设。

作者介绍

Jinjie Ni,本科毕业于西北工业大学电气工程专业,博士毕业于新加坡南洋理工大学计算机科学专业。

曾于2019年任哈佛大学应用计算科学研究所助理,2022年任阿里巴巴达摩院研究实习生。现任新加坡国立大学SEA AI研究员,与Michael Shieh教授一起工作。

Michael Shieh(谢其哲),本科就读于上海交通大学ACM班,硕士和博士均毕业于卡内基梅隆大学。

现任新加坡国立大学计算机科学系助理教授,他曾在谷歌DeepMind与Quoc Le和Thang Luong合作过两年。

参考链接:
[1]https://jinjieni.notion.site/Diffusion-Language-Models-are-Super-Data-Learners-239d8f03a866800ab196e49928c019ac
[2]https://threadreaderapp.com/thread/1954177095435014533.html?utm_source=chatgpt.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖人2比0!詹姆斯32胜0负!杜兰特9次失误葬送火箭

湖人2比0!詹姆斯32胜0负!杜兰特9次失误葬送火箭

篮球教学论坛
2026-04-22 13:56:30
全欧看不懂的豪赌!带队降级的孔帕尼,把拜仁焊成了欧洲头号噩梦

全欧看不懂的豪赌!带队降级的孔帕尼,把拜仁焊成了欧洲头号噩梦

老骾体育解说
2026-04-15 21:21:31
黄大发等涉黑案一审宣判:黄大发等12人组织、领导、参加黑社会性质组织,判处黄大发死刑,其他11名被告人分别判处13年至2年2个月不等刑罚

黄大发等涉黑案一审宣判:黄大发等12人组织、领导、参加黑社会性质组织,判处黄大发死刑,其他11名被告人分别判处13年至2年2个月不等刑罚

扬子晚报
2026-04-21 15:07:17
伊朗“宫斗”分出胜负?12小时就改口要谈判,改革派重新占据上风

伊朗“宫斗”分出胜负?12小时就改口要谈判,改革派重新占据上风

民间胡扯老哥
2026-04-22 05:07:48
华为Pura 90全系亮相,这次“扛”住了价格,却扛不住争议

华为Pura 90全系亮相,这次“扛”住了价格,却扛不住争议

于见专栏
2026-04-21 19:45:15
闺蜜大婚我随了5000,她回礼雨伞,看见伞柄刻着地址和6个数字

闺蜜大婚我随了5000,她回礼雨伞,看见伞柄刻着地址和6个数字

磊子讲史
2026-01-23 16:54:49
瓜帅:我早就说过孔帕尼迟早会当曼城主帅,确信曼城在他心中

瓜帅:我早就说过孔帕尼迟早会当曼城主帅,确信曼城在他心中

懂球帝
2026-04-22 06:23:06
中央明确了!社保最低缴费年限要提高,70、80后得早做准备

中央明确了!社保最低缴费年限要提高,70、80后得早做准备

云鹏叙事
2026-04-12 16:36:39
1946年孔二小姐穿短裙逛公园却被龙三公子调戏,双方立即拔枪火拼

1946年孔二小姐穿短裙逛公园却被龙三公子调戏,双方立即拔枪火拼

睡前讲故事
2026-04-21 11:33:01
等等党胜利!明日9款车正式上市:9分钟闪充、纯电905km…全来了

等等党胜利!明日9款车正式上市:9分钟闪充、纯电905km…全来了

生活魔术专家
2026-04-22 00:34:05
拜鬼结束,高市离开神社,中国发起第四波反击,解放军或增派航母

拜鬼结束,高市离开神社,中国发起第四波反击,解放军或增派航母

Ck的蜜糖
2026-04-21 18:23:36
再下一城!詹姆斯carry全场,记者:时光老人在他面前都黯淡无光

再下一城!詹姆斯carry全场,记者:时光老人在他面前都黯淡无光

体育见习官
2026-04-22 13:37:51
赵心童即便卫冕成功也成不了世界第1!特鲁姆普:大热必死你小心

赵心童即便卫冕成功也成不了世界第1!特鲁姆普:大热必死你小心

风过乡
2026-04-22 13:16:46
有一说一,哈登真的是联盟每支球队都梦寐以求的“球场指挥官”!

有一说一,哈登真的是联盟每支球队都梦寐以求的“球场指挥官”!

田先生篮球
2026-04-21 22:01:52
2026年5月,运势转旺!遇事有人帮,过日子总能赚到钱的3大生肖

2026年5月,运势转旺!遇事有人帮,过日子总能赚到钱的3大生肖

毅谈生肖
2026-04-22 10:45:35
卢拉:赶紧给特朗普颁个奖吧!这样就世界太平了

卢拉:赶紧给特朗普颁个奖吧!这样就世界太平了

看看新闻Knews
2026-04-22 09:12:06
日本9偶像「脱衣玩野球拳」离谱处分出炉!女偶像遭开铡 男偶像全没事

日本9偶像「脱衣玩野球拳」离谱处分出炉!女偶像遭开铡 男偶像全没事

ETtoday星光云
2026-04-20 15:00:12
16GB+1TB,小米“降价很猛”的一款旗舰手机,从5499元跌至3133元

16GB+1TB,小米“降价很猛”的一款旗舰手机,从5499元跌至3133元

小柱解说游戏
2026-04-22 13:54:55
李荣浩户外直播钓鱼手机落水,10万多名观众在线目睹手机“溺水”,此前称要靠手机导航离开山区,最新回应:人没事,手机捞回来了

李荣浩户外直播钓鱼手机落水,10万多名观众在线目睹手机“溺水”,此前称要靠手机导航离开山区,最新回应:人没事,手机捞回来了

山西晚报
2026-04-22 11:50:05
沉默1天,中国准时发声,“高市下岗”传遍全境,石破茂判断没错

沉默1天,中国准时发声,“高市下岗”传遍全境,石破茂判断没错

阿芒娱乐说
2026-04-21 17:31:29
2026-04-22 14:27:00
量子位 incentive-icons
量子位
追踪人工智能动态
12512文章数 176457关注度
往期回顾 全部

科技要闻

凌晨突发!ChatGPT Images 2.0发布

头条要闻

KTV服务员被指强奸14岁女生 官方通报

头条要闻

KTV服务员被指强奸14岁女生 官方通报

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

数码
时尚
房产
本地
艺术

数码要闻

官宣!追觅硅谷发布会定档,4月27日-30日登陆北美

顶流复工,已判若两人

房产要闻

狂抢284轮!中海海口再拿重磅宅地!

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

艺术要闻

无花不风景

无障碍浏览 进入关怀版