网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

何恺明首个语言模型：105M参数，不走GPT自回归老路

2026-05-13 09:21:00　来源: 量子位

北京举报

0

分享至

henry 发自凹非寺
量子位 | 公众号 QbitAI

何恺明，也下场做语言模型了。

只不过，这次他带队做的不是大家熟悉的、像ChatGPT背后那套“预测下一个词元”（next token prediction）的自回归范式。

而是另一条过去几年在图像领域大火、如今正被越来越多人搬进文本生成的新路线：扩散语言模型（Diffusion Language Model，DLM）。

在最新的论文中，何恺明团队放出全新连续扩散语言模型：ELF：Embedded Language Flows

与不少还停留在token层面做扩散的语言模型不同，ELF把整个生成过程都留在了连续的embedding空间里，直到最后一步，才重新离散化，将表示变回token

靠着这套设计，ELF只用了105M参数、45B训练token、32步采样，就正面跑赢了一批主流扩散语言模型。

最直观的一项指标是它在OpenWebText上，把生成困惑度（Generative Perplexity）直接压到了24。

这里简单科普一下生成困惑度，它本质上是让一个强大的语言模型，给生成结果“检查作业”，看看这些文本到底像不像真实人类写出来的语料——

值越低，说明生成质量越高、模型出来的东西也就越没AI味儿，越自然。

在和主流扩散语言模型的对比中，ELF在训练token少近10倍、采样步数更少的情况下，反而拿到了更低的生成困惑度。

可以说，在过去很长一段时间里，扩散语言模型的进展，几乎都发生在离散DLM（Discrete DLM）这一侧。

而ELF第一次证明了一件事：连续的方法，不但能跑，而且效果不错。

ELF到底做了什么

要理解ELF，先得理解扩散语言模型现在到底在做什么。

扩散语言模型，主要有两种技术路线。一是以MDLM、Duo为代表的离散派，直接在token空间做扩散，每一步处理的是离散随机变量。

二是包括Diffusion-LM、CDCD、DiffuSeq在内的连续派，把token映成连续embedding，在连续空间里去噪。

此前的研究中，像MDLM、LLaDA、Dream 7B这些离散路线占据了上风。原因是很简单，因为语言本身就是离散的。

对于这一看似常识的理解，恺明团队给出的判断恰恰相反——

问题可能不是“语言必须离散”，问题可能是：前人根本没有让连续路线，连续到底。

Diffusion-LM这一类的方法虽然在embedding空间去噪，但每一步都要算一次token-level的交叉熵，把连续轨迹一路绑在词表上。

后来的LD4LG、Cosmos走latent diffusion路线，去噪过程是连续了，但要单独训一个decoder把latent解回token，相当于多一个模块。

基于此，ELF把所有denoising，全留在continuous embedding space；直到最后一步 t=1，才重新投回token。

具体来说，ELF在训练时，离散token先被编码成连续embedding，再加噪成 z_t，模型要么负责把它还原成干净embedding（MSE），要么直接预测token（CE）。

推理时，模型从高斯噪声 z_0 出发，一路在连续空间里去噪，直到最后一步，才切到decode模式，把embedding重新投回token。

ELF第一次把“连续表示”和“离散输出”这两个过去总被认为必须反复对齐的问题，彻底拆开了：

中间的去噪，完全交给连续空间；最终的语言生成，只留到最后一步离散化。

没有每一步都往词表上硬对齐，也不需要额外训练一个decoder，整个生成流程第一次真正做到了：

连续就是连续，离散就是离散。

而这，恰恰也是ELF后面能用更少采样步数、更少训练token，却跑赢一众扩散语言模型的关键。

ELF不是“先扩散，再解码”。

在具体的实现上，ELF还解决了三个问题：

token怎么变连续？连续里怎么去噪？最后又怎么变回token？

把token变成连续embedding

要把连续扩散用在语言上，第一步，得先把离散的token变成连续表示。

论文中，ELF先把它切成token序列，再映射到连续embedding空间。这里具体怎么映射，其实有多种选择。

默认情况下，ELF用的是T5预训练encoder，生成双向的contextual embedding。论文后面也测试了jointly trained embedding和随机embedding等不同方案。

值得注意的是，这个encoder只在训练阶段使用，推理时并不会额外增加模块。

在连续embedding空间里做Flow Matching

拿到连续表示之后，ELF就在embedding空间里做Flow Matching。

简单说，Flow Matching定义了一条从噪声到真实数据的连续流动轨迹：

t=0时，是高斯噪声；
t=1时，是干净的embedding；
中间所有状态，都是两者的线性插值，也就是论文里的rectified flow。

在传统Flow Matching，网络通常直接预测“速度场” v。

但ELF没有这么做，而是沿用了恺明团队半年前在《Back to Basics: Let Denoising Generative Models Denoise》里提出的思路——

直接预测干净embedding x，也就是x-prediction

训练目标，就是最小化预测embedding和真实embedding之间的均方误差（MSE）。

至于为什么采用x-prediction，论文给了两个原因：

第一，它在高维表示上更稳定——比如768维甚至更高的token embedding；第二，它天然和最后一步“预测干净token”的目标对齐。

论文还特别提到：虽然理论上也可以先预测速度v，再换算成x，但这样一来，后面denoising和decoding之间的权重共享就很难成立。

实验上，他们也发现：一旦共享权重，v-prediction效果明显变差。

从连续embedding，再回到离散token

生成语言，最终输出还是离散token。

所以ELF只在最后一个时间步（t = 1），还得把连续embedding重新投回token空间。

不过，这一步ELF没有像很多latent diffusion方法那样，额外训练一个decoder。相反，它把最后一步直接视作：
一次continuous-to-discrete decoding。

换句话说：decoder和前面的denoiser，其实是同一个网络。

为了让最后一步训练不至于太简单（因为理论上t→1时，输入已经非常接近干净embedding），ELF在最后一步额外加入了一次token-level corruption，构造出一个带扰动的输入。

随后，同一个网络输出clean embedding，再通过一个可学习的unembedding矩阵 W，投影成token logits。

训练目标，则是标准的token-level cross-entropy loss。整个网络共享同一套参数，并额外接收一个二值的mode token：去噪模式/解码模式。

推理时，ELF从高斯噪声开始一路在连续空间里去噪，直到最后一步 t = 1，才切换到decode模式，再通过argmax输出最终token。

值得一提的是，在ELF中，图像生成里最常用的技术之一，CFG（classifier-free guidance）也被搬过来了

ELF用self-conditioning作为条件信号，套上training-time CFG（一次forward模拟两次推理，没有inference开销），把图像那边的方案直接搬了过来。

实验对比

实验部分，ELF基本回答了一个过去两年一直悬着的问题：

连续扩散语言模型，到底能不能打？答案是：不但能打，而且第一次在质量、速度、训练成本三个维度同时赢。

如开头所说，在OpenWebText生成任务中，在不做蒸馏的情况下，ELF只用32步采样，就把生成困惑度压到了24。

而此前主流的离散扩散模型，往往要跑到1024步，才能接近这个水平。

更夸张的是，ELF实现这一结果时，训练token只用了45B。

而同级别对手，普遍是500B+。换句话说：采样步数少了一个数量级，训练数据也少了一个数量级，效果反而更好。

而在很多扩散模型最容易掉队的条件生成任务上，ELF也没掉链子。

无论是WMT14机器翻译，还是XSum文本摘要，ELF都稳定超过现有扩散语言模型，甚至把不少自回归baseline也压了下去。

论文最后给出的总结其实很克制：ELF在生成质量、采样效率和训练成本之间，实现了很强的trade-off。

翻译成人话就是：连续派，不是不能打。只是以前没把连续这件事做到底。

作者介绍

最后，我们再来介绍一下这篇文章的作者。

这篇论文的两篇一作是共同贡献，排名先后顺序由硬币决定。

胡珂雅，她是这篇文章的两位第一作者之一，MIT EECS一年级博士生，也是恺明在MIT带的第一批博士生之一，目前由恺明Jacob Andreas联合指导。

她本科毕业于上交的ACM班，目前的研究兴趣主要是语言和视觉的交叉领域，致力于构建数据效率更高、泛化能力更强的智能体。

值得一提的是，在恺明MIT的主页中，胡珂雅排在Grad students第一位，可以说是组内的大师姐了。

第二位第一作者Linlu Qiu，同样是MIT的博士生，师从Yoon Kim

她本科毕业于香港大学，硕士毕业于Georgia Institute of Technology，此前还在Google做过AI Resident。

有意思的是，这并不是她第一次和恺明合作。就在不久前，她还和恺明团队一起拿下了CVPR 2026论文《ARC Is a Vision Problem!》，把ARC推理问题重新定义成了视觉问题。

另一位作者Hanhong Zhao（赵瀚宏）为MIT本科生，他高中就读于人大附中，曾是国际物理奥林匹克竞赛IPhO金牌得主。

还有一位作者陆伊炀，背景有点“少年班味道”。

他是清华姚班大二本科生，目前在MIT计算机科学与人工智能实验室（CSAIL）实习，导师是何恺明，主要研究方向为计算机视觉和深度生成模型。

高中时期，他是物理竞赛生，曾以江苏选手中第一名、全国第九名的成绩，在2022年获得了第三十九届全国中学生物理竞赛（CPhO）金牌。

此前，他以一作身份与恺明合作过论文《Bidirectional Normalizing Flow: From Data to Noise and Back》。

另一位核心作者黎天鸿，则是恺明组的博后。

他本科就读于清华姚班，博士毕业于MIT，半年前那篇《Back to Basics: Let Denoising Generative Models Denoise》的一作，就是他。

此外，论文的其他作者Yoon KimJacob Andreas，MIT EECS两位语言模型方向的教授，以及何恺明本人。

[1]https://arxiv.org/pdf/2605.10938

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

JustGRPO：扩散语言模型的极简主义回归

机器之心Pro 2026-01-29 12:09:40
0 跟贴 0
960万人围观！Claude Code工程师谈HTML“复兴”：Agent时代，Markdown不够用了

智东西 2026-05-12 12:41:12
116 跟贴 116

TTS也要真人感！首个字级内容、毫秒级停顿控制的语音合成系统

新智元 2026-05-12 19:36:35
0 跟贴 0

龙虾退烧后，荣耀给它造了一个宇宙

量子位 2026-05-12 15:50:23
6 跟贴 6
通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐

机器之心Pro 2025-11-24 16:37:06
0 跟贴 0

唐湘龙：鹰击的弹道轨迹很诡异，只要一发射，很难躲避或拦截！

锦升体娱 2026-05-10 02:05:23
63 跟贴 63

北大校友Lilian Weng出镜，爆出120亿估值首个交互模型！

新智元 2026-05-12 12:37:23
4 跟贴 4
没有电脑的年代，老式电梯的“物理外挂”有多猛？

样子很迷人 2026-05-09 14:27:52
48 跟贴 48

DECS从源头消除冗余思考，实现推理token减半且性能不降反升

机器之心Pro 2026-05-12 12:58:05
0 跟贴 0
孙子兵道：一将难求与将才矩阵

陈相灵TALK 2026-05-08 19:44:33
1 跟贴 1
从参数到外观：汽车行业的最后一场竞争

基地边缘BaseEdge 2026-05-08 17:48:10
1 跟贴 1
一个框架，重塑具身研发流程：Dexbotic走向具身PyTorch

机器之心Pro 2026-05-12 09:27:08
0 跟贴 0
小伙做实验时不走寻常路，直接花式给晶体加水

南阳日报 2026-05-11 15:45:32
1 跟贴 1
FDA 将封杀中国临床试验数据

生物学霸 2026-05-12 17:14:22
0 跟贴 0
2025诺贝尔奖揭秘薛定谔的猫不再纠结量子力学边界真的存在

逗趣小Joker 2026-05-09 03:19:04
0 跟贴 0
姚来英已任中国烟草总公司总经理

界面新闻 2026-05-12 11:12:28
9845 跟贴 9845
乌军远程打击矩阵成型！乌克兰或将点名刻赤大桥

战武科普 2026-05-12 20:45:54
0 跟贴 0
网友观看女孩表演苗家绝技，纸上飞仙，网友：物理学合力和分力！

搞笑的八爪鱼 2026-05-11 16:09:45
1 跟贴 1
PDF表格幻觉：99%幽灵表格被一个数学公式杀死，工程师揭秘上下文感知提取

报错免疫体 2026-05-13 07:35:15
0 跟贴 0
脚趾抠地！研一新生入组第一天，错把 29 岁师兄认成保安：读博是最好的医丑

生物学霸 2026-05-12 17:13:32
2 跟贴 2
厉害了本科生！探索科技前沿，上海交大溥渊未来学者这样“答题”！

上观新闻 2026-05-12 10:22:14
0 跟贴 0
女儿在保温箱住了整整六天，现在各项指标全部正常

徐Toso 2026-05-09 04:30:45
0 跟贴 0
不说做饭，我以为在做实验呢

快乐图鉴 2026-05-11 11:17:34
1 跟贴 1
实验曝光：居然有无数孩子毁在了这句"你真聪明"

果姨妈育儿 2026-05-12 05:34:20
0 跟贴 0
上海大学教师苏某某论文数据存疑，校方回应：已成立调查组

生物学霸 2026-05-12 22:05:02
3 跟贴 3
2男子钓百斤大鱼想"物理麻醉" 不料鱼带走抄网"反杀"

薪点看看 2026-05-12 17:27:44
167 跟贴 167
美到窒息的土星，藏着 3 个连物理定律都解释不了的谜团

六六冷知识 2026-05-11 23:41:48
1 跟贴 1
老头做了个实验，竟能让他吸干别人

美美侃娱 2026-05-11 09:58:25
1 跟贴 1
烧烤店将排烟管对隔壁直吹邻居提议自费帮其改造遭拒店主：他说不想让我占地

荔枝新闻 2026-05-13 04:35:09
53 跟贴 53
顶住 CIA 压力公开！顶级物理学家拆解 UFO 档案：是高维 AI？

Nee看 2026-05-09 13:32:38
23 跟贴 23
看书时间到~ | 公众科学日 · 科普图书展

中国物理学会期刊网 2026-05-13 10:20:07
0 跟贴 0
200亿美元押注量子计算“iPhone时刻”：复刻AI，还是重演SPAC？

钛媒体APP 2026-05-13 09:23:10
0 跟贴 0
人类群星闪耀时：经典物理学的400年奠基史从哥白尼的惊世一瞥

泥塑动物 2026-05-11 16:30:40
2 跟贴 2
物理余老师用假金条测试黄金密度，对中国黄金造成不良影响道歉！

课桌动画 2026-05-12 03:34:08
0 跟贴 0
九寨沟将实行“双向检票”？工作人员：出园检票并非新政策，一直严禁沟内住宿

上游新闻 2026-05-11 15:40:24
2983 跟贴 2983
宇宙不是积木，但确实有"块"：物理学家发现1个反常识真相

心事寄山海 2026-05-13 06:32:34
0 跟贴 0
物理老师不想占用体育课，学生们想尽办法，不，物理老师你想占

萌趣闪拍 2026-05-12 10:54:48
1 跟贴 1
当硅谷还在谈论物理AI，西门子已重写工业规则

机器之心Pro 2026-03-24 17:26:45
0 跟贴 0
男子户外做物理实验，直观展示，相对运动！

爆笑二皮 2026-05-12 16:50:59
1 跟贴 1
L03、L05两款SUV就位！小鹏MONA新矩阵初成，升级为品牌在即？

明镜pro 2026-05-12 20:20:13
0 跟贴 0

饱满状态干大事，当花瓶也要亲力亲为！

饱满状态干大事，当花瓶也要亲力亲为！

飛娱日记

2026-05-07 08:35:29

人伦之乱，正在悄悄毁掉无数家庭！看完一身冷汗

人伦之乱，正在悄悄毁掉无数家庭！看完一身冷汗

三农老历

2026-05-08 19:20:12

常州多所学校停止招生！

常州大喇叭

2026-05-12 17:02:52

特斯拉FSD入华倒计时：中国智驾的鲶鱼，已经游进池塘了

特斯拉FSD入华倒计时：中国智驾的鲶鱼，已经游进池塘了

新浪财经

2026-05-10 23:49:22

捅了马蜂窝！黄仁勋喊中国不应拿芯片：结果中国四个月一片没买！

捅了马蜂窝！黄仁勋喊中国不应拿芯片：结果中国四个月一片没买！

烈史

2026-05-11 18:28:17

晚节不保？72岁濮存昕硬捧外孙女拍戏，全网吐槽：尖嘴猴腮求放过

晚节不保？72岁濮存昕硬捧外孙女拍戏，全网吐槽：尖嘴猴腮求放过

观察鉴娱

2026-05-11 13:57:43

从狂赚到大亏15亿卢布！吉利长安在俄罗斯一年从天堂摔地狱

从狂赚到大亏15亿卢布！吉利长安在俄罗斯一年从天堂摔地狱

老马拉车莫少装

2026-05-11 14:18:27

莫雷加德：恭喜中国队夺冠！我真服了王楚钦简直太强实力太夸张

莫雷加德：恭喜中国队夺冠！我真服了王楚钦简直太强实力太夸张

念洲

2026-05-12 15:16:01

婚姻糜烂的康有为：55岁娶17岁日本女佣，却生下了自己的孙女

婚姻糜烂的康有为：55岁娶17岁日本女佣，却生下了自己的孙女

墨策史

2026-05-11 02:40:09

全球目光锁定北京，莫迪敲锣打鼓出发了：全球宣讲，挽回印度声誉

全球目光锁定北京，莫迪敲锣打鼓出发了：全球宣讲，挽回印度声誉

蓝猫说剧

2026-05-13 09:28:36

拿过11冠被淘汰也不遗憾！粤媒喷杜锋：这么说你问过老板队员吗

拿过11冠被淘汰也不遗憾！粤媒喷杜锋：这么说你问过老板队员吗

大嘴爵爷侃球

2026-05-13 09:35:31

“可偏转弹丸！中国研发出鳄鱼结构装甲”

“可偏转弹丸！中国研发出鳄鱼结构装甲”

观察者网

2026-05-12 14:04:05

访华在即，特朗普当众敲打卢比奥？中国法律亮剑，谁也别想通融

访华在即，特朗普当众敲打卢比奥？中国法律亮剑，谁也别想通融

标体

2026-05-13 08:48:14

善恶有报！许家印刚认罪1天，子女近况曝光，大儿子的安排全白费

善恶有报！许家印刚认罪1天，子女近况曝光，大儿子的安排全白费

历史伟人录

2026-05-10 22:06:40

第一次感受到维C的“杀伤力”，2块钱一瓶，就能搞定8个麻烦事

第一次感受到维C的“杀伤力”，2块钱一瓶，就能搞定8个麻烦事

室内设计师有料儿

2026-05-09 10:26:26

蒋介石孙子召开发布会，提出“两蒋”移灵大陆，2句话让世人唏嘘

蒋介石孙子召开发布会，提出“两蒋”移灵大陆，2句话让世人唏嘘

老谢谈史

2026-03-18 18:33:35

荔枝大量上市却很冷清，为何大家不爱吃了？网友：5个扎心原因

荔枝大量上市却很冷清，为何大家不爱吃了？网友：5个扎心原因

餐饮新纪元

2026-05-12 07:09:59

李楠当助教忙坏！频繁与杰曼赵睿沟通，大喊指挥，还能吸取建议！

李楠当助教忙坏！频繁与杰曼赵睿沟通，大喊指挥，还能吸取建议！

篮球资讯达人

2026-05-13 02:13:12

仅4个月，中国出口芯片7030亿元，这是要卷翻美国企业？

仅4个月，中国出口芯片7030亿元，这是要卷翻美国企业？

互联网.乱侃秀

2026-05-13 09:57:19

中软国际：离职补偿 1.77 亿

中软国际：离职补偿 1.77 亿

云头条

2026-05-12 23:18:36

追踪人工智能动态

12611文章数 176461关注度

往期回顾全部

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

中国驻美大使：“成为中国人”刷屏大势不可阻挡

头条要闻

中国驻美大使：“成为中国人”刷屏大势不可阻挡

体育要闻

14年半，74万，何冰娇没选那条更安稳的路

娱乐要闻

巩俐用中文宣布戛纳开幕，彰显国际地位

财经要闻

深圳夫妻囤芯片，身家飙涨320亿

汽车要闻

吉利银河“TT”申报图曝光电动尾翼+激光雷达

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

本地

旅游

手机

家居

干细胞能让人“返老还童”吗

本地新闻

用苏绣的方式，打开江西婺源

旅游要闻

满城尽是“绝绝紫” 成都蓝花楹地图来了

手机要闻

小米史上最强续航，卢伟冰称小米17 Max是17的“全面升舱版”

家居要闻

极简主义下的居住场域与空间

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版