网易首页 > 网易号 > 正文 申请入驻

跳过“逐字生成”!蚂蚁赵俊博:扩散模型让我们能直接修改Token

0
分享至

当主流大语言模型还在采用自回归架构时,有人已经盯上了扩散架构。

在本次量子位MEET2026智能未来大会上,浙江大学百人计划研究员、博士生导师,蚂蚁集团资深技术专家赵俊博表示:

  • 扩散架构在推理过程中可以直接修改和控制token,而不需要像自回归模型那样重新生成整段内容。

这意味着,相比自回归模型,扩散模型理论上有望实现更快的生成速度以及更低的计算成本。

基于此,他和团队将重点押注于扩散架构,并致力于探索扩散语言模型独有的Scaling Law。

而作为这一探索的关键里程碑,他们近期发布并开源了LLaDA 2.0,率先将扩散语言模型做到千亿体量

赵俊博坦言,该领域在训练与推理层面仍处早期,但发展势头迅猛,已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局。

编者注:就在MEET2026智能未来大会结束后,赵俊博和团队也发布了全新的技术报告,揭示了千亿体量扩散语言模型背后的关键技术选择。
报告标题:LLaDA2.0: Scaling Up Diffusion Language Models to 100B
报告链接(github):https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf



为了完整体现赵俊博的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。

MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下到场参会观众近1500人,线上直播观众350万+,获得了主流媒体的广泛关注与报道。

核心观点梳理

  • 所有生成模型本质上都是在拟合数据分布。自回归模型提供了一种拟合方式,它将整体分布拆解为一系列遵循单向因果顺序的条件概率来逐步建模。但这种方式并不是唯一的路径
  • 开源模型LLaDA采用扩散语言模型架构,暂不考虑MoE的情况下,在相同的计算量和性能目标下,LLaDA所需的参数规模可以比自回归模型更小
  • 扩散架构在推理过程中可以直接修改和控制token,而不需要像自回归模型那样重新生成整段内容。
  • 在计算受限情况下,LLaDA采用“完形填空”式预测,相比自回归模型更为“data-hungry”,对数据需求更大、吸收数据更快
  • LLaDA与自回归模型的Scaling Law存在差异,已验证LLaDA可以扩展到千亿规模,但继续往上会面临新的挑战。

以下为赵俊博演讲全文:

押注扩散语言模型的Scaling Law

大家好,今天我稍微讲点不一样的,来一场技术上的脱口秀。

刚才几位嘉宾已反复提及,目前主流的大语言模型几乎都基于自回归架构构建。但我接下来介绍的,我们最近开源的全新系列模型——架构完全不同

要想了解不同之处何在,先让我们来厘清几个基本概念。

相信大家都很熟悉Midjourney、Sora、Emu Video等图像/视频赛道的热门模型,实际上,它们里面都有一个非常明确的机制叫扩散

何谓扩散?简单来说就是加噪后再去噪,从噪声中恢复图像。

所有的Auto-Regressive Model(AR,自回归模型)基本都遵循同一机制——给定前N个词,要求模型预测并生成第N+1个词,然后基于前N+1个词,再去预测第N+2个词,依此类推。

而扩散语言模型另辟蹊径,可能有些观众也知道这个东西叫Masked Diffusion Language Models,我们看一下它的解码过程,简单来说它的机制不是“做接龙”,而是“做完形填空”

如图所示,给定一句话之后我们会Mask(遮盖)掉一部分词,再让它恢复,这就非常像我们小时候做的完形填空。



而我们现在要做的,就是Diffusion Language Model(dLLM,扩散语言模型)的Scaling Law。

为什么做这件事?其实这是我们的一个赌注。

本质上来说,所有的大模型只要是生成模型,都是对P(X),也就是对本身数据分布的拟合。

自回归模型提供了一种拟合方式,它将整体分布拆解为一系列遵循单向因果顺序的条件概率来逐步建模。但这种方式并不是唯一的路径。

下图由新加坡国立大学SEA AI研究员Jinjie Ni提供,里面点明了几个非常重要的观点。

第一,在计算受限的情况下,基于“完形填空”这一方式进行预测的扩散语言模型,比一般的自回归模型需要的数据量更大,即所谓的“data-hungry”,在数据上能吃得更快。



第二,同样是dense结构(先不管MoE),在参数和计算量相同的情况下,其实dLLM可以做得比AR更小。

所谓的“Super Data Learners”,如果了解图像或视频的扩散模型就会知道,它们有个特点——你可以一直训练

比如我们现在所有的自回归模型,基本上训练到多个epoch,效果就不再变动,数据也就这样了。

而在同样数据集、同样架构下,红色那条代表Diffusion的曲线可以一直训——跟图像领域观测到的现象一致,确实可以一直做训练。



第三是Diffusion独有的优势。都知道CoT(思维链)和RL(强化学习),或者说见识过DeepSeek上的深度思考过程。这个东西我之前做了个比喻,AR像一个不能带草稿纸的考生:

进了考场之后不允许写提纲,跟下棋一样落子无悔,在解所有题的时候落笔无悔。写下一个token就钉死,再写下一个,没有给你任何机会回头修改。中间写错了有一个CoT的机制,就好像“突然有一个token说这个地方好像中间有一步算错了,我再重新开始”。

实际上这就解释了为什么会有test-time scaling——AR在推理侧的token efficiency其实并不高,有一些简单的问题也要推理很久,生成很多token。

如图所示,我们正在进行的研究叫Editable and Controllable Generation(等待跑通中),是指在Diffusion框架下,随时“做完形填空”、随时改;不像DeepSeek-R1或OpenAI-o1必须整段token推倒重来,我们可以直接在推理过程里改token。



这个东西有大量的工程细节,时间关系我只能简单放一些。

发布并开源千亿规模dLLM

首先是注意力掩码(Attention Mask)的适配问题

我们的模型中既包含细粒度的Block,也包含由Block组成的更大区块——区块之间采用自回归的注意力机制(确保序列的总体连贯性),区块内部并行解码(以提升计算效率)。

因此,模型中同时存在两种注意力模式。有些地方用全局Attention(以捕捉长程依赖),有些地方用Causal Attention(以维持自回归约束)。

这里头还包括对随机长度序列的处理、集成港大孔令鹏老师提出的几何加权方法,以及实现文本与文档的长序列切分注意力等关键技术。

我们开源了一套训练框架和推理框架,让社区能把我们在Hugging Face上发布的模型直接跑起来。其中涉及5D并行集成、分区块Diffusion下的Flex-Attention与Attention Mask适配,细节不再展开。

这是我们开源的第一个面向扩散语言模型的训练框架,已支持SFT(监督微调)与DPO(直接偏好优化)。



这里我想把整个脉络稍微介绍一下:

中国人民大学文继荣和李崇轩老师团队,率先开源了扩散语言模型LLaDA的第一个版本LLaDA 1.0。

LLaDA 1.0的研究过程非常痛苦,当时训练和推理框架都很原始,踩坑无数,不过其8B版本在Hugging Face上零推广就拿到二十几万下载。

这是第一个大规模训练到80亿参数的扩散语言模型,效果可对标LLaMA-3-8B。

后来蚂蚁技术研究院联合人大、浙大、西湖大学把整条线接过来,下重注要把这个领域的一些“非共识”变成“共识”。

第一件事就是解决架构问题。LLaDA是一个dense模型,而dense的痛点大家都提过,比如第一个就是怎么在Diffusion的框架里集成MoE。

今年9月,我们发布了LLaDA-MoE,总参数7B(激活参数1B),是全球第一个原生训练出来的MoE架构扩散语言模型。

最近一段时间,相关研究几乎已经在全球铺开——谷歌有Gemini Diffusion、有家美国创业公司在做Mercury系列,包括字节也在做。

其最大特点就是一个字:

因为它就是“做完形填空”。比如做一个解码,我先把最后一个token解出来,然后再去填中间,这些东西确实是实际解码过程中能看到的。

上上周,我们发布了LLaDA 2.0,率先把扩散语言模型做到千亿体量。踩坑史太长,技术报告已上线,这里就不再展开。



这里有几个视频。

第一个视频表明,在全局注意力机制的支持下,扩散模型在效果上相比自回归模型具备一定优势。



转到Coding,现在比较神奇的一点是——扩散语言模型在“调用”和“写代码”这两个任务上比自回归模型有明显优势

得益于并行解码,一次能同时吐出几个token,现场看起来就像你在Cursor里按Tab自动补全。这些行为全是模型自己学出来的,我们也没完全搞懂为啥。



以及再看文学创作,这个东西比较有意思。看一下这个解码过程,先把开头和结尾的框架定下来,中间部分先写个大概,然后再根据上下文反复修改、润色中间的内容。



这种“非共识”的解码轨迹,在Gemini、OpenAI等任何原生App里都看不到。

接下来的一两个月,我们会联合ZenMux(一站式模型接入平台)放出部分API,体量虽还比不过主流大模型,但社区已在慢慢长大。

dLLM的训练推理仍处于早期发展阶段

最后用一点时间聊下推理。

10月份左右,我们发布了一个带有试验性质的推理引擎dInfer

通过新的模型架构与范式,若能将关键场景的TPS推上千量级,实现五倍乃至更高的速度提升,其体验将是革命性的。

回头看,Data/Parameter Scaling Law已不新鲜,去年9月OpenAI又带出testing-time Scaling Law。

接下来会不会出现Diffusion Scaling Law?

今天没人能给出答案。唯一确定的是,dLLM与AR的Scaling Law有很大区别,继续扩展下去也会面临新的挑战。

但不管怎样,我们会在这条路上继续走下去。在我看来,AR发展了三年(从ChatGPT出来之后发展了三年),dLLM的训推生态才刚起步,希望社区一起下场共建,谢谢。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
高市早苗笑得合不拢嘴,日本高官放话:中国将被迫放弃对日反制

高市早苗笑得合不拢嘴,日本高官放话:中国将被迫放弃对日反制

现代小青青慕慕
2026-02-01 10:01:34
罗永浩只是西贝的梗,郭乘希才是西贝的坎

罗永浩只是西贝的梗,郭乘希才是西贝的坎

问道求真
2026-02-01 05:42:54
回国探亲就回不来了,Meta华人科学家O-1签证再入境被拒

回国探亲就回不来了,Meta华人科学家O-1签证再入境被拒

华人生活网
2026-01-31 04:54:00
被双开的胡继勇:在四川工作十四年,当年的上级曾任中石油副总裁

被双开的胡继勇:在四川工作十四年,当年的上级曾任中石油副总裁

叹为观止易
2026-01-21 10:21:06
恭喜湖人!冠军中锋来了!老詹东契奇或迎雷霆首发内线哈滕

恭喜湖人!冠军中锋来了!老詹东契奇或迎雷霆首发内线哈滕

湖人侃球师
2026-02-01 06:50:07
现场画面:柬埔寨对一电诈园区展开最大规模行动,抓捕2044人;缅甸出动空军运输机押729人回国

现场画面:柬埔寨对一电诈园区展开最大规模行动,抓捕2044人;缅甸出动空军运输机押729人回国

扬子晚报
2026-02-01 15:59:57
刘强东光送年货没发钱,60岁村民被问是否失望,老人家回答太戳心

刘强东光送年货没发钱,60岁村民被问是否失望,老人家回答太戳心

奇思妙想草叶君
2026-02-01 00:25:49
两位“00后”在上海收费教会700人骑自行车

两位“00后”在上海收费教会700人骑自行车

上观新闻
2026-01-31 16:59:08
鲫鱼立大功!医生研究发现:鲫鱼对这6种疾病有好处,可以常吃

鲫鱼立大功!医生研究发现:鲫鱼对这6种疾病有好处,可以常吃

岐黄传人孙大夫
2026-01-31 15:40:03
利用野外环境隐蔽作案,频繁变换地点,并专车接送赌客,宁波警方:当场抓获39人,12人被刑拘!

利用野外环境隐蔽作案,频繁变换地点,并专车接送赌客,宁波警方:当场抓获39人,12人被刑拘!

极目新闻
2026-01-31 22:45:21
最年轻全满贯!阿尔卡拉斯3-1逆转德约 澳网首冠+大满贯第7冠

最年轻全满贯!阿尔卡拉斯3-1逆转德约 澳网首冠+大满贯第7冠

醉卧浮生
2026-02-01 19:48:18
海上金矿南极磷虾:储量10亿吨,全球疯狂捕捞,中国或成最大黑马

海上金矿南极磷虾:储量10亿吨,全球疯狂捕捞,中国或成最大黑马

肖兹探秘说
2026-01-31 12:49:39
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
四川绵阳一佳人太漂亮,身高177cm体重54kg五官精致到无懈可击!

四川绵阳一佳人太漂亮,身高177cm体重54kg五官精致到无懈可击!

TVB的四小花
2026-01-27 11:03:50
伊朗最高领袖顾问:已掌握敌方作战计划 将适时发动打击

伊朗最高领袖顾问:已掌握敌方作战计划 将适时发动打击

环球网资讯
2026-01-31 05:44:17
杜锋接受采访!透露1个重要消息:徐杰被选上了

杜锋接受采访!透露1个重要消息:徐杰被选上了

体育哲人
2026-02-01 18:29:18
钓鱼岛有变?中方通知俄罗斯,话音刚落,多名中国人在日本被劫

钓鱼岛有变?中方通知俄罗斯,话音刚落,多名中国人在日本被劫

知鉴明史
2026-02-01 06:50:03
32+5+5触发抽检?尿里全是药!禁赛25场!阿治,你这不像啊

32+5+5触发抽检?尿里全是药!禁赛25场!阿治,你这不像啊

现代小青青慕慕
2026-02-01 17:39:21
后生可畏啊!一家长吐槽女儿为省下1800元,坐了17个小时大巴回家

后生可畏啊!一家长吐槽女儿为省下1800元,坐了17个小时大巴回家

火山诗话
2026-01-30 15:13:24
2026-02-02 06:32:49
量子位 incentive-icons
量子位
追踪人工智能动态
12092文章数 176369关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

特朗普又有疯狂想法:白宫格斗赛 首都飙赛车

头条要闻

特朗普又有疯狂想法:白宫格斗赛 首都飙赛车

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

教育
游戏
艺术
亲子
军事航空

教育要闻

语不惊人死不休,立刚反对学英语有些着魔了,又出新谬论

末期癌症玩家圆梦《毁灭战士》!id公开致敬

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

亲子要闻

兰姐带玥儿看北京新学校,玥儿一待俩小时,筱梅的话终于有人信了

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版