网易首页 > 网易号 > 正文 申请入驻

跳过“逐字生成”!蚂蚁赵俊博:扩散模型让我们能直接修改Token

0
分享至

来源:市场资讯

(来源:量子位)

当主流大语言模型还在采用自回归架构时,有人已经盯上了扩散架构。

在本次量子位MEET2026智能未来大会上,浙江大学百人计划研究员、博士生导师,蚂蚁集团资深技术专家赵俊博表示:

这意味着,相比自回归模型,扩散模型理论上有望实现更快的生成速度以及更低的计算成本。

基于此,他和团队将重点押注于扩散架构,并致力于探索扩散语言模型独有的Scaling Law。

而作为这一探索的关键里程碑,他们近期发布并开源了LLaDA 2.0,率先将扩散语言模型做到千亿体量。

赵俊博坦言,该领域在训练与推理层面仍处早期,但发展势头迅猛,已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局。

编者注:就在MEET2026智能未来大会结束后,赵俊博和团队也发布了全新的技术报告,揭示了千亿体量扩散语言模型背后的关键技术选择。

报告标题:LLaDA2.0: Scaling Up Diffusion Language Models to 100B

报告链接(github):https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf


为了完整体现赵俊博的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。

MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下到场参会观众近1500人,线上直播观众350万+,获得了主流媒体的广泛关注与报道。

核心观点梳理

以下为赵俊博演讲全文:

押注扩散语言模型的Scaling Law

大家好,今天我稍微讲点不一样的,来一场技术上的脱口秀。

刚才几位嘉宾已反复提及,目前主流的大语言模型几乎都基于自回归架构构建。但我接下来介绍的,我们最近开源的全新系列模型——架构完全不同。

要想了解不同之处何在,先让我们来厘清几个基本概念。

相信大家都很熟悉Midjourney、Sora、Emu Video等图像/视频赛道的热门模型,实际上,它们里面都有一个非常明确的机制叫扩散。

何谓扩散?简单来说就是加噪后再去噪,从噪声中恢复图像。

所有的Auto-Regressive Model(AR,自回归模型)基本都遵循同一机制——给定前N个词,要求模型预测并生成第N+1个词,然后基于前N+1个词,再去预测第N+2个词,依此类推。

而扩散语言模型另辟蹊径,可能有些观众也知道这个东西叫Masked Diffusion Language Models,我们看一下它的解码过程,简单来说它的机制不是“做接龙”,而是“做完形填空”。

如图所示,给定一句话之后我们会Mask(遮盖)掉一部分词,再让它恢复,这就非常像我们小时候做的完形填空。


而我们现在要做的,就是Diffusion Language Model(dLLM,扩散语言模型)的Scaling Law。

为什么做这件事?其实这是我们的一个赌注。

本质上来说,所有的大模型只要是生成模型,都是对P(X),也就是对本身数据分布的拟合。

自回归模型提供了一种拟合方式,它将整体分布拆解为一系列遵循单向因果顺序的条件概率来逐步建模。但这种方式并不是唯一的路径。

下图由新加坡国立大学SEA AI研究员Jinjie Ni提供,里面点明了几个非常重要的观点。

第一,在计算受限的情况下,基于“完形填空”这一方式进行预测的扩散语言模型,比一般的自回归模型需要的数据量更大,即所谓的“data-hungry”,在数据上能吃得更快。


第二,同样是dense结构(先不管MoE),在参数和计算量相同的情况下,其实dLLM可以做得比AR更小。

所谓的“Super Data Learners”,如果了解图像或视频的扩散模型就会知道,它们有个特点——你可以一直训练。

比如我们现在所有的自回归模型,基本上训练到多个epoch,效果就不再变动,数据也就这样了。

而在同样数据集、同样架构下,红色那条代表Diffusion的曲线可以一直训——跟图像领域观测到的现象一致,确实可以一直做训练。


第三是Diffusion独有的优势。都知道CoT(思维链)和RL(强化学习),或者说见识过DeepSeek上的深度思考过程。这个东西我之前做了个比喻,AR像一个不能带草稿纸的考生:

进了考场之后不允许写提纲,跟下棋一样落子无悔,在解所有题的时候落笔无悔。写下一个token就钉死,再写下一个,没有给你任何机会回头修改。中间写错了有一个CoT的机制,就好像“突然有一个token说这个地方好像中间有一步算错了,我再重新开始”。

实际上这就解释了为什么会有test-time scaling——AR在推理侧的token efficiency其实并不高,有一些简单的问题也要推理很久,生成很多token。

如图所示,我们正在进行的研究叫Editable and Controllable Generation(等待跑通中),是指在Diffusion框架下,随时“做完形填空”、随时改;不像DeepSeek-R1或OpenAI-o1必须整段token推倒重来,我们可以直接在推理过程里改token。


这个东西有大量的工程细节,时间关系我只能简单放一些。

发布并开源千亿规模dLLM

首先是注意力掩码(Attention Mask)的适配问题。

我们的模型中既包含细粒度的Block,也包含由Block组成的更大区块——区块之间采用自回归的注意力机制(确保序列的总体连贯性),区块内部并行解码(以提升计算效率)。

因此,模型中同时存在两种注意力模式。有些地方用全局Attention(以捕捉长程依赖),有些地方用Causal Attention(以维持自回归约束)。

这里头还包括对随机长度序列的处理、集成港大孔令鹏老师提出的几何加权方法,以及实现文本与文档的长序列切分注意力等关键技术。

我们开源了一套训练框架和推理框架,让社区能把我们在Hugging Face上发布的模型直接跑起来。其中涉及5D并行集成、分区块Diffusion下的Flex-Attention与Attention Mask适配,细节不再展开。

这是我们开源的第一个面向扩散语言模型的训练框架,已支持SFT(监督微调)与DPO(直接偏好优化)。


这里我想把整个脉络稍微介绍一下:

中国人民大学文继荣和李崇轩老师团队,率先开源了扩散语言模型LLaDA的第一个版本LLaDA 1.0。

LLaDA 1.0的研究过程非常痛苦,当时训练和推理框架都很原始,踩坑无数,不过其8B版本在Hugging Face上零推广就拿到二十几万下载。

这是第一个大规模训练到80亿参数的扩散语言模型,效果可对标LLaMA-3-8B。

后来蚂蚁技术研究院联合人大、浙大、西湖大学把整条线接过来,下重注要把这个领域的一些“非共识”变成“共识”。

第一件事就是解决架构问题。LLaDA是一个dense模型,而dense的痛点大家都提过,比如第一个就是怎么在Diffusion的框架里集成MoE。

今年9月,我们发布了LLaDA-MoE,总参数7B(激活参数1B),是全球第一个原生训练出来的MoE架构扩散语言模型。

最近一段时间,相关研究几乎已经在全球铺开——谷歌有Gemini Diffusion、有家美国创业公司在做Mercury系列,包括字节也在做。

其最大特点就是一个字:快。

因为它就是“做完形填空”。比如做一个解码,我先把最后一个token解出来,然后再去填中间,这些东西确实是实际解码过程中能看到的。

上上周,我们发布了LLaDA 2.0,率先把扩散语言模型做到千亿体量。踩坑史太长,技术报告已上线,这里就不再展开。


这里有几个视频。

第一个视频表明,在全局注意力机制的支持下,扩散模型在效果上相比自回归模型具备一定优势。


转到Coding,现在比较神奇的一点是——扩散语言模型在“调用”和“写代码”这两个任务上比自回归模型有明显优势。

得益于并行解码,一次能同时吐出几个token,现场看起来就像你在Cursor里按Tab自动补全。这些行为全是模型自己学出来的,我们也没完全搞懂为啥。


以及再看文学创作,这个东西比较有意思。看一下这个解码过程,先把开头和结尾的框架定下来,中间部分先写个大概,然后再根据上下文反复修改、润色中间的内容。


这种“非共识”的解码轨迹,在Gemini、OpenAI等任何原生App里都看不到。

接下来的一两个月,我们会联合ZenMux(一站式模型接入平台)放出部分API,体量虽还比不过主流大模型,但社区已在慢慢长大。

dLLM的训练推理仍处于早期发展阶段

最后用一点时间聊下推理。

10月份左右,我们发布了一个带有试验性质的推理引擎dInfer。

通过新的模型架构与范式,若能将关键场景的TPS推上千量级,实现五倍乃至更高的速度提升,其体验将是革命性的。

回头看,Data/Parameter Scaling Law已不新鲜,去年9月OpenAI又带出testing-time Scaling Law。

接下来会不会出现Diffusion Scaling Law?

今天没人能给出答案。唯一确定的是,dLLM与AR的Scaling Law有很大区别,继续扩展下去也会面临新的挑战。

但不管怎样,我们会在这条路上继续走下去。在我看来,AR发展了三年(从ChatGPT出来之后发展了三年),dLLM的训推生态才刚起步,希望社区一起下场共建,谢谢。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全球销量六连冠!嘲讽丰田不行了的人,非蠢即坏

全球销量六连冠!嘲讽丰田不行了的人,非蠢即坏

象视汽车
2026-01-24 07:00:03
六旬老人跟团北京5日游,第3天猝死!连续两天凌晨集合,导游临时在车上通知增加游览项目,法院判了

六旬老人跟团北京5日游,第3天猝死!连续两天凌晨集合,导游临时在车上通知增加游览项目,法院判了

扬子晚报
2026-01-24 22:29:57
知名制片人姜莹莹被腾讯解聘,移送公安局,给出的原因太恶劣!

知名制片人姜莹莹被腾讯解聘,移送公安局,给出的原因太恶劣!

一盅情怀
2026-01-25 15:54:20
福州一安置房项目将原址重建,曾因地基下沉、楼体倾斜等成危房,业主集体退房

福州一安置房项目将原址重建,曾因地基下沉、楼体倾斜等成危房,业主集体退房

每日经济新闻
2026-01-24 22:45:05
特朗普:美国多州进入紧急状态

特朗普:美国多州进入紧急状态

第一财经资讯
2026-01-25 08:45:31
梅洛尼:强烈愤慨,决定召回大使

梅洛尼:强烈愤慨,决定召回大使

上观新闻
2026-01-25 20:27:05
加拿大总理成达沃斯“全场最靓的仔”!又遭特朗普关税威胁,他呼吁国人:买国货

加拿大总理成达沃斯“全场最靓的仔”!又遭特朗普关税威胁,他呼吁国人:买国货

红星新闻
2026-01-25 16:38:16
美国放话:谁敢拦截军售,就是宣战!中国用实力划下红线!

美国放话:谁敢拦截军售,就是宣战!中国用实力划下红线!

华山穹剑
2026-01-23 20:19:29
央视曝光“毒蔬菜”!0.08克便可致器官衰竭,已流窜到全国多地

央视曝光“毒蔬菜”!0.08克便可致器官衰竭,已流窜到全国多地

削桐作琴
2026-01-24 19:17:27
谷爱凌回应再次代表中国参加冬奥,上届其余30名归化选手全部无缘

谷爱凌回应再次代表中国参加冬奥,上届其余30名归化选手全部无缘

米修体育
2026-01-25 19:09:48
男子打扫卫生发现200张千元存单,妻子每天借上厕所到银行存1000

男子打扫卫生发现200张千元存单,妻子每天借上厕所到银行存1000

半岛晨报
2026-01-25 19:45:55
特殊的制度:不能连续任元首,盘点不得连选连任元首的15个国家

特殊的制度:不能连续任元首,盘点不得连选连任元首的15个国家

梦沉古道
2026-01-24 21:50:03
3-0!18岁天才凌空侧钩技惊四座 11.2亿卫冕冠军14战13胜重返榜首

3-0!18岁天才凌空侧钩技惊四座 11.2亿卫冕冠军14战13胜重返榜首

狍子歪解体坛
2026-01-26 01:12:15
父死女偿!一银行放贷30万,独生女破釜沉舟,彻底给银行整不会了

父死女偿!一银行放贷30万,独生女破釜沉舟,彻底给银行整不会了

火山诗话
2026-01-25 12:21:40
詹俊:阿森纳明显全队状态不在线;卡里克的执教如有神助

詹俊:阿森纳明显全队状态不在线;卡里克的执教如有神助

懂球帝
2026-01-26 02:58:24
英超焦点战:12.7亿豪门2-3惨遭绝杀 主场金身告破 12轮不败终结

英超焦点战:12.7亿豪门2-3惨遭绝杀 主场金身告破 12轮不败终结

狍子歪解体坛
2026-01-26 02:25:58
温格:主场丢3球就很难赢了,这支曼联的表现很有说服力

温格:主场丢3球就很难赢了,这支曼联的表现很有说服力

懂球帝
2026-01-26 02:48:11
同方股份原总裁、董事长陆致成去世,曾推动组建清华同方股份有限公司并上市

同方股份原总裁、董事长陆致成去世,曾推动组建清华同方股份有限公司并上市

红星资本局
2026-01-25 15:21:52
3-2绝杀!0-3惨败!曼联掀翻阿森纳,那不勒斯罕见崩盘,巴萨登顶

3-2绝杀!0-3惨败!曼联掀翻阿森纳,那不勒斯罕见崩盘,巴萨登顶

足球狗说
2026-01-26 03:13:09
解放军报社论:坚决打赢军队反腐败斗争攻坚战持久战总体战

解放军报社论:坚决打赢军队反腐败斗争攻坚战持久战总体战

新华社
2026-01-24 23:03:04
2026-01-26 03:27:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057561文章数 5296关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

时尚
艺术
本地
手机
军事航空

看了鲁豫对章小蕙的采访,最大感触是这一点

艺术要闻

这些肖像看完直呼“爽”!真是好久都没有看到了!

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

手机要闻

荣耀泡泡玛特联名手机开售,后续新机再曝

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版