网易首页 > 网易号 > 正文 申请入驻

小众架构赢麻了:让100B扩散模型飙出892 tokens/秒的速度!

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

谁能想到啊,在自回归模型(Autoregressive,AR)当道的现在,一个非主流架构的模型突然杀了回马枪——

被长期视为学术玩具的扩散语言模型,直接在复杂编程任务中飙出了892 tokens/秒的速度!



你没看错,当主流大模型还在以几十token的速度逐字蹦词时,这个非主流模型已经在100B参数规模上,跑出了如此的速度。

2025年,蚂蚁集团资深技术专家赵俊博曾经带着LLaDA2.0登上量子位MEET大会的舞台,而如今,他们的最新版本LLaDA2.1来了,蚂蚁技术研究院重磅开源!



三个月前,在LLaDA2.0时代,这更多是一个充满挑战的研究性模型。

而这一次,LLaDA2.1的诞生,标志着这个路线的历史性转折。它不再只是一个“学术研究”,而是真正可用、甚至在效率上更为优越的强大工具。

那么在整个行业都在卷更大的自回归模型时,蚂蚁到底是怎么低调修了另一条“能跑通的高速公路”的?

接下来,我们就再一起扒一扒这个非共识技术背后的原理。

怎么做到的?

在深入技术之前,我们先得聊聊为什么现在的ChatGPT、Claude们总是慢条斯理。

因为它们几乎全部采用自回归架构,这种模式如同一个不能打草稿的考生,必须从左到右、一字一句地生成文本,写完即定稿,无法回头修改。

而扩散模型的理论优势在于并行,可以同时处理所有文本位置,理论上能一次成篇,拥有巨大的速度潜力。

但扩散语言模型在早期一直有个致命伤,那就是容易胡说八道,且缺乏全局一致性。因为并行生成时,各个部分可能是各玩各的,导致前后文逻辑不通。

为此,蚂蚁的LLaDA2.1先亮出了第一个技术杀手锏:

一个模型两种模式设计,把怎么用模型的权力交给用户

基于可纠错编辑的底层能力,LLaDA2.1引入了灵活的双模式解码策略,实现了单个模型,同时支持极速与质量两种模式:

  • Speedy Mode(极速模式):大幅降低τ_mask阈值,激进并行生成初稿,依赖T2T编辑进行后期修正。适合代码草稿、快速推理、多轮试探式生成等对吞吐量敏感的场景。
  • Quality Mode(质量模式):采用保守阈值,减少编辑次数,优先保障输出准确性。适合正式文档生成、高精度推理等对结果质量要求严苛的场合。

在此之前,LLaDA-MoE和LLaDA2.0需要二次开发提供额外的加速版本,比如基于路径蒸馏的加速等;这类加速版本因为非联合训练优化,虽然实现了对基础版本的一定加速,但是精度掉点普遍严重;同时一个模型多个版本,也增加用户选择的难度以及模型管理的成本。

单模型双模式,避免了上述问题。用户可以根据具体需求,仅需一条config就能实现模式切换。

这种设计标志着LLaDA系列从研究模型向实用产品的关键转变。

技术报告显示,在HumanEval+编程基准上,LLaDA2.1-flash(100B)在Speedy Mode下达到892 TPS的峰值速度,而Quality Mode则在多项推理任务上超越了前代模型。



可纠错编辑,让模型像人类一样“写作+修改”

为了更好的理解双模式背后的机制,我们可以回忆一下自己写作的流程。

自回归模型像是一个不允许带草稿纸、不允许带提纲的作者,它下笔无悔,不允许修改自己写好的内容。

但现实中,大部分情况下我们可能是先有了想法去写草稿,哪怕有错别字,先动笔写着;写完之后,我们再回头细读一遍,把不通顺的、有错别字的地方改掉。

LLaDA2.1工作原理正是如此,引入的机制叫做可纠错编辑(Error-Correcting Editable,ECE)。

它的推理过程被分为了两个阶段:

  • 阶段一(M2T, Mask-to-Token):模型以极高的速度,并行生成一个草稿。这个阶段可能会有一些噪声和错误,但速度极快。
  • 阶段二(T2T, Token-to-Token):立即启动编辑模式。模型站在全局视角,对刚才生成的草稿进行检查。如果发现某些token置信度低或者逻辑不通,就直接进行回溯式修正。

技术报告中的一个例子生动说明了其价值。



当模型尝试补全赫拉克利特名言“No man ever steps in the same river twice”时,传统扩散模型在早期步骤错误生成了“walks”,由于状态冻结,最终输出错误的“walks in the same river twice”。

而LLaDA2.1在后续步骤中检测到“steps”的置信度更高,果断将“walks”替换为“steps”,成功恢复正确引文。

这种允许自我修正的能力,从根本上解决了扩散模型的曝光偏差问题。它让模型敢于在初稿阶段追求速度,再通过编辑阶段保障质量。

它在毫秒级的闪电采样中完成了“草稿”到“正卷”的华丽转身,不再被困在序列的起点,而是直接站在全局的高度,去编辑、去重塑、去定义AGI时代的推理新范式。

这是第一次在扩散架构上实现了速度与质量的解耦。

首次在100B扩散语言模型上跑通强化学习

如果说可纠错编辑解决了怎么生成的问题,那么强化学习则是解决了生成得好不好的问题。

但此前,在扩散模型上应用RL曾被视为不可能的任务。

原因在于,自回归模型的序列似然可直接分解为token级概率乘积,而扩散模型基于块状采样(block-diffusion),序列级似然难以直接计算,导致传统策略梯度方法失效。

LLaDA2.1团队为此定制了EBPO(ELBO-based Block-level Policy Optimization)算法:

  • 以证据下界(ELBO)作为序列似然的代理目标;
  • 通过向量化似然估计技术,并行计算多时间步的块条件概率;
  • 设计专门的梯度稳定机制,适配扩散模型的编辑特性。

这是业界首次在100B规模扩散模型上成功实施大规模RL训练。

结果显而易见:LLaDA2.1在IFEval(指令遵循评估)、BFCL(函数调用)等对齐类任务上显著提升,证明扩散模型不仅能快,更能懂你。



鱼和熊掌,可以兼得

正如我们刚才提到的,LLaDA2.1百亿参数版本在处理HumanEval+等复杂编程任务时,实现了892 tokens/秒的峰值速度。

在同级别的基准测试中,这一速度表现已经对主流自回归架构形成了显著优势。

更值得关注的是,这种速度并非以牺牲质量为代价。

在涵盖知识、推理、代码、数学及指令遵循的33个权威基准测试 中,LLaDA2.1在质量模式下全面超越了前代LLaDA2.0。

即使在追求速度的极速模式下,其性能下降也微乎其微,真正做到了 “鱼与熊掌可以兼得”。

除此之外,团队还开源了16B的Mini版本,其在部分任务上的峰值速度甚至超过1500 tokens/秒,为更轻量化的部署提供了可能。

最后,LLaDA2.1背后的哲学也是值得说道说道。

它证明了一件事:

在大模型时代,有敢把非共识走到底的耐心,亦可取得胜利。

技术报告:
https://huggingface.co/papers/2602.08676

GitHub地址:
https://github.com/inclusionAI/LLaDA2.X

项目权重:
https://huggingface.co/collections/inclusionAI/llada21
https://modelscope.cn/collections/inclusionAI/LLaDA21

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

证券时报e公司
2026-03-26 22:23:23
“两物不送人,子孙人上人”:这2样东西别送人,关系再好也不行

“两物不送人,子孙人上人”:这2样东西别送人,关系再好也不行

白浅娱乐聊
2026-03-17 17:13:11
演员朱珠疑似塌房?照片流出,惊呆网友!

演员朱珠疑似塌房?照片流出,惊呆网友!

大眼妹妹
2025-12-15 10:39:19
100只整装待发!量产机器狼“-20℃极寒测试”现场曝光

100只整装待发!量产机器狼“-20℃极寒测试”现场曝光

中国网
2026-03-26 15:55:11
6-2血洗欧冠德比!巴萨狂轰6球,皇马孤将双响难挡崩盘

6-2血洗欧冠德比!巴萨狂轰6球,皇马孤将双响难挡崩盘

林子说事
2026-03-26 09:42:20
德转列世预赛附加赛球队身价排行:意大利8.39亿欧居首

德转列世预赛附加赛球队身价排行:意大利8.39亿欧居首

懂球帝
2026-03-26 15:59:41
NBA正式扩军!狂砸100亿啊,再见,森林狼or灰熊,东部见

NBA正式扩军!狂砸100亿啊,再见,森林狼or灰熊,东部见

球童无忌
2026-03-26 11:34:27
5月起生效!俄罗斯关闸,8000吨黄金不卖了,全球金市变天

5月起生效!俄罗斯关闸,8000吨黄金不卖了,全球金市变天

瑛派儿老黄
2026-03-26 10:43:45
张靓颖“零透光”裙惊爆热搜,性感曲线令全场屏息,时尚女王?

张靓颖“零透光”裙惊爆热搜,性感曲线令全场屏息,时尚女王?

娱乐领航家
2025-10-28 22:00:07
美媒大胆预测:快船季后赛4-3胜骑士队

美媒大胆预测:快船季后赛4-3胜骑士队

刘笤说体坛
2026-03-27 00:09:38
1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

微野谈写作
2026-01-27 06:00:03
以色列打不动了想停火,伊朗说不,47年的账,今天得好好算清

以色列打不动了想停火,伊朗说不,47年的账,今天得好好算清

花寒弦絮
2026-03-26 23:11:22
三分命中率64.1%,断层全联盟第一!郭士强该给他一个国家队名额

三分命中率64.1%,断层全联盟第一!郭士强该给他一个国家队名额

弄月公子
2026-03-26 11:03:13
德黑兰街头忽然空了:巴斯基帐篷被遗弃,民兵连夜跑了,为什么?

德黑兰街头忽然空了:巴斯基帐篷被遗弃,民兵连夜跑了,为什么?

老马拉车莫少装
2026-03-24 22:55:20
张雪峰遗产纷争的内幕!

张雪峰遗产纷争的内幕!

八卦疯叔
2026-03-26 11:05:04
太阳报:大量枪迷想抢票见证夺冠,西汉姆联严查主队看台购票

太阳报:大量枪迷想抢票见证夺冠,西汉姆联严查主队看台购票

懂球帝
2026-03-26 13:21:13
玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

洞读君
2026-03-04 14:30:12
10万亿美债将要到期,早已资不抵债,美国财政部已经宣布破产?

10万亿美债将要到期,早已资不抵债,美国财政部已经宣布破产?

史行途
2026-03-26 14:06:29
101枚导弹砸向美国航母:伊朗打出了开战以来最强一拳

101枚导弹砸向美国航母:伊朗打出了开战以来最强一拳

闻识
2026-03-27 01:19:31
这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

旧史新谭
2026-03-25 13:15:22
2026-03-27 02:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
本地
时尚
公开课
军事航空

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

400万人爱过的女孩,被黄谣网暴180天后

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版