网易首页 > 网易号 > 正文 申请入驻

小众架构赢麻了:让100B扩散模型飙出892 tokens/秒的速度!

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

谁能想到啊,在自回归模型(Autoregressive,AR)当道的现在,一个非主流架构的模型突然杀了回马枪——

被长期视为学术玩具的扩散语言模型,直接在复杂编程任务中飙出了892 tokens/秒的速度!



你没看错,当主流大模型还在以几十token的速度逐字蹦词时,这个非主流模型已经在100B参数规模上,跑出了如此的速度。

2025年,蚂蚁集团资深技术专家赵俊博曾经带着LLaDA2.0登上量子位MEET大会的舞台,而如今,他们的最新版本LLaDA2.1来了,蚂蚁技术研究院重磅开源!



三个月前,在LLaDA2.0时代,这更多是一个充满挑战的研究性模型。

而这一次,LLaDA2.1的诞生,标志着这个路线的历史性转折。它不再只是一个“学术研究”,而是真正可用、甚至在效率上更为优越的强大工具。

那么在整个行业都在卷更大的自回归模型时,蚂蚁到底是怎么低调修了另一条“能跑通的高速公路”的?

接下来,我们就再一起扒一扒这个非共识技术背后的原理。

怎么做到的?

在深入技术之前,我们先得聊聊为什么现在的ChatGPT、Claude们总是慢条斯理。

因为它们几乎全部采用自回归架构,这种模式如同一个不能打草稿的考生,必须从左到右、一字一句地生成文本,写完即定稿,无法回头修改。

而扩散模型的理论优势在于并行,可以同时处理所有文本位置,理论上能一次成篇,拥有巨大的速度潜力。

但扩散语言模型在早期一直有个致命伤,那就是容易胡说八道,且缺乏全局一致性。因为并行生成时,各个部分可能是各玩各的,导致前后文逻辑不通。

为此,蚂蚁的LLaDA2.1先亮出了第一个技术杀手锏:

一个模型两种模式设计,把怎么用模型的权力交给用户

基于可纠错编辑的底层能力,LLaDA2.1引入了灵活的双模式解码策略,实现了单个模型,同时支持极速与质量两种模式:

  • Speedy Mode(极速模式):大幅降低τ_mask阈值,激进并行生成初稿,依赖T2T编辑进行后期修正。适合代码草稿、快速推理、多轮试探式生成等对吞吐量敏感的场景。
  • Quality Mode(质量模式):采用保守阈值,减少编辑次数,优先保障输出准确性。适合正式文档生成、高精度推理等对结果质量要求严苛的场合。

在此之前,LLaDA-MoE和LLaDA2.0需要二次开发提供额外的加速版本,比如基于路径蒸馏的加速等;这类加速版本因为非联合训练优化,虽然实现了对基础版本的一定加速,但是精度掉点普遍严重;同时一个模型多个版本,也增加用户选择的难度以及模型管理的成本。

单模型双模式,避免了上述问题。用户可以根据具体需求,仅需一条config就能实现模式切换。

这种设计标志着LLaDA系列从研究模型向实用产品的关键转变。

技术报告显示,在HumanEval+编程基准上,LLaDA2.1-flash(100B)在Speedy Mode下达到892 TPS的峰值速度,而Quality Mode则在多项推理任务上超越了前代模型。



可纠错编辑,让模型像人类一样“写作+修改”

为了更好的理解双模式背后的机制,我们可以回忆一下自己写作的流程。

自回归模型像是一个不允许带草稿纸、不允许带提纲的作者,它下笔无悔,不允许修改自己写好的内容。

但现实中,大部分情况下我们可能是先有了想法去写草稿,哪怕有错别字,先动笔写着;写完之后,我们再回头细读一遍,把不通顺的、有错别字的地方改掉。

LLaDA2.1工作原理正是如此,引入的机制叫做可纠错编辑(Error-Correcting Editable,ECE)。

它的推理过程被分为了两个阶段:

  • 阶段一(M2T, Mask-to-Token):模型以极高的速度,并行生成一个草稿。这个阶段可能会有一些噪声和错误,但速度极快。
  • 阶段二(T2T, Token-to-Token):立即启动编辑模式。模型站在全局视角,对刚才生成的草稿进行检查。如果发现某些token置信度低或者逻辑不通,就直接进行回溯式修正。

技术报告中的一个例子生动说明了其价值。



当模型尝试补全赫拉克利特名言“No man ever steps in the same river twice”时,传统扩散模型在早期步骤错误生成了“walks”,由于状态冻结,最终输出错误的“walks in the same river twice”。

而LLaDA2.1在后续步骤中检测到“steps”的置信度更高,果断将“walks”替换为“steps”,成功恢复正确引文。

这种允许自我修正的能力,从根本上解决了扩散模型的曝光偏差问题。它让模型敢于在初稿阶段追求速度,再通过编辑阶段保障质量。

它在毫秒级的闪电采样中完成了“草稿”到“正卷”的华丽转身,不再被困在序列的起点,而是直接站在全局的高度,去编辑、去重塑、去定义AGI时代的推理新范式。

这是第一次在扩散架构上实现了速度与质量的解耦。

首次在100B扩散语言模型上跑通强化学习

如果说可纠错编辑解决了怎么生成的问题,那么强化学习则是解决了生成得好不好的问题。

但此前,在扩散模型上应用RL曾被视为不可能的任务。

原因在于,自回归模型的序列似然可直接分解为token级概率乘积,而扩散模型基于块状采样(block-diffusion),序列级似然难以直接计算,导致传统策略梯度方法失效。

LLaDA2.1团队为此定制了EBPO(ELBO-based Block-level Policy Optimization)算法:

  • 以证据下界(ELBO)作为序列似然的代理目标;
  • 通过向量化似然估计技术,并行计算多时间步的块条件概率;
  • 设计专门的梯度稳定机制,适配扩散模型的编辑特性。

这是业界首次在100B规模扩散模型上成功实施大规模RL训练。

结果显而易见:LLaDA2.1在IFEval(指令遵循评估)、BFCL(函数调用)等对齐类任务上显著提升,证明扩散模型不仅能快,更能懂你。



鱼和熊掌,可以兼得

正如我们刚才提到的,LLaDA2.1百亿参数版本在处理HumanEval+等复杂编程任务时,实现了892 tokens/秒的峰值速度。

在同级别的基准测试中,这一速度表现已经对主流自回归架构形成了显著优势。

更值得关注的是,这种速度并非以牺牲质量为代价。

在涵盖知识、推理、代码、数学及指令遵循的33个权威基准测试 中,LLaDA2.1在质量模式下全面超越了前代LLaDA2.0。

即使在追求速度的极速模式下,其性能下降也微乎其微,真正做到了 “鱼与熊掌可以兼得”。

除此之外,团队还开源了16B的Mini版本,其在部分任务上的峰值速度甚至超过1500 tokens/秒,为更轻量化的部署提供了可能。

最后,LLaDA2.1背后的哲学也是值得说道说道。

它证明了一件事:

在大模型时代,有敢把非共识走到底的耐心,亦可取得胜利。

技术报告:
https://huggingface.co/papers/2602.08676

GitHub地址:
https://github.com/inclusionAI/LLaDA2.X

项目权重:
https://huggingface.co/collections/inclusionAI/llada21
https://modelscope.cn/collections/inclusionAI/LLaDA21

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
别墅搜出23件国宝,全家集体失联!徐湖平案落幕,17年举报有结果

别墅搜出23件国宝,全家集体失联!徐湖平案落幕,17年举报有结果

诗意世界
2026-01-03 15:19:25
未来三天北京暖阳持续!假期首日将迎大降温

未来三天北京暖阳持续!假期首日将迎大降温

北青网-北京青年报
2026-02-11 15:03:59
美媒统计近十年单打效率排行:普理查德领跑,哈登多次上榜

美媒统计近十年单打效率排行:普理查德领跑,哈登多次上榜

林子说事
2026-02-11 11:15:07
天仙变大妈!刘亦菲亮相,大白腿太粗引热议!真的胖了110斤?

天仙变大妈!刘亦菲亮相,大白腿太粗引热议!真的胖了110斤?

八卦王者
2026-02-11 10:29:48
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
曝邝兆镭加盟青岛海牛!媒体人:除夕官宣,去梯队或是更好选择

曝邝兆镭加盟青岛海牛!媒体人:除夕官宣,去梯队或是更好选择

奥拜尔
2026-02-11 11:33:51
三巨头比阿尔卡拉斯、辛纳更好?纳达尔分享看法:没有争议

三巨头比阿尔卡拉斯、辛纳更好?纳达尔分享看法:没有争议

体育妞世界
2026-02-11 14:12:31
骑士主场盛大仪式迎哈登,万人大胡子震撼亮相

骑士主场盛大仪式迎哈登,万人大胡子震撼亮相

鸿锦篮球
2026-02-11 08:30:36
2026春运大巴彻底翻红!不是高铁不行,是打工人的刚需太真实

2026春运大巴彻底翻红!不是高铁不行,是打工人的刚需太真实

复转这些年
2026-02-03 23:52:33
薄一波打断原副总理姬鹏飞的电话,说:别执迷不悟,他罪该万死

薄一波打断原副总理姬鹏飞的电话,说:别执迷不悟,他罪该万死

抽象派大师
2026-01-26 19:07:26
主持人春妮小年扫房子,与刚强北京住大别墅,房子装修豪华有格调

主持人春妮小年扫房子,与刚强北京住大别墅,房子装修豪华有格调

柒佰娱
2026-02-11 10:55:10
“大傻”去世15年后,儿子入狱孙子身亡,王晶曝他旧事:是狠角色

“大傻”去世15年后,儿子入狱孙子身亡,王晶曝他旧事:是狠角色

妙知
2026-01-22 16:41:19
2月11日上海最新购房政策来了:限购+贷款+赠予+继承+新房积分+摇号+税费+置换补贴!(最新版)

2月11日上海最新购房政策来了:限购+贷款+赠予+继承+新房积分+摇号+税费+置换补贴!(最新版)

新浪财经
2026-02-11 00:24:21
潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

梅子的小情绪
2026-02-08 19:59:04
徐冬冬孕相上热搜!胯大腰圆鼻子变宽,尹子维手托肚一脸关心

徐冬冬孕相上热搜!胯大腰圆鼻子变宽,尹子维手托肚一脸关心

洲洲影视娱评
2026-02-11 16:16:16
好友相继缅怀拼凑出,何晴生命最后时光:拮据、变样、舍不下儿子

好友相继缅怀拼凑出,何晴生命最后时光:拮据、变样、舍不下儿子

阿郎娱乐
2025-12-17 07:38:57
时隔三年!重获新生!欢迎回归,独行侠灵魂

时隔三年!重获新生!欢迎回归,独行侠灵魂

体育新角度
2026-02-11 10:19:15
父死子继!

父死子继!

求实处
2026-02-10 22:27:25
中印加勒万河谷肉搏战:680人八小时混战,双方到底伤亡多少人?

中印加勒万河谷肉搏战:680人八小时混战,双方到底伤亡多少人?

叹为观止易
2026-01-28 14:25:41
东莞松山湖管委会原二级调研员方德佳被“双开”

东莞松山湖管委会原二级调研员方德佳被“双开”

南方都市报
2026-02-11 10:22:47
2026-02-11 17:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
12151文章数 176382关注度
往期回顾 全部

科技要闻

痛失两位华裔大佬!马斯克为何留不住人心

头条要闻

中方回应"若中加达成贸易协议中方会终止加冰球运动"

头条要闻

中方回应"若中加达成贸易协议中方会终止加冰球运动"

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

汪峰吃惊!章子怡年前6天高调官宣喜讯

财经要闻

习酒节前价格雪崩控量稳价变空谈

汽车要闻

比亚迪最美B级SUV? 宋Ultra这腰线美翻了

态度原创

游戏
本地
艺术
时尚
军事航空

《小猫咪,大城市》迎新春活动上线

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

艺术要闻

春节的13个冷知识,你未必都知道!(长知识了)

冬季穿出高级感,全靠这3个招数简单好懂,中年女人赶紧照搬

军事要闻

特朗普:若美伊谈判失败 或再派一支航母打击群

无障碍浏览 进入关怀版