网易首页 > 网易号 > 正文 申请入驻

里程碑时刻!100B扩散语言模型892 Tokens /秒,AI另一条路走通了

0
分享至



机器之心编辑部

扩散语言模型(dLLM),这个曾被认为是「小众赛道」的研究方向,如今终于迎来了质变。

本周一,LLaDA2.1 在 HuggingFace 上悄悄上线,距离上一版本 LLaDA2.0 发布仅仅过去了两个月。本次发布共包含两个版本:LLaDA2.1-Mini(16B) 与 LLaDA2.1-Flash(100B)



作为这一赛道的标杆,LLaDA 的每一次迭代都牵动着整个方向的走向。而这一次,LLaDA2.1 几乎凭一己之力完成了扩散语言模型的「成人礼」——892 Tokens / 秒的峰值速度让理论上的效率优势第一次照进现实;边生成边纠错的机制,打破了「快则不准」的魔咒;再加上可切换的双模式、首次跑通的强化学习后训练…… 这些信号再明确不过:这条曾被视为小众的学术路线,已经长成了真正可用、甚至在效率上更为优越的强大工具。

时至今日,逐个生成下一个 Token 的自回归模型仍是主流。但长文本生成里,计算成本高、推理速度慢只是明面上的麻烦;真正棘手却鲜被正视的是模型只能单向往前猜,看不到后文语境,写错了也没法回头改,误差像滚雪球一样越积越重。这些困境就像房间里的大象,始终横亘在规模化应用的门口。

LLaDA2.1 的解法很直接:与其在旧框架里修修补补,不如换一套底层逻辑 —— 让模型像「完形填空」一样并行生成、反复打磨,把「下笔无悔」变成「边写边改」。

这套机制具体如何运转,我们可以在蚂蚁集团、浙江大学、西湖大学、南方科技大学联合撰写的技术报告中找到答案。



  • 论文地址:https://github.com/inclusionAI/LLaDA2.X/blob/main/llada2_1_tech_report.pdf
  • Hugging Face:https://huggingface.co/collections/inclusionAI/llada21
  • ModelScope 魔搭社区:https://modelscope.cn/collections/inclusionAI/LLaDA21
  • GitHub:https://github.com/inclusionAI/LLaDA2.X
  • Tech Report:https://huggingface.co/papers/2602.08676

自回归之外的另一条路

要理解 LLaDA2.1 的突破,必须从当前 AI 模型的「底层逻辑冲突」看起。

在主流 AI 大模型(如 GPT、Claude)的世界里,自回归架构是绝对的主宰。

它遵循逐 Token 生成的严苛范式:每一步输出都会固化为下一步的条件,生成路径如同单向延伸的铁轨,一旦落笔便不可回溯。比如写到「人不能两次走入同一条河流」,即使模型后来意识到应该是「踏入」而不是「走入」,也只能错到底。

这种方式在稳定性与可控性上具备天然优势,但代价同样明显。由于推理过程本质上是串行的,模型难以进行大规模并行解码,生成延迟随着上下文长度与输出规模不断放大,逐渐成为制约推理效率和部署成本的重要因素。更关键的是,这一范式在结构上默认慢而稳,并未为速度与吞吐的数量级提升预留太多空间。

基于此,扩散语言模型开始被视为一条具有潜在突破意义的替代路线,它不再执着于从左到右,而是尝试在全局空间内同时生成多个 Token。

然而,高并行往往伴随着高错误率。早期的扩散模型通常采用「掩码到 Token」(M2T)的固定路径,这种机制虽然快,却存在劣势:一旦某个生成的 Token 信心不足,模型无法在后续步骤中修正它,最终拖慢整体推理速度并降低输出质量。

这一「速度 — 质量」之间的结构性矛盾,使扩散语言模型长期停留在研究阶段,而难以真正进入应用系统。

在这一背景下,蚂蚁团队此前提出的 LLaDA2.0 已经证明了百亿参数级扩散语言模型在规模化和并行解码上的可行性,但论文也坦率指出:如何在速度和生成质量之间取得可控、稳定的平衡,仍然是尚未解决的问题。

LLaDA2.1 正是对这一核心矛盾的直接回应。他们不是继续堆参数、刷榜单,而是通过解码机制、训练范式与工程体系的系统性调整,让扩散语言模型真正跨过能跑和能用之间的门槛。

dLLM 的路走通了

我们先看一下结果:LLaDA2.1 在处理复杂的编程任务时,其100B(千亿)参数版本,实现了 892 Tokens / 秒的惊⼈峰值速度

这一结果真正值得关注的前提在于,这是一个 100B 规模的模型。

对于很多研究者来说,怎么把 dLLM「做大做强」是一个公认的难题。业界主流做法包括从头训练、从自回归模型迁移能力,以及后训练阶段的性能与效率优化。前两条路线受限于数据规模、训练效率和计算成本,模型规模普遍停留在几十亿到三百亿参数以内;而后训练方向虽在代码、规划和推理加速上取得初步突破,但整体仍处于早期阶段,如何协同放大并扩展到千亿参数规模,依然是悬而未决的问题。

也正因为如此,LLaDA2.1 的 100B 规模本身,就已经突破了这条路线长期存在的规模天花板。也正是在这一前提下,892 Tokens / 秒的结果才显得格外关键 —— 它并不是在一个容易加速的小模型上取得的,而是在扩散模型最难、最重的规模区间里跑出来的。

更重要的是,这一速度并非来自简化任务或短文本生成,而是出现在 HumanEval+ 这样的复杂编程基准中。在这一场景下,模型不仅需要处理长上下文,还必须保持逻辑一致性与语法正确性,推理效率往往是最先被牺牲的指标。

这背后藏着蚂蚁团队围绕扩散语言模型长期瓶颈所做的一整套系统性调整。

像人类专家一样「起草 - 编辑」

首先,LLaDA2.1 创新性的提出了可纠错编辑机制 (Error-Correcting Editable, ECE)。它可以在毫秒级的闪电采样中起草整个答案,然后回过头来检查、修正。

我们还是以上面的「人不能两次走入同一条河流」为例,当模型发现「走入」用词不当时,会立即修改成「踏入」。而这种能力是自回归模型无法做到的,LLaDA2.1 摆脱了那种「一写到底」的死板模式,而是分为两步:

  • 第一步:快速起草。模型以极高的速度并行生成一个「草稿」,这个阶段允许一定程度的不确定性。
  • 第二步:智能编辑。立即启动「编辑」模式,对草稿进行全局重新评估和自我修正。发现错误?回溯修改。发现更好的表达?即刻替换。

这一范式涵盖了两类操作:从掩码到 Token 的直接解码,以及从一个 Token 到另一个 Token 的编辑。这种策略使模型能够在生成过程中直接精炼自身输出,从而有效解决并行解码中常见的局部不一致性。为了培养这种编辑能力,团队在持续预训练(CPT)和指令微调(SFT)阶段将模型同时暴露于掩码位置和随机噪声中,激励其不仅生成新内容,还能识别并修正现有错误。

关键在于,这一架构将原本时延与生成质量之间的刚性权衡关系,转化为一种可由用户灵活配置的连续空间。通过允许模型对生成结果进行回溯式纠错,得以在不导致生成质量崩塌的前提下,大幅降低初始 Mask-to-Token(M2T)阶段的置信度阈值。

单模型双模式,把选择权交还给用户

LLaDA2.1 还做了一个更大胆的设计:一个模型支持质量和极速两种模式:

  • Speedy Mode(极速模式):激进地降低初始生成的置信度阈值,快速产出草稿,依靠后续编辑来保证质量。适合代码生成、快速迭代、头脑风暴等场景。
  • Quality Mode(质量模式):采用保守策略,提高初始生成的质量要求,减少需要修正的错误。适合正式文档、学术写作、高精度任务。

在此之前,LLaDA-MoE 和 LLaDA 2.0 需要二次开发提供额外的加速版本,比如基于路径蒸馏的加速等;这类加速版本因为非联合训练优化,虽然实现了对基础版本的一定加速,但是精度掉点普遍严重;同时一个多个版本,也增加用户选择的难度以及模型管理的成本。单模型双模式,避免了上述问题。用户根据实际需求,仅需一条 config 就能实现质量和极速模式的切换。

让模型听得懂话

如果说可纠错编辑让模型变得可用,那么强化学习则让模型变得更聪明、更可靠 —— 体感更强。

为进一步提升模型能力,团队在训练流程中引入了强化学习阶段。尽管近期已有研究工作(如 SPG、TraceRL 与 ESPO)证明了强化学习在提升扩散语言模型性能方面的潜力,但由于序列级对数似然难以精确计算,将策略梯度方法应用于块自回归模型仍然面临显著挑战。

针对这一问题,蚂蚁团队提出并采用了一种基于 ELBO 的块级策略优化方法(ELBO-based Block-level Policy Optimization,EBPO),该框架专门针对可编辑解码结构进行了设计与适配。

更重要的是,团队还第一次把强化学习真正用到了百亿参数级的扩散模型上,让模型学会更好地理解指令、对齐人的意图,而不是只追求速度。

可以「边写边改」的 LLaDA2.1,效果到底如何?

技术上的创新,最终转化为实实在在的能力提升。在 LLaDA2.1 的实验评估中,这种从架构逻辑到执行效率的进化得到了淋漓尽致的体现 。

表 1 和表 2 报告了 LLaDA2.1-flash 与 LLaDA2.1-mini 相对于其他模型的对比结果,包括性能得分以及 TPF(每次前向推理生成的 token 数)。实验结果显示,在 S 模式 下,LLaDA2.1 的任务得分相较于 LLaDA2.0 略有下降,但 TPF 获得了显著提升;而在 Q 模式 下,LLaDA2.1 在 mini 与 flash 两个规模上均全面超越了 LLaDA2.0 的表现。





表 3 进一步聚焦于 LLaDA2.1 在 S 模式下的速度性能。可以观察到,该模型在不同任务领域之间呈现出明显的速度差异,其中代码类任务的吞吐率最高,而指令遵循类任务相对较低。具体而言,在量化之后,LLaDA2.1-flash 在 HumanEval+ 基准上达到了891.74 TPS 的峰值速度,而 LLaDA2.1-mini 的峰值TPS 则高达 1586.93,展现出显著的推理效率优势。



如表 4 所示,在相同的 S 模式设置下,引入多块编辑(Multi-Block Editing,MBE) 能够在 Flash 与 Mini 两个模型版本上,跨多个基准稳定提升性能,代价仅为吞吐率的小幅下降。



图 3 进一步展示了在表 3 所涵盖的五类任务领域中,LLaDA2.1 与 LLaDA2.0、Ling 以及 Qwen-3 等模型在吞吐率(tokens per second)上的对比结果。整体来看,LLaDA2.1 在 S 模式下展现出极为突出的速度优势:在仅牺牲极少输出质量的前提下,实现了显著更快的推理速度



AI 架构会范式转移吗?

LLaDA2.1 的意义,可能不在于某一次指标刷新,而在于它重新把一个被搁置已久的问题摆回了台面。

过去几年里,自回归模型几乎构成了大语言模型发展的唯一现实路径。它可靠、成熟,也足够好用,以至于行业更多是在这条路上继续加码,而很少真正停下来讨论:语言模型的底层形态,是否还有其他选择。

LLaDA2.1 并没有试图否定自回归范式,而是用一种更务实的方式证明,扩散语言模型并非只能停留在理论或实验室层面。通过可纠错编辑,它解决了并行生成中最棘手的错误固化问题;通过双模式设计,它把速度与质量的取舍变成一种可以被配置的工程决策;而在百亿参数规模下跑出 892 TPS 的结果,则让「扩散模型能不能真的跑快」不再只是推测。

语言模型的发展,可能不会很快走向某种范式的彻底更替,但路径的单一性正在被打破。LLaDA2.1 至少说明了一点:在自回归之外,确实存在另一条可以被持续推进、也值得投入资源的方向。

而这条路,显然还远没有走到终点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重磅!委内瑞拉十多年来首次向以色列运送原油,全球能源格局生变

重磅!委内瑞拉十多年来首次向以色列运送原油,全球能源格局生变

老马拉车莫少装
2026-02-11 12:01:51
挣再多钱有啥用,61岁崔培军如今的现状,给所有企业家提了醒

挣再多钱有啥用,61岁崔培军如今的现状,给所有企业家提了醒

云景侃记
2026-02-03 22:26:23
《飞驰人生3》海报引争议,被指“抄袭”好莱坞

《飞驰人生3》海报引争议,被指“抄袭”好莱坞

影视高原说
2026-02-09 16:55:08
难怪鬼子不开战!日本议员:中国只要用导弹打东京,日本就会完蛋

难怪鬼子不开战!日本议员:中国只要用导弹打东京,日本就会完蛋

阿钊是个小小评论员
2025-12-14 02:02:31
江浙沪的网友们一觉醒来,天塌了!卖早餐的安徽老板回家过年了

江浙沪的网友们一觉醒来,天塌了!卖早餐的安徽老板回家过年了

墙头草
2026-02-10 14:42:53
南博通报:时间线与发票存在巨大差异,徐湖平和销售员承担了所有

南博通报:时间线与发票存在巨大差异,徐湖平和销售员承担了所有

天气观察站
2026-02-10 19:18:17
U17国足又把对手打哭!两回合轰10球,印尼门将压哨乌龙后捂脸

U17国足又把对手打哭!两回合轰10球,印尼门将压哨乌龙后捂脸

奥拜尔
2026-02-11 21:44:47
如果真的有龙,那从物理学的角度来讲,龙的飞行原理是什么?

如果真的有龙,那从物理学的角度来讲,龙的飞行原理是什么?

小豫讲故事
2026-01-15 06:00:07
多名球员离队,郑智上任伊始清洗邵佳一嫡系,青岛西海岸保级堪忧

多名球员离队,郑智上任伊始清洗邵佳一嫡系,青岛西海岸保级堪忧

姜大叔侃球
2026-02-10 17:01:00
打3年NBA能领多少退休金?巴特尔的金额曝光,说出来你可能不信

打3年NBA能领多少退休金?巴特尔的金额曝光,说出来你可能不信

篮球看比赛
2026-01-25 11:00:17
降温降雨大风马上到!湖北春节假期天气大反转

降温降雨大风马上到!湖北春节假期天气大反转

环球网资讯
2026-02-11 10:17:19
特朗普大骂冬奥运动员“Loser”!谷爱凌发声

特朗普大骂冬奥运动员“Loser”!谷爱凌发声

大风新闻
2026-02-10 15:51:07
74岁“肥猫”郑则仕回应加入周润发跑团:一年前膝盖痛,医生建议注射药物,师傅周润发让我跑步;此前暴瘦70斤,跑马引热议

74岁“肥猫”郑则仕回应加入周润发跑团:一年前膝盖痛,医生建议注射药物,师傅周润发让我跑步;此前暴瘦70斤,跑马引热议

极目新闻
2026-02-11 11:36:07
“全面拆迁”来了?2026年住建部已明确,这两类房子或将通通拆迁

“全面拆迁”来了?2026年住建部已明确,这两类房子或将通通拆迁

古事寻踪记
2026-02-03 07:11:55
糖尿病去世的人越来越多?提醒:宁可喝茶水,最好也别做这4事

糖尿病去世的人越来越多?提醒:宁可喝茶水,最好也别做这4事

九哥聊军事
2026-02-11 20:06:31
巴拿马总统挑衅,叫嚣收港“合理”,中方出手:秘鲁或取而代之

巴拿马总统挑衅,叫嚣收港“合理”,中方出手:秘鲁或取而代之

兵说
2026-02-10 20:27:57
四川省纪委监委:2人被查 1人被“双开”

四川省纪委监委:2人被查 1人被“双开”

人民资讯
2026-02-11 16:43:24
原来骆驼还能这么可怕的,看了网友的分享,又学到一个保命知识

原来骆驼还能这么可怕的,看了网友的分享,又学到一个保命知识

墙头草
2026-02-11 08:30:15
恭喜!知名女演员宣布诞下二胎

恭喜!知名女演员宣布诞下二胎

可爱小菜
2026-02-10 13:39:42
中国体坛最伟大10名运动员,林丹上榜,第一名堪称亚洲荣耀

中国体坛最伟大10名运动员,林丹上榜,第一名堪称亚洲荣耀

不写散文诗
2025-12-27 14:59:44
2026-02-11 22:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12290文章数 142565关注度
往期回顾 全部

科技要闻

V4来了?DeepSeek 灰度测试新版本

头条要闻

前美国财长顾问:我刚从中国回来 美国没赢

头条要闻

前美国财长顾问:我刚从中国回来 美国没赢

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

大孤山风波愈演愈烈 超50位明星扎堆

财经要闻

广州前首富被判无期 200亿集资窟窿何偿

汽车要闻

比亚迪最美B级SUV? 宋Ultra这腰线美翻了

态度原创

教育
时尚
亲子
旅游
本地

教育要闻

寒假早预习!中小学电子课本可下载!

冬季穿出高级感,全靠这3个招数简单好懂,中年女人赶紧照搬

亲子要闻

同时拍手挑战,亲子互动游戏

旅游要闻

首推贺岁视频!瑞士国家旅游局邀中国游客“马上去瑞士”

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

无障碍浏览 进入关怀版