网易首页 > 网易号 > 正文 申请入驻

7B扩散语言模型单样例1000+ tokens/s!上交大联合华为推出LoPA

0
分享至



视频 1:单样例推理速度对比:SGLang 部署的 Qwen3-8B (NVIDIA) vs. LoPA-Dist 部署 (NVIDIA & Ascend)(注:NVIDIA 平台相同,配置对齐)

在大语言模型(LLMs)领域,扩散大语言模型(dLLMs)因其并行预测特性,理论上具备超越传统自回归(AR)模型的推理速度潜力。然而在实践中,受限于现有的解码策略,dLLMs 的单步生成往往局限于 1-3 个 Token,难以真正释放其并行潜力。

近期,上海交通大学 DENG Lab 联合华为的一项新研究打破了这一瓶颈。该工作提出了一种名为LoPA (Lookahead Parallel Decoding) 的无需训练的解码算法,通过主动探索最优填词顺序,显著提升了 dLLMs 的推理并行度和吞吐量。

本文作者团队来自上海交通大学 DENG Lab 与华为。该研究由徐晨开、金义杰同学等人共同完成,指导教师为邓志杰老师。DENG Lab 隶属上海交通大学,致力于高效、跨模态生成模型的研究。



  • 论文地址:https://arxiv.org/abs/2512.16229
  • 代码地址:https://github.com/zhijie-group/LoPA
  • 博客地址:https://zhijie-group.github.io/blogs/lopa

实验显示,LoPA 将 D2F-Dream 在 GSM8K 基准上的单步生成 Token 数(TPF)从 3.1 提升至 10.1,并行度提升超 3 倍。配合团队自研的 LoPA-Dist 分布式推理系统,在华为 Ascend 910C 平台上实现了 1073.9 tokens/s 的单样本吞吐量,不仅大幅超越基线模型,更将 dLLMs 的推理效率推向了新高度。



图 1:LoPA 的吞吐量结果展示。LoPA 将 D2F-Dream 的单样本吞吐量在 MBPP 和 GSM8K 上分别提升至高达 1073.9 和 856.5 个 token/s,显著优于基线方法。

简单来说,LoPA 为 dLLMs 赋予了以下核心特性:

1.极高的并行度:首次将 dLLMs 的每步生成数量(TPF)提升至 10 Token 量级,突破了传统方法的效率瓶颈。

2.无需训练:作为一种即插即用的解码算法,无需对模型进行重训或微调。

3.前瞻并行解码:通过引入分支并行机制,主动探索不同的填词顺序(TFO),避免模型陷入低置信度的局部最优。

4.系统级加速:配套设计的 LoPA-Dist 系统,支持 CUDA 和 Ascend 双平台,通过分支并行最大化硬件利用率。



图 2:对不同分支数的 D2F-Dream 进行 LoPA 扩展性分析。结果表明,LoPA 能有效扩展 D2F 的 TPF,使其峰值超过 10,从而显著减少解码总步骤数。

问题的根源:填词顺序限制并行潜力

dLLMs 理论上支持全序列并行生成,但在实际应用中,现有的主流模型(如 Fast-dLLM, D2F, SDAR)普遍采用置信度驱动采样(Confidence-Driven Sampling)。这种策略倾向于贪婪地优先填充当前置信度最高的位置。

研究团队发现,并行度的高低与填词顺序(Token Filling Order, TFO)高度相关。贪婪策略虽然在当前步骤保证了准确性,但并不考虑后续步骤的预测置信度,导致模型在后续迭代中并没有充分释放并行度。



图 3:LoPA 算法流程概览。在每次迭代中,LoPA 通过独立采样高置信度位置,生成一个锚定分支以及多个前瞻分支。然后,分支置信度验证机制并行评估所有分支,以选择最优路径。

LoPA 的核心设计:前瞻并行与分支验证

为了解决上述问题,LoPA 引入了前瞻并行解码机制。其核心思想是:利用少量的额外计算开销,同时探索多种填词顺序,从而找到一条能让未来预测 “更自信” 的路径。

LoPA 的工作流程包含三个关键阶段:

1. 多分支并行探索

LoPA 在保留标准锚点分支(Anchor Branch,即常规贪婪策略)的同时,额外对当前的最高置信度的 k 个位置分别采样得到 k 个前瞻分支(Lookahead Branches)。每个分支代表一种不同的填词顺序尝试。

2. 分支置信度验证

团队设计了分支置信度(Branch Confidence)指标,用于量化分支中剩余未填位置的平均预测置信度。较高的分支置信度意味着该路径在下一轮迭代中能填充更多的 Token,具备更高的并行潜力。

3. 并行验证与复用

通过隔离不同分支的注意力设计,所有候选分支(锚点 + 前瞻)可以在一次前向传递中并行完成验证。系统最终选择未来潜力最大的分支作为本次迭代结果。验证过程中计算的 Logits 被直接复用于下一步生成,无需额外前向传播。



图 4:LoPA 分支并行分布式推理系统设计展示。关键区别在于针对不同后端定制的键值缓存管理协议:LoPA-Dist-NV 采用稳健的两阶段更新机制以确保一致性,而 LoPA-Dist-Ascend 则采用精简的单阶段更新策略以优化服务效率。

系统级创新:LoPA-Dist 分布式推理

为了承载 LoPA 的多分支计算,团队设计了 LoPA-Dist 分布式推理系统,引入了全新的分支并行(Branch Parallelism, BP)策略,可与张量并行(Tensor Parallelism,TP)等现有并行机制混合使用。

该系统针对不同硬件平台进行了定制优化:

1.LoPA-Dist-NV(CUDA):面向低延迟场景。采用静态 KV Cache 和独创两阶段更新协议(Pre-Write & Commit-Winner-Cache),确保分支切换时的缓存一致性。

2.LoPA-Dist-Ascend(Ascend 910C):面向高吞吐服务场景。采用混合并行策略(TP+BP),结合图编译技术融合算子,异步调度,以及量化机制,大幅降低 Kernel 启动开销。



图 5:LoPA 的并行度扩展曲线。在 GSM8K 和 HumanEval+ 上,LoPA 分别将 D2F-Dream 和 D2F-DiffuCoder 的 TPF 分别扩展至高达 10.1 和 8.3,并保持和基线相当的性能。

实验结果:速度与质量的双重提升

并行度:单步突破 10 Token

LoPA 在 SOTA 扩散语言模型 D2F 上进行了实验。实验结果表明,随着前瞻分支数量的增加,模型的 TPF 呈现显著上升趋势。在 GSM8K 任务上,LoPA 将 D2F-Dream 的 TPF 推高至 10.1,大幅缩短了总推理步数。



表 1:LoPA 集成 D2F-Dream 的性能。LoPA 集成的 D2F-Dream 在多个基准测试中实现了保持精度的 TPF 提升。



表 2:LoPA 集成 D2F-Diffucoder 的性能。LoPA 集成的 D2F-DiffuCoder 在代码任务中实现了保持精度的 TPF 提升。

系统吞吐量

在系统层面,LoPA-Dist 展现了优异的扩展能力。在华为 Ascend 910C 平台上,系统实现了 1073.86 tokens/s 的峰值吞吐量。



表 3:LoPA 系统性能。结果表明,我们的系统能够有效地将算法并行性(高 TPF)转化为显著的实际运行时间加速,在专用的 LoPA-Dist-Ascend 引擎上实现了超过 1000 token/s 的平均吞吐量。

总结与展望

LoPA 通过算法与系统的协同设计,成功突破了 dLLM 推理的并行度瓶颈,证明了非自回归模型在保持高性能的同时,能够实现远超传统模型的推理速度。团队表示,未来将进一步探索 LoPA 在 SDAR 等更多 dLLM 架构上的应用,推动高效生成模型的落地。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
捞金失败!2个劣迹艺人下乡商演被举报,官媒发文,后路要断了

捞金失败!2个劣迹艺人下乡商演被举报,官媒发文,后路要断了

不写散文诗
2026-01-24 19:37:52
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
不满阿韦洛亚 !皇马新星决意离队 阿森纳冬窗重点求购

不满阿韦洛亚 !皇马新星决意离队 阿森纳冬窗重点求购

奶盖熊本熊
2026-01-25 06:27:45
白宫发特朗普在格陵兰岛牵企鹅AI图,网友“惊呆”:格陵兰岛没有企鹅啊……

白宫发特朗普在格陵兰岛牵企鹅AI图,网友“惊呆”:格陵兰岛没有企鹅啊……

环球网资讯
2026-01-24 10:02:11
“玄学大师”隋广义等80人被公诉,千亿非法集资骗局进入末路!

“玄学大师”隋广义等80人被公诉,千亿非法集资骗局进入末路!

野马财经
2026-01-24 22:32:17
以为是普通货船?中达 79 号藏 60 导弹管,美军扣船就是赌命

以为是普通货船?中达 79 号藏 60 导弹管,美军扣船就是赌命

流年拾光
2026-01-23 16:10:18
realme为什么没能成为第二个红米?

realme为什么没能成为第二个红米?

差评XPIN
2026-01-25 00:07:48
酸菜或在改变你的大脑?研究发现:“发酵食品”或影响海马体功能

酸菜或在改变你的大脑?研究发现:“发酵食品”或影响海马体功能

橘子约定
2026-01-24 09:54:43
伊朗军官:伊朗领土遭袭将令所有美军基地成合法攻击目标

伊朗军官:伊朗领土遭袭将令所有美军基地成合法攻击目标

财联社
2026-01-22 18:55:13
2-0爆冷!恭喜王欣瑜,连赢2大种子,首进澳网16强,下轮对手确定

2-0爆冷!恭喜王欣瑜,连赢2大种子,首进澳网16强,下轮对手确定

侃球熊弟
2026-01-24 17:15:45
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
1月24日俄乌:欧洲领导人提出新战略,美乌俄举行三方会晤

1月24日俄乌:欧洲领导人提出新战略,美乌俄举行三方会晤

山河路口
2026-01-24 16:35:22
曾荫权:曾千亿救市打爆索罗斯,卸任后却因几张机票,换来20个月牢饭?

曾荫权:曾千亿救市打爆索罗斯,卸任后却因几张机票,换来20个月牢饭?

寄史言志
2026-01-22 19:02:17
杜锋:比赛赢了但有几名队员血洒赛场;休赛期想过引进葛昭宝

杜锋:比赛赢了但有几名队员血洒赛场;休赛期想过引进葛昭宝

懂球帝
2026-01-24 23:45:50
辛纳被38度高温热到浑身抽筋险出局,得益于高温政策死里逃生

辛纳被38度高温热到浑身抽筋险出局,得益于高温政策死里逃生

网球之家
2026-01-24 22:51:27
有料财经:2026年有色金属行业具有“十倍股”增长潜力的上市公司

有料财经:2026年有色金属行业具有“十倍股”增长潜力的上市公司

有料财经
2026-01-24 17:26:50
扎哈罗娃:马克龙涉俄言论“不可容忍”,任何人都不能这样评论俄罗斯

扎哈罗娃:马克龙涉俄言论“不可容忍”,任何人都不能这样评论俄罗斯

环球网资讯
2026-01-23 18:51:22
国补后3999元起!史上最便宜iPhone悄悄上架 连发布会都直接省了

国补后3999元起!史上最便宜iPhone悄悄上架 连发布会都直接省了

小柱解说游戏
2026-01-24 02:11:35
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
最新任命!江苏海洋大学党委书记许峰转任省教育厅副厅长(正厅级)!曾任河海大学党委常委、副校长

最新任命!江苏海洋大学党委书记许峰转任省教育厅副厅长(正厅级)!曾任河海大学党委常委、副校长

海洋知圈
2026-01-24 21:30:01
2026-01-25 08:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12179文章数 142549关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

媒体:冯德莱恩遭遇三连击 她的麻烦才刚刚开始

头条要闻

媒体:冯德莱恩遭遇三连击 她的麻烦才刚刚开始

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

艺术
时尚
健康
旅游
军事航空

艺术要闻

18位西方画家笔下的女人,美得惊艳了时光!

冬天最佳“显瘦”公式:上短+下长

耳石脱落为何让人天旋地转+恶心?

旅游要闻

跟随董宇辉,一起走进好客山东,共赴年味之约!

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版