网易首页 > 网易号 > 正文 申请入驻

上交联合UCSD突破LLM推理瓶颈,模型代码全开源

0
分享至



在大语言模型(LLM)落地应用中,推理速度始终是制约效率的核心瓶颈。传统自回归(AR)解码虽能保证生成质量,却需逐 token 串行计算,速度极为缓慢;扩散型 LLM(dLLMs)虽支持并行解码,却面临训练成本高昂、质量下降及 KV 缓存兼容问题;投机解码(Speculative Decoding)则需额外引入草稿模型,系统复杂度大增。





Jacobi Forcing Model 与 AR LLM 推理速度对比示意

近期,来自 UCSD Hao AI Lab 和上海交大 Deng Lab 的团队提出了一种突破性解决方案 ——Jacobi Forcing,该方案无需重构模型架构,即可将标准 AR 模型转化为原生因果并行解码器,在编码、数学等任务中实现最高 4 倍 wall-clock 提速和 4.5 倍 tokens-per-forward 提升,同时保持接近 AR 模型的生成质量,为 LLM 高效推理开辟了新路径。



  • 论文地址: https://arxiv.org/pdf/2512.14681
  • 代码地址:https://github.com/hao-ai-lab/JacobiForcing
  • 模型仓库:http://huggingface.co/JacobiForcing

Jacobi Forcing 核心优势:

破解并行解码的 "三元悖论"

Jacobi Forcing 的创新之处在于打破了 "低代价、高速度、高质量" 的不可能三角,其核心优势体现在三大维度:

1. 原生因果架构,部署与训练成本低:

不同于 dLLMs 的双向注意力机制,Jacobi Forcing 保留了 AR 模型的因果注意力结构,完美适配现有 KV 缓存复用机制和 AR 优化内核,可作为现有 AR 模型的 "即插即用" 替代方案,极大降低部署与训练成本。

2. 高效并行解码,速度提升显著:

通过在模型自己生成的 Jacobi 解码轨迹做渐进蒸馏训练,模型能够快速在每轮前向传播中并行更新多个 token。结合多块并行解码(Multiblock decoding)和拒绝回收(Rejection recycling)策略,可同时维护多个解码块,缓存高质量 n-gram 片段重复利用,在编码任务中实现 181.8 TPS 的生成速度,远超 AR 基线的 39.8 TPS。

3. 质量损失极小,任务表现优异:

针对 AR 到扩散模型的预训练 - 后训练目标不匹配问题,Jacobi Forcing 设计了使用模型自己生成的数据做学习,通过渐进式一致性蒸馏损失和 AR 损失的联合优化,让模型在噪声环境下仍能生成贴近 AR 分布的高质量结果,学习高效且保持了 AR 模型的高质量特性。在 HumanEval 编码基准中,以 83.5% 的准确率实现 4 倍提速;在 GSM8K 数学任务中,91.4% 的解题率接近 AR 基线,速度提升 3.7 倍。



Jacobi Forcing 与 dllm 在速度,质量与训练成本上的对比图

Jacobi Forcing 技术路线:

从训练到推理的全链路优化


Jacobi Forcing 以因果并行解码为核心目标,基于 Jacobi 解码框架进行深度优化,通过训练机制创新与推理策略升级的全链路设计,在保留 AR 模型因果骨干与 KV 缓存兼容性的同时,实现高效并行解码。

其技术路线具体细节如下:

1. 技术基础:基于 Jacobi 解码的因果并行框架

Jacobi 解码是一种因果并行解码过程,核心逻辑是:在保留 AR 模型因果注意力机制的前提下,对一个块内的所有 token 进行并行迭代更新,直到所有 token 与贪心 AR 输出完全匹配(即达到 “定点” 状态)。这一过程形成了一条 “并行精炼轨迹”,既维持了因果依赖关系,又突破了逐 token 串行的限制。 此前的相关工作(如 CLLMs)已验证:通过在 Jacobi 轨迹上微调模型,可缩短迭代轨迹、提升解码速度,但存在一个关键局限:在大 block size 下由于上文噪声过多无法并行解码出更多的 token 数。Jacobi Forcing 在此基础上进一步推进,核心突破是:训练模型在含噪声的上文下,仍能生成贴近 AR 分布的高质量草稿,同时通过推理策略优化,最大化并行效率。

2. 训练阶段优化:噪声感知的渐进式学习

Jacobi Forcing 首先利用自回归语言模型对提示词(prompt)集合执行 Jacobi 解码,采集从噪声块到干净定点的完整 Jacobi 解码轨迹。为使模型具备应对高噪声上文场景下的并行解码能力,Jacobi Forcing 设计渐进式噪声调度策略,以学习噪声块到干净定点的映射关系:具体而言,先为采集轨迹中的中间未收敛噪声块赋予噪声等级(噪声等级越高,与干净定点状态的偏差越大),再按 “低噪声→高噪声” 的渐进式顺序对噪声块进行打包,构建训练序列,从而提升去噪任务的可学习性;其核心训练目标为将打包后的含噪声训练序列映射至全干净定点序列。为实现高效训练,Jacobi Forcing 进一步设计噪声感知注意力掩码,该掩码支持通过单次模型前向传播即可完成上述映射关系的学习。此外,为平衡并行解码效率与自回归(AR)生成质量,方案设计了加权双项联合损失函数:其一为渐进式一致性蒸馏损失,用于引导模型掌握任意噪声等级块到干净定点块的映射;其二为 AR 损失,确保模型生成质量与原始自回归模型保持一致。



训练数据打包与噪声感知注意力掩码图解

3. 推理阶段优化:高效并行解码策略

训练后的 Jacobi Forcing 模型仍是标准 AR checkpoint,但通过针对性的推理策略,可最大化并行解码效率,核心包括 “高质量草稿利用 + 多块调度” 两大模块。

1.高质量草稿挖掘与复用:训练后模型的 Jacobi 解码轨迹呈现显著特性:轨迹中未收敛点包含大量高质量 n-gram,这些 n-gram 虽可能位置暂错,但内容与最终 AR 定点输出完全一致,且在迭代中保持稳定。基于此特性,推理时会缓存 n-gram 并在后续迭代中直接将这些缓存的 n-gram 作为候选草稿,减少迭代次数(见下图轨迹可视化:红色标注为可复用的高质量 n-gram)。



高质量草稿复用图解

2.多块并行调度: 同时维护 K 个块(实验中 K=2 为最优),分为 “真实活跃块” 和 “伪活跃块”; 真实活跃块中的 token 会被验证并提交到 KV 缓存,成为后续块的因果前缀;伪活跃块会基于当前前缀进行 Jacobi 迭代更新,但暂不提交到 KV 缓存; 当真实活跃块收敛(所有 token 匹配定点),从伪活跃块中选择一个晋升为真实活跃块,基于更新后的完整前缀重新验证其所有 token。



推理阶段优化策略图解

实测表现:优于主流并行解码方案

在 A100 GPU 上的 7B 模型基准测试中,Jacobi Forcing 超越 dLLMs、投机解码等主流方案,展现出更优的速度 - 质量 trade-off。



Jacobi Forcing 模型性能展示

无论是编码、数学等专业任务,还是通用文本生成场景,Jacobi Forcing 都能在保证结果可靠性的前提下,将推理速度提升一个量级,尤其适合对延迟敏感的工业级 LLM 应用。

Jacobi Forcing 的出现,不仅解决了 LLM 推理的效率瓶颈,更重新定义了因果模型的并行化可能。随着大模型应用向低延迟、高并发场景渗透,这种兼顾兼容性、高性能和高质量的解码方案,有望成为工业级 LLM 部署的首选技术,推动 AI 应用效率迈入新阶段。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3月17日重庆新桥医院 广西女子求医挂不上号 医生下班蹲地看片暖哭

3月17日重庆新桥医院 广西女子求医挂不上号 医生下班蹲地看片暖哭

观星赏月
2026-03-26 05:17:03
服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

Magic宠物社
2026-03-25 19:11:59
极氪,不慌了

极氪,不慌了

autocarmax
2026-03-25 20:47:24
初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

娱乐圈笔娱君
2026-03-24 16:08:36
炸毁美雷达和直升机后,伊拉克官方下令:民兵可放开打美伊

炸毁美雷达和直升机后,伊拉克官方下令:民兵可放开打美伊

阿龙聊军事
2026-03-25 17:43:37
高考录取线TOP100高校,排名发布!

高考录取线TOP100高校,排名发布!

麦可思研究
2026-03-25 09:51:31
“霍尔木兹决战”,不打了

“霍尔木兹决战”,不打了

中国新闻周刊
2026-03-25 18:43:08
《浪姐7》糊咖扎堆,大牌只有两位,3人成流量担当,4人有黑马相

《浪姐7》糊咖扎堆,大牌只有两位,3人成流量担当,4人有黑马相

八卦南风
2026-03-25 17:32:20
张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

哲学船
2026-03-25 00:44:19
36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

观威海
2026-03-26 09:19:03
通用丰田等联名致函:敦促美国继续限制进口中国车

通用丰田等联名致函:敦促美国继续限制进口中国车

快科技
2026-03-24 11:18:08
欧尔班的好日子到头了

欧尔班的好日子到头了

民间胡扯老哥
2026-03-25 05:22:48
马布里,48岁,刚领着一位中国姑娘去领了证。

马布里,48岁,刚领着一位中国姑娘去领了证。

南权先生
2026-02-28 15:50:16
曝张雪峰去年3月已立遗嘱,遗产由女儿单独继承,他真的很爱女儿

曝张雪峰去年3月已立遗嘱,遗产由女儿单独继承,他真的很爱女儿

观鱼听雨
2026-03-26 10:43:02
特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

安安说
2026-03-26 11:41:14
高铁直达!比起昆明和大理,我更爱这个被严重低估的云南小城!

高铁直达!比起昆明和大理,我更爱这个被严重低估的云南小城!

匿旅
2026-03-25 23:05:23
不可思议,德国人急了,日本急了,美国也急了,中国这下赢麻了。

不可思议,德国人急了,日本急了,美国也急了,中国这下赢麻了。

阿七说史
2026-03-09 16:01:03
2.4亿成全你!詹姆斯降薪2000万?双詹合体咋办!

2.4亿成全你!詹姆斯降薪2000万?双詹合体咋办!

柚子说球
2026-03-25 11:44:10
内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

老马拉车莫少装
2026-03-22 23:24:28
不吹不黑!iOS 26.4正式版体验,老iPhone直接封神

不吹不黑!iOS 26.4正式版体验,老iPhone直接封神

叮当当科技
2026-03-26 01:51:54
2026-03-26 14:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12601文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
手机
时尚
亲子
教育

转头就晕的耳石症,能开车上班吗?

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

2026年了,最好看的还是“这件针织”!

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

教育要闻

2027届注意:暑期实习=秋招通行证,错过等一年

无障碍浏览 进入关怀版