网易首页 > 网易号 > 正文 申请入驻

上交联合UCSD突破LLM推理瓶颈,模型代码全开源

0
分享至

来源:市场资讯

(来源:机器之心Pro)


在大语言模型(LLM)落地应用中,推理速度始终是制约效率的核心瓶颈。传统自回归(AR)解码虽能保证生成质量,却需逐 token 串行计算,速度极为缓慢;扩散型 LLM(dLLMs)虽支持并行解码,却面临训练成本高昂、质量下降及 KV 缓存兼容问题;投机解码(Speculative Decoding)则需额外引入草稿模型,系统复杂度大增。



Jacobi Forcing Model 与 AR LLM 推理速度对比示意

近期,来自 UCSD Hao AI Lab 和上海交大 Deng Lab 的团队提出了一种突破性解决方案 ——Jacobi Forcing,该方案无需重构模型架构,即可将标准 AR 模型转化为原生因果并行解码器,在编码、数学等任务中实现最高 4 倍 wall-clock 提速和 4.5 倍 tokens-per-forward 提升,同时保持接近 AR 模型的生成质量,为 LLM 高效推理开辟了新路径。


Jacobi Forcing 核心优势:

破解并行解码的 "三元悖论"

Jacobi Forcing 的创新之处在于打破了 "低代价、高速度、高质量" 的不可能三角,其核心优势体现在三大维度:

1. 原生因果架构,部署与训练成本低:

不同于 dLLMs 的双向注意力机制,Jacobi Forcing 保留了 AR 模型的因果注意力结构,完美适配现有 KV 缓存复用机制和 AR 优化内核,可作为现有 AR 模型的 "即插即用" 替代方案,极大降低部署与训练成本。

2. 高效并行解码,速度提升显著:

通过在模型自己生成的 Jacobi 解码轨迹做渐进蒸馏训练,模型能够快速在每轮前向传播中并行更新多个 token。结合多块并行解码(Multiblock decoding)和拒绝回收(Rejection recycling)策略,可同时维护多个解码块,缓存高质量 n-gram 片段重复利用,在编码任务中实现 181.8 TPS 的生成速度,远超 AR 基线的 39.8 TPS。

3. 质量损失极小,任务表现优异:

针对 AR 到扩散模型的预训练 - 后训练目标不匹配问题,Jacobi Forcing 设计了使用模型自己生成的数据做学习,通过渐进式一致性蒸馏损失和 AR 损失的联合优化,让模型在噪声环境下仍能生成贴近 AR 分布的高质量结果,学习高效且保持了 AR 模型的高质量特性。在 HumanEval 编码基准中,以 83.5% 的准确率实现 4 倍提速;在 GSM8K 数学任务中,91.4% 的解题率接近 AR 基线,速度提升 3.7 倍。


Jacobi Forcing 与 dllm 在速度,质量与训练成本上的对比图

Jacobi Forcing 技术路线:

从训练到推理的全链路优化

Jacobi Forcing 以因果并行解码为核心目标,基于 Jacobi 解码框架进行深度优化,通过训练机制创新与推理策略升级的全链路设计,在保留 AR 模型因果骨干与 KV 缓存兼容性的同时,实现高效并行解码。

其技术路线具体细节如下:

1. 技术基础:基于 Jacobi 解码的因果并行框架

Jacobi 解码是一种因果并行解码过程,核心逻辑是:在保留 AR 模型因果注意力机制的前提下,对一个块内的所有 token 进行并行迭代更新,直到所有 token 与贪心 AR 输出完全匹配(即达到 “定点” 状态)。这一过程形成了一条 “并行精炼轨迹”,既维持了因果依赖关系,又突破了逐 token 串行的限制。 此前的相关工作(如 CLLMs)已验证:通过在 Jacobi 轨迹上微调模型,可缩短迭代轨迹、提升解码速度,但存在一个关键局限:在大 block size 下由于上文噪声过多无法并行解码出更多的 token 数。Jacobi Forcing 在此基础上进一步推进,核心突破是:训练模型在含噪声的上文下,仍能生成贴近 AR 分布的高质量草稿,同时通过推理策略优化,最大化并行效率。

2. 训练阶段优化:噪声感知的渐进式学习

Jacobi Forcing 首先利用自回归语言模型对提示词(prompt)集合执行 Jacobi 解码,采集从噪声块到干净定点的完整 Jacobi 解码轨迹。为使模型具备应对高噪声上文场景下的并行解码能力,Jacobi Forcing 设计渐进式噪声调度策略,以学习噪声块到干净定点的映射关系:具体而言,先为采集轨迹中的中间未收敛噪声块赋予噪声等级(噪声等级越高,与干净定点状态的偏差越大),再按 “低噪声→高噪声” 的渐进式顺序对噪声块进行打包,构建训练序列,从而提升去噪任务的可学习性;其核心训练目标为将打包后的含噪声训练序列映射至全干净定点序列。为实现高效训练,Jacobi Forcing 进一步设计噪声感知注意力掩码,该掩码支持通过单次模型前向传播即可完成上述映射关系的学习。此外,为平衡并行解码效率与自回归(AR)生成质量,方案设计了加权双项联合损失函数:其一为渐进式一致性蒸馏损失,用于引导模型掌握任意噪声等级块到干净定点块的映射;其二为 AR 损失,确保模型生成质量与原始自回归模型保持一致。


训练数据打包与噪声感知注意力掩码图解

3. 推理阶段优化:高效并行解码策略

训练后的 Jacobi Forcing 模型仍是标准 AR checkpoint,但通过针对性的推理策略,可最大化并行解码效率,核心包括 “高质量草稿利用 + 多块调度” 两大模块。

1.高质量草稿挖掘与复用:训练后模型的 Jacobi 解码轨迹呈现显著特性:轨迹中未收敛点包含大量高质量 n-gram,这些 n-gram 虽可能位置暂错,但内容与最终 AR 定点输出完全一致,且在迭代中保持稳定。基于此特性,推理时会缓存 n-gram 并在后续迭代中直接将这些缓存的 n-gram 作为候选草稿,减少迭代次数(见下图轨迹可视化:红色标注为可复用的高质量 n-gram)。


高质量草稿复用图解

2.多块并行调度: 同时维护 K 个块(实验中 K=2 为最优),分为 “真实活跃块” 和 “伪活跃块”; 真实活跃块中的 token 会被验证并提交到 KV 缓存,成为后续块的因果前缀;伪活跃块会基于当前前缀进行 Jacobi 迭代更新,但暂不提交到 KV 缓存; 当真实活跃块收敛(所有 token 匹配定点),从伪活跃块中选择一个晋升为真实活跃块,基于更新后的完整前缀重新验证其所有 token。


推理阶段优化策略图解

实测表现:优于主流并行解码方案

在 A100 GPU 上的 7B 模型基准测试中,Jacobi Forcing 超越 dLLMs、投机解码等主流方案,展现出更优的速度 - 质量 trade-off。


Jacobi Forcing 模型性能展示

无论是编码、数学等专业任务,还是通用文本生成场景,Jacobi Forcing 都能在保证结果可靠性的前提下,将推理速度提升一个量级,尤其适合对延迟敏感的工业级 LLM 应用。

Jacobi Forcing 的出现,不仅解决了 LLM 推理的效率瓶颈,更重新定义了因果模型的并行化可能。随着大模型应用向低延迟、高并发场景渗透,这种兼顾兼容性、高性能和高质量的解码方案,有望成为工业级 LLM 部署的首选技术,推动 AI 应用效率迈入新阶段。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
成龙家产实锤:房祖名拿生活费,吴卓林得信托基金,偏心却也周全

成龙家产实锤:房祖名拿生活费,吴卓林得信托基金,偏心却也周全

老吴教育课堂
2026-01-06 03:03:10
新年大案,丧事喜办

新年大案,丧事喜办

我是历史其实挺有趣
2026-01-05 16:53:53
韩国总统李在明抵达上海继续中国之行

韩国总统李在明抵达上海继续中国之行

澎湃新闻
2026-01-06 18:04:09
闫学晶遭遇现世报!代言品牌疑解约,评论区沦陷,春晚节目或不保

闫学晶遭遇现世报!代言品牌疑解约,评论区沦陷,春晚节目或不保

银河史记
2026-01-06 16:09:28
定了!国乒亮相,马琳王皓职位曝光,教练组将官宣,王励勤妥协了

定了!国乒亮相,马琳王皓职位曝光,教练组将官宣,王励勤妥协了

二疯说球
2026-01-06 08:54:43
李在明送给中国两件礼物,这就像两颗子弹射向了高市早苗

李在明送给中国两件礼物,这就像两颗子弹射向了高市早苗

历史有些冷
2026-01-05 20:10:03
早上“i茅台”上刚买的1499元茅台,转手加价50元卖了

早上“i茅台”上刚买的1499元茅台,转手加价50元卖了

每日经济新闻
2026-01-05 22:30:29
停业风波后,保时捷中国宣布终止郑州中原店经销授权,车主购买的“4S店自营套餐”面临失效

停业风波后,保时捷中国宣布终止郑州中原店经销授权,车主购买的“4S店自营套餐”面临失效

极目新闻
2026-01-05 17:20:57
2025年65“虎”落马!中纪委机关报点名5个正部级干部

2025年65“虎”落马!中纪委机关报点名5个正部级干部

上观新闻
2026-01-06 17:30:13
梅德韦杰夫:德国总理也可能遭“绑架”

梅德韦杰夫:德国总理也可能遭“绑架”

环球时报国际
2026-01-05 22:03:17
离谱!上海高架上,网约车司机开着智驾睡大觉,享道出行回应

离谱!上海高架上,网约车司机开着智驾睡大觉,享道出行回应

新民晚报
2026-01-06 14:47:22
联合国还有什么意义?安理会无视中方发言后,中国记者灵魂提问

联合国还有什么意义?安理会无视中方发言后,中国记者灵魂提问

策前论
2026-01-06 18:03:14
时也命也,马杜罗距离安全仅差数秒,关上钢门后,美军将被全歼?

时也命也,马杜罗距离安全仅差数秒,关上钢门后,美军将被全歼?

王鶔吃吃喝喝
2026-01-04 23:24:52
“福建20岁女孩流落柬埔寨”最新进展:她和家里通话问“何时来接我”,母亲已出发去接人

“福建20岁女孩流落柬埔寨”最新进展:她和家里通话问“何时来接我”,母亲已出发去接人

极目新闻
2026-01-06 12:58:19
美论坛直言:不管中国承不承认,中国其实已经输掉了这场关税战?

美论坛直言:不管中国承不承认,中国其实已经输掉了这场关税战?

顾史
2026-01-05 18:35:07
西工大立大功!全世界都没想到,中国技术居然再次“弯道超车”

西工大立大功!全世界都没想到,中国技术居然再次“弯道超车”

八斗小先生
2026-01-05 10:39:31
闫学晶哭穷风波再升级!收入资产被扒,牵连搭档冯巩,近况太意外

闫学晶哭穷风波再升级!收入资产被扒,牵连搭档冯巩,近况太意外

寒士之言本尊
2026-01-05 18:22:13
62岁奶奶:和老伴退休金共8千,连吃猪肉都要看人脸色,应该吗?

62岁奶奶:和老伴退休金共8千,连吃猪肉都要看人脸色,应该吗?

烙任情感
2026-01-05 16:27:08
自带的茅台全被调包!上海男子饭店宴请,一摸酒瓶:温度不对

自带的茅台全被调包!上海男子饭店宴请,一摸酒瓶:温度不对

大象新闻
2026-01-06 07:57:03
爆发冲突,有人受伤!深圳知名商场连夜发布说明!“警察到场协调”

爆发冲突,有人受伤!深圳知名商场连夜发布说明!“警察到场协调”

南方都市报
2026-01-06 09:44:55
2026-01-06 19:00:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1931224文章数 5177关注度
往期回顾 全部

科技要闻

速看!黄仁勋万字实录:甩出"物理AI"王牌

头条要闻

美媒称委临时总统曾提马杜罗有条件下台提议 遭其否认

头条要闻

美媒称委临时总统曾提马杜罗有条件下台提议 遭其否认

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

2026年央视春晚彩排照曝光!

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

态度原创

亲子
旅游
时尚
游戏
军事航空

亲子要闻

一声“啧”你是生死难料

旅游要闻

神农山:凭过路费票根,免景区门票(附游玩攻略)!

推广|| 她们新年状态大开挂?原来悄悄做了这笔“美丽投资”

不笑就死 恐怖游戏《don't stop smiling》上架steam

军事要闻

美称对“占领”委内瑞拉保留选择权

无障碍浏览 进入关怀版