CVPR 2026 | 20步也能稳住画质，这个扩散加速方法不一样|残差|模态|外推|多项式|新论文|cvpr

CVPR 2026 | 20步也能稳住画质，这个扩散加速方法不一样

2026-04-10 18:40:17　来源: 机器之心Pro

河北举报

分享至

作者介绍：本文的共同第一作者为崔奔雷（阿里巴巴）和何少轩（阿里巴巴实习生、浙江大学）主要研究领域为多模态理解与生成，通讯作者洪海文（阿里巴巴）和赵洲（浙江大学）主要研究领域分别为多模态大语言模型、语音理解生成等方向。

近年来，扩散模型已成为图像、音频、视频等多模态生成的核心技术路线，并在工业界得到广泛应用。但在实际落地中仍存在关键瓶颈：工业级推理预算通常只有 20–30 步，在这一约束下，许多加速方法仍会出现纹理错乱、颜色漂移、轨迹偏离等问题，影响生成质量与稳定性。

这一问题也限制了生成技术在理解侧训练中的大规模应用，而这对于补充安全场景中的高危稀缺样本、构造生产环境下的对抗变异样本至关重要。高危图片和视频往往传播快、危害大，但样本数量有限，因此需要借助生成技术大规模合成相关数据，以提升审核模型的识别能力。

同时，AI 时代用户生成变异样本的成本大幅降低，使内容安全面临更强的对抗压力。因此，需要在管控侧引入生成技术，构造对抗训练样本，提升审核模型的鲁棒性。然而，对于这类大规模工业应用而言，扩散模型过高的推理时延仍然不可接受。如何在有限步数预算下兼顾生成质量与推理效率，已成为工业级扩散落地的核心挑战。

针对这一挑战，阿里安全 AGI 实验室 - 御风大模型团队联合浙江大学提出了一种全新的扩散加速方法 ——TC-Padé（Trajectory-Consistent Padé Approximation）。该方法基于 Padé 逼近构建残差预测框架，在无需训练、即插即用的前提下，实现对扩散采样过程的高效加速，并在低步数设置下依然保持稳定、高质量的生成效果。实验表明，TC-Padé 在图像生成、视频生成和类别条件图像生成等任务上都取得了出色表现。例如，在 FLUX.1-dev 上可实现 2.88× 加速，在 Wan2.1 视频生成模型上可实现 1.72× 加速，同时显著优于已有缓存类加速方法。基于以上加速方法，御风大模型团队得以产出大量高质量冷门风险训练样本，大幅度提升模型对风险的视觉理解能力，赋能百项以上广泛业务场景。

该研究论文已被 CVPR 2026 录用。

论文标题：TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration
论文链接：https://arxiv.org/pdf/2603.02943
Github 地址：https://github.com/Alibaba-YuFeng/TC_Pade

一、研究背景

扩散模型的生成质量虽然已经达到很高水平，但其推理效率始终是落地应用中的核心制约因素。由于扩散采样依赖多步迭代去噪，一个样本通常需要经历数十次甚至上百次网络前向计算，这使得模型在实时交互、批量生成和资源受限场景中面临较高的时延与成本。

为降低这一开销，近年来出现了多类扩散加速方法，其中一类重要思路是特征缓存（feature caching）。这类方法利用相邻时间步之间特征变化较小的性质，减少重复计算，从而实现 “免训练、可插拔” 的推理加速。现有方法主要包括两种路线：

（1）基于复用的方法：直接缓存并复用中间特征；

（2）基于预测的方法：根据历史特征变化趋势预测未来特征。

尽管这些方法在较高采样步数（如 50 步）下能够取得一定加速效果，但在工业场景更常见的 20～30 步低步数采样中，其局限性会明显暴露出来。随着时间步间隔变大，特征之间的相似性快速下降：

（1）复用类方法容易因缓存特征与当前状态不匹配而产生偏差；

（2）多项式外推类方法则容易因误差积累导致轨迹漂移。

如下图所示，在低步数设置下，已有加速方法往往会带来明显的画质下降，而 TC-Padé 能够在实现更高加速比的同时，保持更好的视觉一致性。

图 1 相较于已有缓存加速方法，TC-Padé 在 20 步采样下依然能够保持更稳定的纹理与色彩表现

为何现有方法在低步数下容易失效？低步数采样意味着：相邻推理步之间的时间跨度更大，特征演化不再平滑。这会带来两个直接问题。第一，传统缓存复用方法默认相邻时间步特征 “足够相似”，但在低步数场景下，这一假设很容易被打破，导致缓存信息与当前状态错位，从而影响生成质量。第二，基于泰勒展开的外推方法虽然能够在局部做近似，但泰勒多项式本质上更适合小范围、平滑变化的趋势建模。

当时间间隔增大、特征变化更复杂时，就容易出现外推误差放大、采样轨迹偏移的问题。论文通过 PCA 可视化进一步表明，已有方法在加速采样过程中往往无法保持与原始采样轨迹的一致性，而 TC-Padé 更接近原始轨迹，体现出更强的稳定性。

图 2 不同缓存方法在 20 步采样设置下的轨迹一致性对比，TC-Padé 更接近原始轨迹，体现出更强的稳定性

二、研究方法：TC-Padé 核心创新

针对上述问题，本文提出了 TC-Padé，从 “预测对象”“预测形式” 和 “采样阶段策略” 三个层面重新设计扩散缓存加速框架，核心包括以下两点：

1、创新一：基于） Padé 逼近的轨迹一致性残差预测

与直接预测原始特征不同，TC-Padé 首先将建模对象转向残差表示（residual representation）。残差刻画的是层间特征增量，相较于原始特征通常具有更高的时间连续性和更稳定的变化规律，因此更适合做跨时间步预测。

残差定义如下：

其中，x_{t} l 和 x_{t} r 分别表示时间步 t 下不同层的特征表示，R_{t} l:r 表示对应层间残差。

在此基础上，TC-Padé 使用 Padé 逼近替代传统的泰勒多项式展开。Padé 逼近采用 “分子多项式 / 分母多项式” 的有理函数形式，能够更好地描述非线性变化、渐近行为和阶段切换，因此在低步数、大跨度时间间隔下具有更好的稳定性。其一般形式为：

在本文中，为平衡效果与开销，采用了低阶 Padé 型预测器，对当前残差进行预测：

进一步可恢复当前时刻输出特征：

这一设计避免了直接在高维原始特征空间进行预测，使模型能够更聚焦于结构更稳定的残差动态，从而有效降低低步数采样中的误差累积问题。

2、创新二：面向去噪阶段差异的步感知预测策略

扩散模型在不同采样阶段的动态特性并不相同：早期阶段，噪声高，结构变化剧烈；中期阶段，整体结构逐渐稳定，适合进行轨迹预测；后期阶段，主要进行细节修复与纹理优化。现有方法通常采用统一策略处理整个去噪过程，难以适应不同阶段的变化特点。为此，TC-Padé 提出了一种去噪步感知（step-aware）预测策略，针对不同阶段采用不同的残差更新方式：

其中，T 为总去噪步数。这一策略使 TC-Padé 能够在采样早期避免过度外推，在中期充分发挥 Padé 逼近的优势，并在后期捕捉更细粒度的变化趋势，从而提升整体加速过程的稳定性与生成质量。

3、创新三：自适应轨迹稳定性判别机制

除了预测方式的设计外，TC-Padé 还引入了一个轨迹稳定性指标（Trajectory Stableness Indicator, TSI），用于判断当前时间段是否适合跳过计算、直接使用预测结果。其定义为：

当轨迹变化平稳时，模型可安全地跳过部分计算并采用预测；当轨迹不稳定时，则恢复完整计算，以保证生成质量。这样就实现了在稳定区间尽可能加速，在关键变化区间保留精细计算的自适应推理机制。

图 3 在每个缓存区间内，系统通过轨迹稳定性指标动态判断是执行完整计算还是进行残差预测

三、实验亮点：低步数下依然保持高质量与高速度

（一）图像生成任务：更快的同时保持更高保真度

在文本到图像生成任务中，TC-Padé 在 FLUX.1-dev 上展现出非常突出的效率 — 质量平衡能力。实验结果表明：

（1）TC-Padé（fast）实现 2.88× 加速

（2）在 FID、CLIP Score 等指标上保持与原始模型接近的性能

（3）在 PSNR、SSIM、LPIPS 等保真度指标上明显优于其他缓存类方法

相比之下，已有方法虽然在部分设置下可以进一步压缩 FLOPs，但往往伴随显著的画质下降，甚至出现无法接受的图像退化。TC-Padé 则在较高加速比下依然能够保持良好的纹理、结构与语义一致性。

表 1 方法在实现高达 2.88× 加速的同时，依然保持高质量图像生成效果

（二）视频生成任务：在时序生成中同样有效

视频生成对一致性要求更高，任何预测偏差都可能在时间维度被进一步放大。即便如此，TC-Padé 仍在 Wan2.1-1.3B 视频生成模型上取得了优异结果：

（1）1.72× 推理加速，1.74× FLOPs 降低

（2）VBench-2.0 总分仅较原始 20 步基线小幅下降

（3）在 PSNR、SSIM、LPIPS 等指标上显著优于泰勒预测类方法

这说明 TC-Padé 不仅适用于静态图像生成，也能够较好适配视频场景中的复杂时空动态。

表 2 在视频生成任务中的效果对比。相较于其他方法，TC-Padé 在保证视频内容稳定性的同时实现了更高效率

（三）类别条件图像生成：兼顾样本保真度与多样性

在 DiT-XL/2 的 ImageNet 256×256 类别条件图像生成任务中，TC-Padé 同样表现稳定：

（1）1.46× 时延加速，1.64× FLOPs 降低

（2）FID 优于对比的缓存加速方法

（3）Precision 与 Recall 保持更好平衡

这表明 TC-Padé 不仅适用于文本条件生成任务，也能在标准视觉生成基准上保持较强竞争力。

表 3 TC-Padé 在 DiT-XL/2 上的定量结果，展示了其在类别条件图像生成任务中的稳定泛化能力

（四）消融实验：关键设计带来稳定收益

论文进一步通过消融实验验证了 TC-Padé 各组成模块的有效性。

1、残差缓存粒度分析：实验比较了不同缓存粒度，包括 double-stream、single-stream 和 entire block。结果显示，在整个 block 粒度上进行残差缓存与预测时效果最佳，能够在速度和质量之间取得更优平衡。

2、稳定性阈值分析：通过调整轨迹稳定性阈值 θ，可以灵活控制加速比与质量之间的权衡。实验显示，θ=0.7 时可获得最高 2.88× 加速，而 θ=1.0 则在质量和效率之间表现出更均衡的综合效果。

3、与量化技术兼容：TC-Padé 还具有良好的工程兼容性，可与量化等其他推理优化技术叠加使用。实验显示，在结合量化后，其整体时延下降可进一步扩大，体现出良好的实际部署潜力。

四、总结

TC-Padé 针对扩散模型低步数采样中 “加速容易、稳定很难” 的核心问题，提出了一套兼顾理论与实践的新方案。通过基于 Padé 逼近的残差预测、步感知预测策略以及轨迹稳定性自适应判别机制，该方法在无需训练的条件下显著提升了扩散推理效率，并在多个任务上保持了高质量生成效果。对于追求低延迟、高吞吐、可落地部署的扩散模型应用而言，TC-Padé 提供了一种具有现实价值的高效加速思路，也为未来扩散模型推理优化打开了新的方向。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.