网易首页 > 网易号 > 正文 申请入驻

ACM MM 2025 | 小红书AIGC团队提出风格迁移加速算法STD

0
分享至

本论文主要作者来自小红书 AIGC 团队(Dynamic-X-Lab),Dynamic‑X‑LAB 是一个专注于 AIGC 领域的研究团队,致力于推动姿态驱动的人像生成与视频动画技术。他们以高质量、高可控性的生成模型为核心,围绕文生图(t2i)、图像生成(i2i)、图像转视频(i2v)和风格迁移加速等方向展开研究,并通过完整的开源方案分享给开发者与研究者社区。

基于一致性模型(Consistency Models, CMs)的轨迹蒸馏(Trajectory Distillation)为加速扩散模型提供了一个有效框架,通过减少推理步骤来提升效率。然而,现有的一致性模型在风格化任务中会削弱风格相似性,并损害美学质量 —— 尤其是在处理从部分加噪输入开始去噪的图像到图像(image-to-image)或视频到视频(video-to-video)变换任务时问题尤为明显。

这一核心问题源于当前方法要求学生模型的概率流常微分方程(PF-ODE)轨迹在初始步骤与其不完美的教师模型对齐。这种仅限初始步骤对齐的策略无法保证整个轨迹的一致性,从而影响了生成结果的整体质量。

为了解决这一问题,文章提出了单轨迹蒸馏(Single Trajectory Distillation,STD),一个从部分噪声状态出发的训练框架。

为了抵消 STD 引入的额外时间开销,文章设计了一个轨迹状态库(Trajectory Bank),预先存储教师模型 PF-ODE 轨迹中的中间状态,从而有效减轻学生模型训练时的计算负担。这一机制确保了 STD 在训练效率上可与传统一致性模型保持一致。

此外,该工作还引入了一个非对称对抗损失(Asymmetric Adversarial Loss),可显著增强生成结果的风格一致性和感知质量。

在图像与视频风格化任务上的大量实验证明,STD 在风格相似性和美学评估方面均优于现有的加速扩散模型。

  • 论文地址:https://arxiv.org/abs/2412.18945
  • 项目主页:https://single-trajectory-distillation.github.io/
  • 项目 Github: https://github.com/dynamic-X-LAB/Single-Trajectory-Distillation
  • 项目模型:https://huggingface.co/Single-Trajectory-Distillation/Single-Trajectory-Distillation
  • 关键词:AIGC、视频风格迁移、扩散模型加速

STD 与其他方法的差异

如图 2 所示,(a) 中的传统一致性蒸馏方法(Other CMs)从 x_0 加噪得到不同的 x_t,再拟合多条 PF-ODE 轨迹的初始部分,存在轨迹不对齐问题。而在 (b) 中,文章提出的单轨迹蒸馏(Single-Trajectory Distillation, STD)方法则从一个固定的加噪状态 x_(τ_η ) 出发,通过教师模型完整地去噪出多个 x_t,并以此为训练目标,使学生模型在一条完整轨迹上实现自一致性。这种策略有效解决了训练 - 推理路径不一致的问题,提升了整体生成质量。

为了避免从 x_(τ_η ) 开始反复推理带来的训练开销,进一步提出了轨迹缓存库(trajectory bank),用于预存教师模型轨迹中的中间状态,从而保持训练效率不变。同时,引入了非对称对抗损失(asymmetric adversarial loss),对不同噪声级别下的生成图与真实图进行对比,有效提升图像饱和度,减少纹理噪声。

前置理论

【扩散模型】

【轨迹】

【基于部分加噪的编辑】

方法介绍

【单轨迹蒸馏理论】

在扩散模型中,理想情况下反向去噪轨迹应与前向扩散轨迹严格互逆。但实际中,不完美去噪模型会导致:

针对图像 / 视频风格化任务中固定起点 η 的需求,提出基于一致性模型仅在固定起点的单条轨迹上做一致性蒸馏,具体包含两个关键点:

根据第二部分对轨迹的定义,可以写出单轨迹蒸馏损失函数的表达式如下:

为降低蒸馏误差,约束学生模型学习的时间步 s 接近教师步 t:

其中 γ 表示控制目标时间步 s 的取值下限比例因子通过缩短 t 与 s 的距离,可以减小误差上界,同时保留随机性提升模型性能。

【轨迹状态库】

【非对称对抗损失】

其中 F 表示 DINO-v2 模型,D_ψ 表示判别器,ψ 表示判别器的可学习参数,x_r 指对 x_0 加噪 r 步后获得的样本。

实验结果

  • 训练集:Open-Sora-Plan-v1.0.0
  • 测试集:wikiArt(10 张) + COCO(100 张) + 自定义 100 张图像 / 12 个视频及 15 种风格图像的测试集
  • 评估指标:风格相似度(CSD)、LAION 美学评分和时间一致性(Warping Error)指标
  • 对比方法:LCM / TCD / PCM / TDD / Hyper-SD / SDXL-Lightning / MCM

【对比实验】

STD 与当前多种加速方法在 8 步、6 步、4 步下进行对比,在风格相似性和美学分数上达到 SOTA 水平。其中图像生成在 NFE=8 时 CSD 分数比 Hyper-SD 提升↑0.032;视频生成的 Warping Error 达到 0.166,显著优于 MCM 的 0.257。从可视化(图 4)中可以看出 STD 方法的风格质量和图像质量显著更高;在不同 CFG 的定量指标折线图中(图 5)也表现出了更优水平。

视频效果:

【消融实验】

文章对单轨迹蒸馏方法、轨迹状态库以及非对称对抗损失函数做了消融实验(表 2),当使用轨迹状态库时,抵消了 STD 带来的额外 3.8 倍训练耗时,而 STD 方法和非对称对抗损失函数都显著提升了风格相似性分以及美学分。

其他重要参数的取值和特性消融实验:

STD 和非对称对抗损失强度(Fig 6):强度越大,细节和噪点越少,对比度越强,画质越好。

不同的噪声起点(Fig 8):η 越大,风格化程度越大,但是内容相关性越弱。

不同的目标时间步 s 的取值下限比例因子(Fig 10):更大的 γ 值带来更低噪声,更强的非对称对抗损失产生更高对比度;γ=0.7 在风格保持与细节呈现间取得最佳平衡。

非对称对抗损失目标时间步位置(Table 3、Fig 9):当 r

【可扩展性试验】

文章进一步讨论了 STD 方法的适用范围,从 STD 的理论推导上看,该方法可用于其他任何 “基于部分噪声的图像 / 视频编辑” 任务,如 inpainting 等。为了验证猜想,文章展示了一组使用 STD 和其他加速方法用于 inpainting 的对比图。如图 7,相比 LCM 和 TCD 方法,STD 的 inpainting 效果更加自然。

结语

文章针对基于一致性模型的图像视频风格迁移加速方法,重点优化了风格相似性与美学质量。研究发现前向 SDE 轨迹中不同噪声强度会导致 PF-ODE 轨迹产生差异,据此提出基于特定噪声强度的单轨迹蒸馏方法(STD),有效解决了训练与推理轨迹不对齐问题。为降低 STD 方法的训练成本,创新性引入轨迹库机制,并采用非对称对抗损失提升生成质量。对比实验验证了本方法在风格保持与美学表现上的优越性,系统消融实验证实了各模块的有效性。该方法可扩展至部分噪声编辑任务,文章已探索了基于 STD 的图像修复应用,为后续相关工作提供新思路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5月14日,人社部公布2026年养老金调整通知了吗?来看看最新动态

5月14日,人社部公布2026年养老金调整通知了吗?来看看最新动态

社保小达人
2026-05-14 11:48:06
看完《低智商犯罪》24集结局,我心情复杂意犹未尽,写下这篇文章

看完《低智商犯罪》24集结局,我心情复杂意犹未尽,写下这篇文章

八卦南风
2026-05-14 13:28:54
上海中环一段道路因车速109码被记6分!司机哭诉防不胜防,引热议

上海中环一段道路因车速109码被记6分!司机哭诉防不胜防,引热议

火山詩话
2026-05-14 06:11:38
用户向豆包咨询机票退票手续费,导致损失600元,并向法院起诉豆包运营公司,豆包相关负责人:案例已处置,涉及金融、退款等会有风险提示

用户向豆包咨询机票退票手续费,导致损失600元,并向法院起诉豆包运营公司,豆包相关负责人:案例已处置,涉及金融、退款等会有风险提示

极目新闻
2026-05-14 16:30:33
起底日本抹黑中国流水线:利用AI批量生成“中国人不文明”等内容!自2015年以来,已投入超560亿日元预算对华展开舆论抹黑

起底日本抹黑中国流水线:利用AI批量生成“中国人不文明”等内容!自2015年以来,已投入超560亿日元预算对华展开舆论抹黑

每日经济新闻
2026-05-14 15:09:59
中国领空不再免费!外国飞机过华须审批,日本最慌:怕被卡脖子

中国领空不再免费!外国飞机过华须审批,日本最慌:怕被卡脖子

闻识
2026-05-14 13:25:29
急急急!特朗普第二次访华开局不利,打破一个惯例,普京:将受益

急急急!特朗普第二次访华开局不利,打破一个惯例,普京:将受益

田柳
2026-05-15 09:00:06
收手吧!“资本家的丑孩子”,没颜值没本事,就别出来祸害观众了

收手吧!“资本家的丑孩子”,没颜值没本事,就别出来祸害观众了

究竟谁主沉浮
2026-03-24 02:59:41
金曲奖来了,看完提名名单,我要说:华语乐坛完了!

金曲奖来了,看完提名名单,我要说:华语乐坛完了!

八卦南风
2026-05-13 18:27:59
姆巴佩:阿韦洛亚说我是队内第四前锋

姆巴佩:阿韦洛亚说我是队内第四前锋

懂球帝
2026-05-15 06:00:41
一架俄罗斯专机深夜直飞中国,抢先特朗普半天,先一步抵达北京

一架俄罗斯专机深夜直飞中国,抢先特朗普半天,先一步抵达北京

装满幸福
2026-05-15 07:22:51
俄军前线失控,指挥瘫痪、军头林立,1917年式危机阴影重现。

俄军前线失控,指挥瘫痪、军头林立,1917年式危机阴影重现。

高博新视野
2026-05-13 07:30:17
“吃20个饺子用8张餐巾纸” 饺子店老板发视频吐槽被指格局太小

“吃20个饺子用8张餐巾纸” 饺子店老板发视频吐槽被指格局太小

闪电新闻
2026-05-14 09:58:40
你见过多少赌博做局内幕?网友:全是精心套路,根本赢不了

你见过多少赌博做局内幕?网友:全是精心套路,根本赢不了

另子维爱读史
2026-05-13 07:43:50
哈登96胜无冠历史第二,距马龙仅差2胜,36岁还在冲

哈登96胜无冠历史第二,距马龙仅差2胜,36岁还在冲

林子说事
2026-05-14 12:49:18
现货白银日内大跌5%

现货白银日内大跌5%

财联社
2026-05-15 04:39:08
采访两位年薪60万(字节2-2、阿里P7)女生,房子、婚姻、被裁

采访两位年薪60万(字节2-2、阿里P7)女生,房子、婚姻、被裁

蚂蚁大喇叭
2026-04-14 11:21:18
得罪杨坤20年没工作,靠张嘉益翻身,今凭《主角》杀回央视

得罪杨坤20年没工作,靠张嘉益翻身,今凭《主角》杀回央视

阿废冷眼观察所
2026-05-14 17:52:15
重庆“网红佛头”雕刻者找到了!74岁石匠师傅:泸定桥纪念碑文、“小萝卜头”雕像均出自他手

重庆“网红佛头”雕刻者找到了!74岁石匠师傅:泸定桥纪念碑文、“小萝卜头”雕像均出自他手

封面新闻
2026-05-14 19:04:40
收视率暴跌,为什么05年马刺活塞的“铁血七场”反而成了经典

收视率暴跌,为什么05年马刺活塞的“铁血七场”反而成了经典

林子说事
2026-05-14 18:09:32
2026-05-15 09:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12996文章数 142648关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

欢迎宴会座位公开:马斯克黄仁勋与中国企业家同桌吃饭

头条要闻

欢迎宴会座位公开:马斯克黄仁勋与中国企业家同桌吃饭

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

游戏
旅游
艺术
本地
手机

万字解析:大叔萝莉的组合为什么经久不衰?"/> 主站 商城 论坛 自运营 登录 注册 万字解析:大叔萝莉的组合为什么经久不衰? 神堡薛师傅 2026-0...

旅游要闻

三亚亿恒夜市“五一”期间接待游客超8万人次 助力 “夜经济”增长

艺术要闻

花园里,花丛中

本地新闻

用苏绣的方式,打开江西婺源

手机要闻

英特尔试产苹果部分A/M系列芯片 台积电独家代工地位或就此松动

无障碍浏览 进入关怀版