网易首页 > 网易号 > 正文 申请入驻

让扩散模型「可解释」不再降质,开启图片编辑新思路

0
分享至



过去三年,扩散模型席卷图像生成领域。以 DiT (Diffusion Transformer) 为代表的新一代架构不断刷新图像质量的极限,让模型愈发接近真实世界的视觉规律。

然而,与 LLM 可解释性研究的蓬勃发展相对,扩散模型内部的语义结构、时间规律以及因果路径仍然像被深深封住的「黑箱」。研究者可以凭直觉优化架构,但外界无法真正理解扩散模型在生成过程中的「思考方式」。

更棘手的是,已有的可解释性尝试往往伴随着明显的性能下降:特征分解、激活分析、插值扰动……无论采用哪种方法,只要试图将扩散模型拆开来看,生成质量就会显著劣化。这让「可解释扩散模型」在很长一段时间里被视为不切实际的小众方向。

在这样的背景下,香港中文大学 MMLab 与上海人工智能实验室的研究团队提出了一个不同的观点:扩散模型作为当今视觉世界最重要的生成器,其内部机制不应永远处于不可见状态;可解释性也不应该以牺牲生成质量为代价。

基于这一理念,他们提出了被 AAAI 2026 接收的TIDE (Temporal-Aware Sparse Autoencoders)—— 首个真正意义上面向扩散 Transformer 的时序稀疏自编码器框架。



  • 论文标题:TIDE: Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation
  • 论文链接:
  • https://arxiv.org/pdf/2503.07050

TIDE:

让「时序」成为扩散可解释性的核心

以往的可解释方法大多忽视了扩散过程最大的特点:生成是一个随时间展开的渐进式构造过程。早期步骤决定物体形状和布局,中期步骤塑造语义和结构,后期步骤填充材质与细节。如果忽略这条时间线,扩散模型看起来就像一团混乱的噪声与特征。TIDE 的突破在于,它不是「硬拆」一个静态特征,而是让模型自己在时间维度上对齐语义:

同一个因子会在不同时间步中保持一致的语义轨迹,最终形成一个可读、可控、稳固的「时间语义剖面」。

也正是在这样的时序框架下,扩散模型内部原本模糊的过程第一次被清晰呈现出来:粗结构从噪声中浮现、语义逐渐成型、纹理被不断润色……模型的「思考流」沿着时间轴被完整雕刻出来。

更重要的是,这一切并不会破坏原模型的生成能力。TIDE 的稀疏自编码器在特征空间进行无损重构,扩散轨迹保持稳定,模型几乎感受不到被「观察」的存在。同时在 scaling latent 维度时,也优于原有 vanilla SAE 方法。



TIDE 架构与训练

在 Stable Diffusion XL、PixArt-α、Flux 等主流扩散框架上,TIDE 将扩散特征分解为具有可控语义的因子:

负责轮廓的因子、负责物体姿态的因子、负责材质纹理的因子……甚至可以捕捉到跨时间的概念演化。基于这些因子,研究团队构建出一种全新的图像编辑方式:编辑不再依赖繁琐的提示语或反复调参,而是可以沿着清晰的语义方向直接操控扩散过程。例如:

  • 提升纹理细节而不改变全局结构
  • 调整物体姿态但保持背景一致
  • 加强某类语义而不干扰其它部分



这些编辑操作完全基于 TIDE 生成的语义因子完成,意味着未来扩散模型有望出现一种全新的「因子级编辑器」,具备高度可控性与透明性。

与此同时,TIDE 对模型生成质量的影响几乎可以忽略不计。FID、sFID 变化小于 0.1%,噪声预测轨迹保持稳定,实现了真正意义上的「可解释而不降质」。

TIDE 的效果

TIDE 在不同设置、不同模型规模以及不同任务维度下的整体表现。无论是在超参数选择、在 DiT 不同层级进行因子学习,还是在 SDXL、FLUX-dev 等主流扩散架构上的泛化能力,TIDE 都表现出高度稳定且持续的优势。

可以看到,TIDE 在几乎不增加 FID 代价的前提下,显著提升了 AlignScore 中的语义绑定(颜色、形状、纹理)以及跨区域关系理解(空间与非空间关系),其中多处指标在表中以绿色标记为最优表现。

此外,在安全性评测部分,TIDE 相比多个现有方法大幅降低了攻击成功率,显示出更稳健的特征理解能力。整体来看,这幅表格清楚证明:TIDE 不仅带来了高质量、可解释的语义因子,还在保持生成质量的同时,提升了模型的结构理解、关系推理与安全性,成为一种真正可泛化、可落地的可解释扩散框架。



TIDE 的意义:

补齐扩散模型的「理解」能力

扩散模型已经成为现代视觉生成系统的核心支柱,但它们的内部机制一直缺乏系统、透明的解释路径。TIDE 的出现不仅提供了首个真正实用的可解释性方案,更重要的是,它让研究者第一次能够沿着「时间」这条线索观察扩散模型内部的语义结构。



这种理解能力将直接影响未来的多个方向:

  • 更可控、更稳健的扩散编辑系统
  • 统一理解——生成模型的因子级桥接
  • 扩散模型的因果与语义理论研究
  • 新一代透明、可信的视觉生成系统

TIDE 不仅是一个方法,更是一种新的研究范式:扩散模型并非不可解释,只是缺少一个合适的视角。

未来展望

研究团队表示,当前 TIDE 已成功验证了时序稀疏自编码器框架的有效性,但可解释扩散模型的潜力远未被完全发掘。未来的工作将进一步:

  • 扩展更大规模、更精细的时序字典
  • 探索跨模态共享的语义因子
  • 结合 LLM-SAE 构建统一解释空间
  • 将因子级编辑推向产品化工具

随着更多研究者的加入,扩散模型的「黑箱壁垒」正逐渐被揭开,而 TIDE 或许是这一转变具有代表性的第一步。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小米一审胜诉,4个自媒体被判道歉+赔偿

小米一审胜诉,4个自媒体被判道歉+赔偿

敖博管理
2026-05-13 11:45:47
曾发涉港不当言论!NBA名记Shams:76人队解雇总经理莫雷

曾发涉港不当言论!NBA名记Shams:76人队解雇总经理莫雷

全景体育V
2026-05-13 08:14:35
广东回基地众人迎接!各将情绪不佳,杜锋拥抱奎因,陆续有人离开

广东回基地众人迎接!各将情绪不佳,杜锋拥抱奎因,陆续有人离开

篮球资讯达人
2026-05-13 23:22:28
流量喧嚣下,莫忘真正价值所在

流量喧嚣下,莫忘真正价值所在

烽火瞭望者
2026-05-13 08:55:09
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
命丧黎明!德黑兰处决29岁卫星天才:被控美国间谍,临刑前喊冤

命丧黎明!德黑兰处决29岁卫星天才:被控美国间谍,临刑前喊冤

兵鉴史
2026-05-14 07:12:43
拿没教养当个性!白鹿更多黑历史被扒,欺负李晨已掉粉20万

拿没教养当个性!白鹿更多黑历史被扒,欺负李晨已掉粉20万

林轻吟
2026-05-14 07:30:39
明明有133套汤臣一品的房子,却过得想自杀,一个月才花一万块钱

明明有133套汤臣一品的房子,却过得想自杀,一个月才花一万块钱

人生录
2026-05-08 19:07:58
互联网是有记忆的,她的黑历史一大堆啊!

互联网是有记忆的,她的黑历史一大堆啊!

BenSir本色说
2026-04-15 22:38:07
震惊!网传番禺老板找做饭的小姐姐,15000元月薪,注明不需陪睡

震惊!网传番禺老板找做饭的小姐姐,15000元月薪,注明不需陪睡

火山詩话
2026-05-13 08:59:22
国产CPU里程碑!这款主力芯片出货量超百万!

国产CPU里程碑!这款主力芯片出货量超百万!

Thurman在昆明
2026-05-14 05:29:46
大陆向全球通告,禁止对岸一件事,话音刚落,郑丽文火速派人来京

大陆向全球通告,禁止对岸一件事,话音刚落,郑丽文火速派人来京

凡知
2026-05-13 12:49:01
4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

通鉴史智
2026-03-15 11:45:00
封神之作!iPhone 20全面曝光:跳过19、干掉灵动岛、一整块玻璃

封神之作!iPhone 20全面曝光:跳过19、干掉灵动岛、一整块玻璃

明美无限
2026-05-13 18:04:31
中华人民共和国和塔吉克斯坦共和国永久睦邻友好合作条约

中华人民共和国和塔吉克斯坦共和国永久睦邻友好合作条约

新京报
2026-05-12 23:10:09
U17亚洲杯8强出炉 越南力压韩国获头名 1/4决赛对阵:国足战沙特

U17亚洲杯8强出炉 越南力压韩国获头名 1/4决赛对阵:国足战沙特

我爱英超
2026-05-14 07:01:39
哈里这次真把自己弄尴尬了:人还没回英国,先逼王室给梅根留面子

哈里这次真把自己弄尴尬了:人还没回英国,先逼王室给梅根留面子

白露文娱志
2026-05-12 16:32:41
瘦肚子最快的方式: 不是跑步和挨饿,而是干掉内脏脂肪!

瘦肚子最快的方式: 不是跑步和挨饿,而是干掉内脏脂肪!

运动健身号
2026-05-13 07:20:06
两岸突发一件事,大陆已下达禁令,话音刚落,郑丽文火速派人赴京

两岸突发一件事,大陆已下达禁令,话音刚落,郑丽文火速派人赴京

聊历史的阿稼
2026-05-14 06:06:56
宇树发布GD01载人变形机甲 定价390万元起

宇树发布GD01载人变形机甲 定价390万元起

财联社
2026-05-12 12:27:07
2026-05-14 08:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12987文章数 142648关注度
往期回顾 全部

科技要闻

阿里年营收首破万亿,AI终于不再是画大饼

头条要闻

中东战火烧痛印度 莫迪六天访五国要外交“救国”

头条要闻

中东战火烧痛印度 莫迪六天访五国要外交“救国”

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

游戏
家居
亲子
健康
公开课

三角洲行动那些玄学设定,很多玩家可能都经历过这些事情

家居要闻

内在自叙,无域有方

亲子要闻

重庆儿童配眼镜,家长指南:儿童防控五大核心问题汇总

干细胞能让人“返老还童”吗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版