网易首页 > 网易号 > 正文 申请入驻

让扩散模型「可解释」不再降质,开启图片编辑新思路

0
分享至



过去三年,扩散模型席卷图像生成领域。以 DiT (Diffusion Transformer) 为代表的新一代架构不断刷新图像质量的极限,让模型愈发接近真实世界的视觉规律。

然而,与 LLM 可解释性研究的蓬勃发展相对,扩散模型内部的语义结构、时间规律以及因果路径仍然像被深深封住的「黑箱」。研究者可以凭直觉优化架构,但外界无法真正理解扩散模型在生成过程中的「思考方式」。

更棘手的是,已有的可解释性尝试往往伴随着明显的性能下降:特征分解、激活分析、插值扰动……无论采用哪种方法,只要试图将扩散模型拆开来看,生成质量就会显著劣化。这让「可解释扩散模型」在很长一段时间里被视为不切实际的小众方向。

在这样的背景下,香港中文大学 MMLab 与上海人工智能实验室的研究团队提出了一个不同的观点:扩散模型作为当今视觉世界最重要的生成器,其内部机制不应永远处于不可见状态;可解释性也不应该以牺牲生成质量为代价。

基于这一理念,他们提出了被 AAAI 2026 接收的TIDE (Temporal-Aware Sparse Autoencoders)—— 首个真正意义上面向扩散 Transformer 的时序稀疏自编码器框架。



  • 论文标题:TIDE: Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation
  • 论文链接:
  • https://arxiv.org/pdf/2503.07050

TIDE:

让「时序」成为扩散可解释性的核心

以往的可解释方法大多忽视了扩散过程最大的特点:生成是一个随时间展开的渐进式构造过程。早期步骤决定物体形状和布局,中期步骤塑造语义和结构,后期步骤填充材质与细节。如果忽略这条时间线,扩散模型看起来就像一团混乱的噪声与特征。TIDE 的突破在于,它不是「硬拆」一个静态特征,而是让模型自己在时间维度上对齐语义:

同一个因子会在不同时间步中保持一致的语义轨迹,最终形成一个可读、可控、稳固的「时间语义剖面」。

也正是在这样的时序框架下,扩散模型内部原本模糊的过程第一次被清晰呈现出来:粗结构从噪声中浮现、语义逐渐成型、纹理被不断润色……模型的「思考流」沿着时间轴被完整雕刻出来。

更重要的是,这一切并不会破坏原模型的生成能力。TIDE 的稀疏自编码器在特征空间进行无损重构,扩散轨迹保持稳定,模型几乎感受不到被「观察」的存在。同时在 scaling latent 维度时,也优于原有 vanilla SAE 方法。



TIDE 架构与训练

在 Stable Diffusion XL、PixArt-α、Flux 等主流扩散框架上,TIDE 将扩散特征分解为具有可控语义的因子:

负责轮廓的因子、负责物体姿态的因子、负责材质纹理的因子……甚至可以捕捉到跨时间的概念演化。基于这些因子,研究团队构建出一种全新的图像编辑方式:编辑不再依赖繁琐的提示语或反复调参,而是可以沿着清晰的语义方向直接操控扩散过程。例如:

  • 提升纹理细节而不改变全局结构
  • 调整物体姿态但保持背景一致
  • 加强某类语义而不干扰其它部分



这些编辑操作完全基于 TIDE 生成的语义因子完成,意味着未来扩散模型有望出现一种全新的「因子级编辑器」,具备高度可控性与透明性。

与此同时,TIDE 对模型生成质量的影响几乎可以忽略不计。FID、sFID 变化小于 0.1%,噪声预测轨迹保持稳定,实现了真正意义上的「可解释而不降质」。

TIDE 的效果

TIDE 在不同设置、不同模型规模以及不同任务维度下的整体表现。无论是在超参数选择、在 DiT 不同层级进行因子学习,还是在 SDXL、FLUX-dev 等主流扩散架构上的泛化能力,TIDE 都表现出高度稳定且持续的优势。

可以看到,TIDE 在几乎不增加 FID 代价的前提下,显著提升了 AlignScore 中的语义绑定(颜色、形状、纹理)以及跨区域关系理解(空间与非空间关系),其中多处指标在表中以绿色标记为最优表现。

此外,在安全性评测部分,TIDE 相比多个现有方法大幅降低了攻击成功率,显示出更稳健的特征理解能力。整体来看,这幅表格清楚证明:TIDE 不仅带来了高质量、可解释的语义因子,还在保持生成质量的同时,提升了模型的结构理解、关系推理与安全性,成为一种真正可泛化、可落地的可解释扩散框架。



TIDE 的意义:

补齐扩散模型的「理解」能力

扩散模型已经成为现代视觉生成系统的核心支柱,但它们的内部机制一直缺乏系统、透明的解释路径。TIDE 的出现不仅提供了首个真正实用的可解释性方案,更重要的是,它让研究者第一次能够沿着「时间」这条线索观察扩散模型内部的语义结构。



这种理解能力将直接影响未来的多个方向:

  • 更可控、更稳健的扩散编辑系统
  • 统一理解——生成模型的因子级桥接
  • 扩散模型的因果与语义理论研究
  • 新一代透明、可信的视觉生成系统

TIDE 不仅是一个方法,更是一种新的研究范式:扩散模型并非不可解释,只是缺少一个合适的视角。

未来展望

研究团队表示,当前 TIDE 已成功验证了时序稀疏自编码器框架的有效性,但可解释扩散模型的潜力远未被完全发掘。未来的工作将进一步:

  • 扩展更大规模、更精细的时序字典
  • 探索跨模态共享的语义因子
  • 结合 LLM-SAE 构建统一解释空间
  • 将因子级编辑推向产品化工具

随着更多研究者的加入,扩散模型的「黑箱壁垒」正逐渐被揭开,而 TIDE 或许是这一转变具有代表性的第一步。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海楼市失控了....

上海楼市失控了....

新浪财经
2026-03-27 00:18:46
特朗普撤回通牒,伊朗打来电话,希望中方伸出援手,王毅斩钉截铁

特朗普撤回通牒,伊朗打来电话,希望中方伸出援手,王毅斩钉截铁

华史谈
2026-03-26 23:37:39
事关停火!刚刚,特朗普最新发声!伊朗,大消息!

事关停火!刚刚,特朗普最新发声!伊朗,大消息!

证券时报
2026-03-27 00:56:03
扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

环球网资讯
2026-03-26 08:55:12
刘强东章泽天的大姑娘!感觉像爸爸多一点

刘强东章泽天的大姑娘!感觉像爸爸多一点

可乐谈情感
2026-03-27 03:08:27
20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

悄悄史话
2026-03-26 14:09:05
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

红星新闻
2026-03-26 11:28:05
国民党内讧开始,马英九拒绝电话、倒向美国?大陆发布统一后安排

国民党内讧开始,马英九拒绝电话、倒向美国?大陆发布统一后安排

一家说
2026-03-27 01:31:09
张雪峰的病,速效救心丸能救吗?

张雪峰的病,速效救心丸能救吗?

中国新闻周刊
2026-03-25 16:23:30
伊朗注意了,美军可能声东击西!第82空降师实力有多强?

伊朗注意了,美军可能声东击西!第82空降师实力有多强?

科普100克克
2026-03-27 01:06:44
0.028%!无罪判决率跌至谷底,为何国际水平是我们的35倍?

0.028%!无罪判决率跌至谷底,为何国际水平是我们的35倍?

深析古今
2026-03-25 01:10:47
伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

大象新闻
2026-03-26 09:45:03
航班在美国发生事故后加拿大航空公司CEO仅用英语发表讲话,加总理批:我非常失望

航班在美国发生事故后加拿大航空公司CEO仅用英语发表讲话,加总理批:我非常失望

环球网资讯
2026-03-26 18:26:42
突发,雷军辞职董事长!

突发,雷军辞职董事长!

品牌头版
2026-03-26 14:46:17
很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

岐黄传人孙大夫
2026-03-26 20:45:03
美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

雪中风车
2026-02-23 19:34:34
美国懵了,能摧毁伊朗电力的石墨炸弹,竟让中国两座城市联手废了

美国懵了,能摧毁伊朗电力的石墨炸弹,竟让中国两座城市联手废了

瑛派儿老黄
2026-03-25 23:46:07
生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

闪电新闻
2026-03-26 11:46:05
中国首创!打一针降血脂基因治疗获突破

中国首创!打一针降血脂基因治疗获突破

医学界
2026-03-26 19:17:50
2026-03-27 04:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
本地
时尚
公开课
军事航空

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

400万人爱过的女孩,被黄谣网暴180天后

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版