网易首页 > 网易号 > 正文 申请入驻

DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学

0
分享至

机器之心报道

编辑:冷猫,+0

「兄弟们,DiT 是错的!」

最近一篇帖子在 X 上引发了很大的讨论,有博主表示 DiT 存在架构上的缺陷,并附上一张论文截图。

图 1. 我们引入了 TREAD,这是一种能够显著提升基于 token 的扩散模型骨干网络训练效率的训练策略。当应用于标准的 DiT 骨干网络时,我们在无引导 FID 指标上实现了 14/37 倍的训练速度提升,同时也收敛到了更好的生成质量。

图中横轴代表训练时间(以 A100 GPU 的小时数为单位,log 尺度,从 100 小时到 10000 小时),纵轴代表 FID 分数(越低越好,代表生成图像质量越高)。

博主认为,这个图的核心信息不是 TREAD 的速度优势,而是DiT 的 FID 过早稳定,暗示 DiT 可能存在「隐性架构缺陷」,导致其无法继续从数据中学习

博主提到的论文发表于今年 1 月(3 月更新 v2),介绍了一种名为TREAD的新方法,该工作通过一种创新的「令牌路由」(token routing)机制,在不改变模型架构的情况下,极大地提升了训练效率和生成图像的质量,从而在速度和性能上都显著超越了 DiT 模型

具体而言,TREAD 在训练过程中使用「部分令牌集」(partial token set) vs 「完整令牌集」(full token set),通过预定义路由保存信息并重新引入到更深层,跳过部分计算以减少成本,同时仅用于训练阶段,推理时仍采用标准设置。这与 MaskDiT 等方法类似,但更高效。

  • 论文标题:TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training
  • 论文地址:https://arxiv.org/abs/2501.04765
  • 代码:https://github.com/CompVis/tread

博主在后续回复中逐步展开了对 DiT 的批判,并解释 TREAD 如何暴露这些问题。

博主指出,该论文揭示了 DiT 模型的设计缺陷。具体来说,研究发现在训练过程中,如果将模型中的一部分计算单元替换为「恒等函数」(Identity Function)——也就是让这些单元什么计算都不做,仅仅是「直通」数据,相当于被临时禁用了—— 模型的最终评估分数反而会提高。

接着博主指出 DiT 的两个「可疑」的设计:

  • 整个架构都使用「后层归一化」(Post-LayerNorm)

博主认为 DiT 使用了一种已知不太稳定的技术(后层归一化),来处理一个数值范围变化极其剧烈的任务(扩散过程)。

  • adaLN-zero

博主认为,这个模型虽然整体上自称是「Transformer」架构,但在处理最关键的「指导信息」(即条件数据)时,并没有使用强大的 Transformer,而是用了一个非常简单的 MLP 网络(多层感知机)。

更具体地,adaLN-zero 通过完全覆盖注意力单元的输入,并注入任意偏置来覆盖输出,这限制了模型的表达能力,相当于「讨厌注意力操作」(hate the attention operation),从而削弱了 DiT 的整体潜力。

博主还提到与早期论文相关的 LayerNorm 研究,指出 LayerNorm 的偏置和增益参数可能对梯度调整影响更大,而非真正改善模型性能。他认为,adaLN-zero 正是利用了这一点,名为「梯度调节」,实则像是在「给小模型偷偷注入过拟合的偏置」。

  • 论文标题:Understanding and Improving Layer Normalization
  • 论文地址:https://arxiv.org/abs/1911.07013

看了这篇帖子,DiT 的作者,纽约大学计算机科学助理教授谢赛宁有些忍不住了。

在 2022 年,谢赛宁发表了 DiT 的论文,这是扩散模式首次和 Transformer 相结合。

  • 论文标题:Scalable Diffusion Models with Transformers
  • 论文链接:https://arxiv.org/pdf/2212.09748

在 DiT 问世之后,Transformer 逐步代替原始扩散模型中的 U-Net,在图像和视频生成任务中生成高质量的结果。

其核心思想是采用 Transformer 代替传统的卷积神经网络作为扩散模型的主干网络。

这一方法业已成为 Sora 和 Stable Diffusion 3 的基础架构,同时也确定了 DiT 的学术地位。

在 DiT 论文刚刚问世时,就已接连受到质疑,甚至以「缺乏创新」为由被 CVPR 2023 拒稿。

这一次面对 DiT 在数学和形式上都「是错的」的论调,谢赛宁发推做出了几点回应。

从字里行间来看,谢赛宁对这个帖子多少有些情绪

我知道原帖是在钓鱼骗点击率,但我还是咬一下钩……

坦白讲,每个研究者的梦想其实就是发现自己的架构是错的。如果它永远都没问题,那才是真正的大问题。

我们每天都在用 SiT、REPA、REPA-E 等方法试图打破 DiT,但这需要基于假设、做实验、进行验证,而不是只在脑子里扮演式地做科学…… 否则,你得出的结论不仅仅是错的,而是根本连错都谈不上

也难怪谢赛宁语气有些不善,原帖博主的一些说法可能有些拱火的嫌疑:

谢赛宁也从技术角度对于原帖子提出的一些问题进行了回复,在对原帖的部分问题进行了反驳后,他也同样说明了 DiT 架构目前存在一些硬伤。

截至今天,DiT 的问题:

  • tread 更接近于 stochastic depth,我认为它的收敛性来自正则化效应,这让表示能力更强(注意推理过程是标准的 —— 所有模块都会处理所有 token);这是非常有意思的工作,但和原帖说的完全不是一回事
  • Lightning DiT 已经是经过验证的稳健升级版(结合了 swiglu、rmsnorm、rope、patch size=1),有条件就应该优先使用它。
  • 没有任何证据表明 post-norm 会带来负面影响。
  • 过去一年最大的改进点在于内部表示学习:最早是 REPA,但现在有很多方法(例如 tokenizer 层面的修正:VA-VAE / REPA-E,把语义 token 拼接进噪声潜变量、解耦式架构如 DDT,或者通过分散损失、自表示对齐等正则化手段)。
  • 始终优先采用随机插值 / 流匹配(SiT 在这里应该是基线)。
  • 对于时间嵌入,使用 AdaLN-zero;但遇到更复杂的分布(如文本嵌入)时,应采用交叉注意力。
  • 不过要用对方式 —— 采用 PixArt 风格的共享 AdaLN,否则会白白浪费 30% 的参数。
  • 真正的「硬伤」其实是 DiT 里的 sd-vae:这是显而易见却长期被忽视的问题 —— 它臃肿低效(处理 256×256 图像竟需要 445.87 GFlops?)、不是端到端的。像 VA-VAE 和 REPA-E 只是部分修复,更多进展还在路上。

评论网友也对回应中提到的技术细节感兴趣,谢赛宁也都对相关疑惑做出了回复:

算法的迭代进步总是伴随着对现有算法的质疑,虽说所谓「不破不立」,但 DiT 仍然在擂台中央,不是么?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一块几十元的遮阳板,能让你的油费少烧四分之一

一块几十元的遮阳板,能让你的油费少烧四分之一

Ping值焦虑
2026-05-26 03:16:36
一女子离婚5年后,走投无路去取前夫给的6万,柜员却说初始只有600块,刚想骂人,柜员:你要不要看看转账备注...

一女子离婚5年后,走投无路去取前夫给的6万,柜员却说初始只有600块,刚想骂人,柜员:你要不要看看转账备注...

乔话
2026-05-25 23:41:08
全国退休金过万的人有多少?答案出乎意料!

全国退休金过万的人有多少?答案出乎意料!

黯泉
2026-05-25 18:13:43
5月27日精选热点:光纤史诗级采集来了,这些龙头要大涨

5月27日精选热点:光纤史诗级采集来了,这些龙头要大涨

元芳说投资
2026-05-26 21:19:16
1981年黄植诚驾机归来,放走不愿归顺的许秋麟,其回台后引人探寻

1981年黄植诚驾机归来,放走不愿归顺的许秋麟,其回台后引人探寻

唠叨说历史
2026-05-25 14:15:16
灾情如火,岂容“审批”挡道?——评三支蓝天救援队被通报事件

灾情如火,岂容“审批”挡道?——评三支蓝天救援队被通报事件

细雨中的呼喊
2026-05-26 13:37:48
郑钦文法网开赛前刚说完自己实力就在那,结果就一轮游,赛后痛哭

郑钦文法网开赛前刚说完自己实力就在那,结果就一轮游,赛后痛哭

搏击江湖
2026-05-26 18:41:06
住院新规来了!白天治疗、晚上回家,陪护不再全家熬(政策解读)

住院新规来了!白天治疗、晚上回家,陪护不再全家熬(政策解读)

李博世财经
2026-05-26 10:01:57
五大联赛落幕!金球奖10位热门候选出炉:登贝莱第2,亚马尔第5

五大联赛落幕!金球奖10位热门候选出炉:登贝莱第2,亚马尔第5

球场没跑道
2026-05-26 18:21:45
腰斩!小米一季度业绩为何突然“变脸”

腰斩!小米一季度业绩为何突然“变脸”

杠杆游戏
2026-05-26 21:05:39
宣布认台岛为国!欧洲在野党一把手将窜访台岛,与赖清德见面!

宣布认台岛为国!欧洲在野党一把手将窜访台岛,与赖清德见面!

阿龙聊军事
2026-05-26 11:54:13
弘一法师:永远不要去责怪你生命里的任何人,好的人给你快乐,坏的人给你经历,别人怎么对你,是过往,你怎么对别人,是修行

弘一法师:永远不要去责怪你生命里的任何人,好的人给你快乐,坏的人给你经历,别人怎么对你,是过往,你怎么对别人,是修行

每日一首古诗词
2026-05-26 12:07:58
详解骑士4大问题:哈登米切尔主帅能否留队?老詹加盟阻力极大?

详解骑士4大问题:哈登米切尔主帅能否留队?老詹加盟阻力极大?

罗说NBA
2026-05-26 20:25:03
巴勒斯坦官方账号转发“令人震惊视频”:以色列造成“种族灭绝式”破坏

巴勒斯坦官方账号转发“令人震惊视频”:以色列造成“种族灭绝式”破坏

环球网资讯
2026-05-26 18:42:15
43岁佟丽娅在广东街头,现实中真人看起来很娇小,目测158cm左右

43岁佟丽娅在广东街头,现实中真人看起来很娇小,目测158cm左右

可乐谈情感
2026-05-26 08:23:05
2万亿资产四川发展“换帅”,张希接任党委书记

2万亿资产四川发展“换帅”,张希接任党委书记

楼市全搜索
2026-05-26 21:00:06
原来俄军打了两枚“榛树”导弹:一枚坠毁,一枚打偏!

原来俄军打了两枚“榛树”导弹:一枚坠毁,一枚打偏!

鹰眼Defence
2026-05-26 17:58:41
25岁海归男子恋上浙江离异老板娘,分手后追讨12万:每个月给她点外卖都要五六千,对方却没转过一分钱,每次转账还要写自愿赠与,准备起诉

25岁海归男子恋上浙江离异老板娘,分手后追讨12万:每个月给她点外卖都要五六千,对方却没转过一分钱,每次转账还要写自愿赠与,准备起诉

极目新闻
2026-05-26 15:56:29
海外,AI龙头暴跌40%!

海外,AI龙头暴跌40%!

君临财富
2026-05-26 17:51:55
各位驾驶员注意!驾驶新规,6月1日起执行

各位驾驶员注意!驾驶新规,6月1日起执行

锦绣太原
2026-05-26 14:46:29
2026-05-27 04:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13088文章数 142653关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

武契奇获授"友谊勋章":父母特意打电话 我们都哭了

头条要闻

武契奇获授"友谊勋章":父母特意打电话 我们都哭了

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

艺术
旅游
本地
手机
公开课

艺术要闻

gmp新作:上海张江模力社区

旅游要闻

第二艘国产大型邮轮即将启航:解锁中国人的海上旅居新范式!

本地新闻

用云锦的方式,打开江苏南京

手机要闻

荣耀600系列线下上手:体验之后,说说真实感受

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版