网易首页 > 网易号 > 正文 申请入驻

DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学

0
分享至



机器之心报道

编辑:冷猫,+0

「兄弟们,DiT 是错的!」

最近一篇帖子在 X 上引发了很大的讨论,有博主表示 DiT 存在架构上的缺陷,并附上一张论文截图。



图 1. 我们引入了 TREAD,这是一种能够显著提升基于 token 的扩散模型骨干网络训练效率的训练策略。当应用于标准的 DiT 骨干网络时,我们在无引导 FID 指标上实现了 14/37 倍的训练速度提升,同时也收敛到了更好的生成质量。

图中横轴代表训练时间(以 A100 GPU 的小时数为单位,log 尺度,从 100 小时到 10000 小时),纵轴代表 FID 分数(越低越好,代表生成图像质量越高)。

博主认为,这个图的核心信息不是 TREAD 的速度优势,而是DiT 的 FID 过早稳定,暗示 DiT 可能存在「隐性架构缺陷」,导致其无法继续从数据中学习



博主提到的论文发表于今年 1 月(3 月更新 v2),介绍了一种名为TREAD的新方法,该工作通过一种创新的「令牌路由」(token routing)机制,在不改变模型架构的情况下,极大地提升了训练效率和生成图像的质量,从而在速度和性能上都显著超越了 DiT 模型

具体而言,TREAD 在训练过程中使用「部分令牌集」(partial token set) vs 「完整令牌集」(full token set),通过预定义路由保存信息并重新引入到更深层,跳过部分计算以减少成本,同时仅用于训练阶段,推理时仍采用标准设置。这与 MaskDiT 等方法类似,但更高效。



  • 论文标题:TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training
  • 论文地址:https://arxiv.org/abs/2501.04765
  • 代码:https://github.com/CompVis/tread

博主在后续回复中逐步展开了对 DiT 的批判,并解释 TREAD 如何暴露这些问题。

博主指出,该论文揭示了 DiT 模型的设计缺陷。具体来说,研究发现在训练过程中,如果将模型中的一部分计算单元替换为「恒等函数」(Identity Function)——也就是让这些单元什么计算都不做,仅仅是「直通」数据,相当于被临时禁用了—— 模型的最终评估分数反而会提高。



接着博主指出 DiT 的两个「可疑」的设计:

  • 整个架构都使用「后层归一化」(Post-LayerNorm)



博主认为 DiT 使用了一种已知不太稳定的技术(后层归一化),来处理一个数值范围变化极其剧烈的任务(扩散过程)。

  • adaLN-zero



博主认为,这个模型虽然整体上自称是「Transformer」架构,但在处理最关键的「指导信息」(即条件数据)时,并没有使用强大的 Transformer,而是用了一个非常简单的 MLP 网络(多层感知机)。

更具体地,adaLN-zero 通过完全覆盖注意力单元的输入,并注入任意偏置来覆盖输出,这限制了模型的表达能力,相当于「讨厌注意力操作」(hate the attention operation),从而削弱了 DiT 的整体潜力。



博主还提到与早期论文相关的 LayerNorm 研究,指出 LayerNorm 的偏置和增益参数可能对梯度调整影响更大,而非真正改善模型性能。他认为,adaLN-zero 正是利用了这一点,名为「梯度调节」,实则像是在「给小模型偷偷注入过拟合的偏置」。



  • 论文标题:Understanding and Improving Layer Normalization
  • 论文地址:https://arxiv.org/abs/1911.07013

看了这篇帖子,DiT 的作者,纽约大学计算机科学助理教授谢赛宁有些忍不住了。

在 2022 年,谢赛宁发表了 DiT 的论文,这是扩散模式首次和 Transformer 相结合。



  • 论文标题:Scalable Diffusion Models with Transformers
  • 论文链接:https://arxiv.org/pdf/2212.09748

在 DiT 问世之后,Transformer 逐步代替原始扩散模型中的 U-Net,在图像和视频生成任务中生成高质量的结果。

其核心思想是采用 Transformer 代替传统的卷积神经网络作为扩散模型的主干网络。



这一方法业已成为 Sora 和 Stable Diffusion 3 的基础架构,同时也确定了 DiT 的学术地位。

在 DiT 论文刚刚问世时,就已接连受到质疑,甚至以「缺乏创新」为由被 CVPR 2023 拒稿。

这一次面对 DiT 在数学和形式上都「是错的」的论调,谢赛宁发推做出了几点回应。



从字里行间来看,谢赛宁对这个帖子多少有些情绪

我知道原帖是在钓鱼骗点击率,但我还是咬一下钩……

坦白讲,每个研究者的梦想其实就是发现自己的架构是错的。如果它永远都没问题,那才是真正的大问题。

我们每天都在用 SiT、REPA、REPA-E 等方法试图打破 DiT,但这需要基于假设、做实验、进行验证,而不是只在脑子里扮演式地做科学…… 否则,你得出的结论不仅仅是错的,而是根本连错都谈不上

也难怪谢赛宁语气有些不善,原帖博主的一些说法可能有些拱火的嫌疑:





谢赛宁也从技术角度对于原帖子提出的一些问题进行了回复,在对原帖的部分问题进行了反驳后,他也同样说明了 DiT 架构目前存在一些硬伤。

截至今天,DiT 的问题:

  • tread 更接近于 stochastic depth,我认为它的收敛性来自正则化效应,这让表示能力更强(注意推理过程是标准的 —— 所有模块都会处理所有 token);这是非常有意思的工作,但和原帖说的完全不是一回事
  • Lightning DiT 已经是经过验证的稳健升级版(结合了 swiglu、rmsnorm、rope、patch size=1),有条件就应该优先使用它。
  • 没有任何证据表明 post-norm 会带来负面影响。
  • 过去一年最大的改进点在于内部表示学习:最早是 REPA,但现在有很多方法(例如 tokenizer 层面的修正:VA-VAE / REPA-E,把语义 token 拼接进噪声潜变量、解耦式架构如 DDT,或者通过分散损失、自表示对齐等正则化手段)。
  • 始终优先采用随机插值 / 流匹配(SiT 在这里应该是基线)。
  • 对于时间嵌入,使用 AdaLN-zero;但遇到更复杂的分布(如文本嵌入)时,应采用交叉注意力。
  • 不过要用对方式 —— 采用 PixArt 风格的共享 AdaLN,否则会白白浪费 30% 的参数。
  • 真正的「硬伤」其实是 DiT 里的 sd-vae:这是显而易见却长期被忽视的问题 —— 它臃肿低效(处理 256×256 图像竟需要 445.87 GFlops?)、不是端到端的。像 VA-VAE 和 REPA-E 只是部分修复,更多进展还在路上。

评论网友也对回应中提到的技术细节感兴趣,谢赛宁也都对相关疑惑做出了回复:





算法的迭代进步总是伴随着对现有算法的质疑,虽说所谓「不破不立」,但 DiT 仍然在擂台中央,不是么?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨紫啊!实在不行你就退圈吧!主要是大家都看不下去了,你都33了

杨紫啊!实在不行你就退圈吧!主要是大家都看不下去了,你都33了

乐悠悠娱乐
2025-10-28 15:05:14
25岁男子在四川景区身亡!遇难全过程曝光,网友一边倒:死不足惜

25岁男子在四川景区身亡!遇难全过程曝光,网友一边倒:死不足惜

一只番茄鱼
2025-10-30 21:25:33
浙江1米75男生只有110斤,反复腹痛一年被误会“装病”,医生凭一个细节揪出罕见病!

浙江1米75男生只有110斤,反复腹痛一年被误会“装病”,医生凭一个细节揪出罕见病!

FM93浙江交通之声
2025-11-02 06:05:42
这下好了,不仅全国人民知道了,就连空间站的航天员也知道了!

这下好了,不仅全国人民知道了,就连空间站的航天员也知道了!

夜深爱杂谈
2025-11-01 07:58:52
一夜之间,特朗普对华高挂“免战牌”!帮中国争取到了宝贵的时间

一夜之间,特朗普对华高挂“免战牌”!帮中国争取到了宝贵的时间

叮当当科技
2025-11-03 05:54:04
幽灵点球!C罗赛后遭群嘲! 费哈主帅怒斥:取悦C罗是安排好的!

幽灵点球!C罗赛后遭群嘲! 费哈主帅怒斥:取悦C罗是安排好的!

恒歪评球
2025-11-02 14:07:28
杨瀚森发展联盟好刷数据?杨毅:人家拿球能给你么,姥姥!

杨瀚森发展联盟好刷数据?杨毅:人家拿球能给你么,姥姥!

阿纂看事
2025-11-02 15:32:11
官方已确认!75岁张艺谋,突传消息!

官方已确认!75岁张艺谋,突传消息!

好叫好伐
2025-11-01 18:19:38
外电:红军城之战为何如此重要?

外电:红军城之战为何如此重要?

参考消息
2025-11-02 17:42:11
300亿收购梦碎!闻泰科技手中的安世只剩“空壳”

300亿收购梦碎!闻泰科技手中的安世只剩“空壳”

风风顺
2025-10-14 10:09:49
德媒:“压路机”重返布鲁塞尔?冯德莱恩拒绝

德媒:“压路机”重返布鲁塞尔?冯德莱恩拒绝

环球网资讯
2025-11-03 06:47:47
正式开通!南山⇌香港1.5小时!

正式开通!南山⇌香港1.5小时!

深圳全接触
2025-11-02 22:17:01
经省委常委会会议研究:州政协秘书长潘黔昆,拟任县委书记

经省委常委会会议研究:州政协秘书长潘黔昆,拟任县委书记

新京报政事儿
2025-11-02 17:12:16
中超第29轮现5大争议判罚!蓉城最冤?申花受益?亚泰逃红?

中超第29轮现5大争议判罚!蓉城最冤?申花受益?亚泰逃红?

谢葥邮轮摄影
2025-11-03 06:22:03
海牛1-0,赢球不可怕,可怕的是李霄鹏赛后一席话,尽显高情商

海牛1-0,赢球不可怕,可怕的是李霄鹏赛后一席话,尽显高情商

范櫳舍长
2025-11-02 20:20:16
“公粮补偿”方案有变,农民有福了?11月农村这5件事,大家要关注

“公粮补偿”方案有变,农民有福了?11月农村这5件事,大家要关注

特特农村生活
2025-11-02 14:01:25
痛心!19岁女大学生和24岁女子不幸遇难,网友:太大胆,必须严厉追责

痛心!19岁女大学生和24岁女子不幸遇难,网友:太大胆,必须严厉追责

大风新闻
2025-11-02 10:45:10
四大银行 大额存单最新利率:2025年11月,本金20万比买国债强吗?

四大银行 大额存单最新利率:2025年11月,本金20万比买国债强吗?

双色球的方向舵
2025-11-02 09:05:48
11月3日精选热点:可控核聚变再传利好,这些地位公司显著受益

11月3日精选热点:可控核聚变再传利好,这些地位公司显著受益

元芳说投资
2025-11-02 19:30:34
主动揽责任,勇士队库里在又一次令人难以置信地失利后自责不已

主动揽责任,勇士队库里在又一次令人难以置信地失利后自责不已

好火子
2025-11-03 05:20:17
2025-11-03 07:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11617文章数 142497关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

健康
数码
家居
房产
公开课

核磁VS肌骨超声,谁更胜一筹?

数码要闻

麒麟9030处理器突然曝光:1+4+4六核狂飙,可惜工艺不详!

家居要闻

吸睛艺术 富有传奇色彩

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版