网易首页 > 网易号 > 正文 申请入驻

何恺明团队新作:扩散模型可能被用错了

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

何恺明又一次返璞归真。

最新论文直接推翻扩散模型的主流玩法——不让模型预测噪声,而是直接画干净图。



如果你熟悉何恺明的作品,会发现这正是他创新的典型路径,不提出更复杂的架构,而是把问题拆回最初的样子,让模型做它最擅长的那件事

实际上,扩散模型火了这么多年,架构越做越复杂,比如预测噪声、预测速度、对齐latent、堆tokenizer、加VAE、加perceptual loss……

但大家似乎忘了,扩散模型原本就是去噪模型。

现在这篇新论文把这件事重新摆上桌,既然叫denoising模型,那为什么不直接denoise?

于是,在ResNet、MAE等之后,何恺明团队又给出了一个“大道至简”的结论:扩散模型应该回到最初——直接预测图像

扩散模型可能被用错了

当下的主流扩散模型,虽然设计思想以及名为“去噪”,但在训练时,神经网络预测的目标往往并不是干净的图像,而是噪声, 或者是一个混合了图像与噪声的速度场

实际上,预测噪声和预测干净图差得很远。

根据流形假设,自然图像是分布在高维像素空间中的低维流形上的,是有规律可循的干净数据;而噪声则是均匀弥散在整个高维空间中的,不具备这种低维结构。



简单理解就是,把高维像素空间想象成一个巨大的3D房间,而干净的自然图像其实都挤在房间里的一块2D屏幕上。这就是流形假设——自然数据看着维度高,实则集中在一个低维的「曲面(流形)」上。

但噪声不一样。它是弥漫在整个3D房间里的雪花点,不在屏幕上;而速度场也一样,一半在屏上、一半在屏外,同样也脱离了「流形」的规律。

这就导致了一个核心矛盾,在处理高维数据时,例如将图像切分为16x16甚至32x32的大Patch,要求神经网络去拟合无规律的高维噪声,需要极大的模型容量来保留所有信息,这很容易导致模型训练崩溃。

而相反呢,如果让网络直接预测干净的图像,本质上就是让网络学习如何将噪点投影回低维流形,这对于网络容量的要求要低得多,也更符合神经网络“过滤噪声、保留信号”的原本设计。



于是,这篇文章提出了一个极简的架构JiT——Just image Transformers。

正如其名,这就是一个纯粹处理图像的Transformer,它的设计非常简单。没有像普遍的扩散模型一样使用VAE压缩潜空间,也没有设计任何Tokenizer,不需要CLIP或DINO等预训练特征的对齐,也不依赖任何额外的损失函数。

完全从像素开始,用一个纯粹Transformer去做denoise

JiT就像一个标准的ViT,它将原始像素切成大Patch(维度可高达3072维甚至更高)直接输入,唯一的改动就是将输出目标设定为直接预测干净的图像块。



实验结果显示,在低维空间下,预测噪声和预测原图的表现难分伯仲;但一旦进入高维空间,传统的预测噪声模型彻底崩溃,FID(越低越优)指数级飙升,而直接预测原图JiT却依然稳健。



模型的扩展能力也很出色。即使将patch尺寸扩大到64x64,让输入维度高达一万多维,只要坚持预测原图,无需增加网络宽度也能实现高质量生成。



团队甚至发现,在输入端人为引入瓶颈层进行降维,不仅不会导致模型失效,反而因为契合了流形学习过滤噪声的本质,进一步提升了生成质量。

这种极简架构在不依赖任何复杂组件或预训练的情况下,在ImageNet 256x256和512x512上达到了1.82和1.78的SOTA级FID分数。



作者介绍

这篇论文的一作是何恺明的开门弟子之一黎天鸿,本科毕业于清华姚班,在MIT获得了硕博学位之后,目前在何恺明组内从事博士后研究。



他的主要研究方向是表征学习、生成模型以及两者之间的协同作用。目标是构建能够理解人类感知之外的世界的智能视觉系统。

此前曾作为一作和何恺明开发了自条件图像生成框架RCG,团队最新的多项研究中他也都有参与。



也可以说这是一位酷爱湖南菜的学者,把菜谱都展示在了自己的主页上。



论文地址:https://arxiv.org/abs/2511.13720

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
27岁女教师惨死,体内检测出多名男子DNA,母亲得知主谋身份后崩溃

27岁女教师惨死,体内检测出多名男子DNA,母亲得知主谋身份后崩溃

罪案洞察者
2025-10-22 10:15:00
缅甸政府突袭佘智江名下“亚太新城”,逮捕346人,查获近万部涉诈涉赌手机

缅甸政府突袭佘智江名下“亚太新城”,逮捕346人,查获近万部涉诈涉赌手机

红星新闻
2025-11-19 17:31:05
一个时代落幕,中国药企准备好了吗?

一个时代落幕,中国药企准备好了吗?

细雨中的呼喊
2025-09-27 22:58:29
俄媒:俄试飞员博格丹透露,苏-75战机将于2026年初首飞

俄媒:俄试飞员博格丹透露,苏-75战机将于2026年初首飞

环球网资讯
2025-11-19 14:32:21
奥巴马是美国历史上最坏的总统,没有之一

奥巴马是美国历史上最坏的总统,没有之一

诗意世界
2025-09-27 11:50:19
停水通知!今晚开始!最长8小时!天津这些地区将受影响...

停水通知!今晚开始!最长8小时!天津这些地区将受影响...

天津族
2025-11-20 07:47:47
曝光!河北这所医院被警告处罚

曝光!河北这所医院被警告处罚

新牛城
2025-11-20 12:53:36
女神刘亦菲字迹

女神刘亦菲字迹

微微热评
2025-11-18 15:34:34
她这大体格真绝了,目测身高180,这才是无数人心中的女神形象

她这大体格真绝了,目测身高180,这才是无数人心中的女神形象

情感大头说说
2025-11-18 13:38:18
全运会乒乓女团落幕!诞生3个赢家、2个输家,孙颖莎、陈梦在列

全运会乒乓女团落幕!诞生3个赢家、2个输家,孙颖莎、陈梦在列

知轩体育
2025-11-19 23:51:51
山东女团夺冠现场观众大喊河北队,陈梦用手指做禁止出声手势回击

山东女团夺冠现场观众大喊河北队,陈梦用手指做禁止出声手势回击

阿废冷眼观察所
2025-11-20 01:18:59
太无耻!男子陈某被捕,10天找了5个美女:无非就是想白嫖

太无耻!男子陈某被捕,10天找了5个美女:无非就是想白嫖

潇湘晨报
2025-11-19 09:20:30
牛奶加热就变“毒”?院士提醒:热牛奶的5个误区,早了解早受益

牛奶加热就变“毒”?院士提醒:热牛奶的5个误区,早了解早受益

冷眼看世界728
2025-11-19 16:30:03
出大事了,美国大使馆被袭击?日本机毁人亡,五角大楼宣布撤兵

出大事了,美国大使馆被袭击?日本机毁人亡,五角大楼宣布撤兵

梁讯
2025-11-19 13:52:54
当下是牛市“中场休息”,看好五大方向!周应波最新研判

当下是牛市“中场休息”,看好五大方向!周应波最新研判

中国基金报
2025-11-20 10:11:51
广东宏远VS山西男篮!萨林杰首秀,崔永熙出战,杜锋拒绝爆冷

广东宏远VS山西男篮!萨林杰首秀,崔永熙出战,杜锋拒绝爆冷

体坛瞎白话
2025-11-20 10:30:56
许绍雄葬礼:李国麟着装挨轰不敬亡者,高海宁被批吃人血馒头?

许绍雄葬礼:李国麟着装挨轰不敬亡者,高海宁被批吃人血馒头?

杨仔述
2025-11-19 17:12:43
玄彬孙艺珍获影帝影后!男方首获奖,女方二轮大满贯,都感谢儿子

玄彬孙艺珍获影帝影后!男方首获奖,女方二轮大满贯,都感谢儿子

一只番茄鱼
2025-11-19 23:11:26
黄金,突发巨震!

黄金,突发巨震!

证券时报e公司
2025-11-20 12:14:09
全国仅13只成体!佛山男子买甲鱼混进4只,花40年培育800多只

全国仅13只成体!佛山男子买甲鱼混进4只,花40年培育800多只

万象硬核本尊
2025-10-23 17:57:29
2025-11-20 15:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
11714文章数 176335关注度
往期回顾 全部

科技要闻

英伟达单季狂揽570亿美元,手握5000亿订单

头条要闻

日媒爆料:高市或于中国重要日子当天参拜靖国神社

头条要闻

日媒爆料:高市或于中国重要日子当天参拜靖国神社

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌易梦玲恋情曝光,相差16岁

财经要闻

霸王茶姬创始人将与“光伏女神”结婚

汽车要闻

一汽丰田发布IT'S TiME 3.0 三款焕新产品同步亮相

态度原创

房产
健康
手机
家居
军事航空

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

警惕超声报告这六大"坑"

手机要闻

华为Mate 80系列首发户外探索模式 14天极限续航 关键时刻能救命

家居要闻

黑白极简 慵懒通透空间

军事要闻

日本称已向美国出口爱国者导弹

无障碍浏览 进入关怀版