网易首页 > 网易号 > 正文 申请入驻

何恺明团队新作:扩散模型可能被用错了

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

何恺明又一次返璞归真。

最新论文直接推翻扩散模型的主流玩法——不让模型预测噪声,而是直接画干净图。



如果你熟悉何恺明的作品,会发现这正是他创新的典型路径,不提出更复杂的架构,而是把问题拆回最初的样子,让模型做它最擅长的那件事

实际上,扩散模型火了这么多年,架构越做越复杂,比如预测噪声、预测速度、对齐latent、堆tokenizer、加VAE、加perceptual loss……

但大家似乎忘了,扩散模型原本就是去噪模型。

现在这篇新论文把这件事重新摆上桌,既然叫denoising模型,那为什么不直接denoise?

于是,在ResNet、MAE等之后,何恺明团队又给出了一个“大道至简”的结论:扩散模型应该回到最初——直接预测图像

扩散模型可能被用错了

当下的主流扩散模型,虽然设计思想以及名为“去噪”,但在训练时,神经网络预测的目标往往并不是干净的图像,而是噪声, 或者是一个混合了图像与噪声的速度场

实际上,预测噪声和预测干净图差得很远。

根据流形假设,自然图像是分布在高维像素空间中的低维流形上的,是有规律可循的干净数据;而噪声则是均匀弥散在整个高维空间中的,不具备这种低维结构。



简单理解就是,把高维像素空间想象成一个巨大的3D房间,而干净的自然图像其实都挤在房间里的一块2D屏幕上。这就是流形假设——自然数据看着维度高,实则集中在一个低维的「曲面(流形)」上。

但噪声不一样。它是弥漫在整个3D房间里的雪花点,不在屏幕上;而速度场也一样,一半在屏上、一半在屏外,同样也脱离了「流形」的规律。

这就导致了一个核心矛盾,在处理高维数据时,例如将图像切分为16x16甚至32x32的大Patch,要求神经网络去拟合无规律的高维噪声,需要极大的模型容量来保留所有信息,这很容易导致模型训练崩溃。

而相反呢,如果让网络直接预测干净的图像,本质上就是让网络学习如何将噪点投影回低维流形,这对于网络容量的要求要低得多,也更符合神经网络“过滤噪声、保留信号”的原本设计。



于是,这篇文章提出了一个极简的架构JiT——Just image Transformers。

正如其名,这就是一个纯粹处理图像的Transformer,它的设计非常简单。没有像普遍的扩散模型一样使用VAE压缩潜空间,也没有设计任何Tokenizer,不需要CLIP或DINO等预训练特征的对齐,也不依赖任何额外的损失函数。

完全从像素开始,用一个纯粹Transformer去做denoise

JiT就像一个标准的ViT,它将原始像素切成大Patch(维度可高达3072维甚至更高)直接输入,唯一的改动就是将输出目标设定为直接预测干净的图像块。



实验结果显示,在低维空间下,预测噪声和预测原图的表现难分伯仲;但一旦进入高维空间,传统的预测噪声模型彻底崩溃,FID(越低越优)指数级飙升,而直接预测原图JiT却依然稳健。



模型的扩展能力也很出色。即使将patch尺寸扩大到64x64,让输入维度高达一万多维,只要坚持预测原图,无需增加网络宽度也能实现高质量生成。



团队甚至发现,在输入端人为引入瓶颈层进行降维,不仅不会导致模型失效,反而因为契合了流形学习过滤噪声的本质,进一步提升了生成质量。

这种极简架构在不依赖任何复杂组件或预训练的情况下,在ImageNet 256x256和512x512上达到了1.82和1.78的SOTA级FID分数。



作者介绍

这篇论文的一作是何恺明的开门弟子之一黎天鸿,本科毕业于清华姚班,在MIT获得了硕博学位之后,目前在何恺明组内从事博士后研究。



他的主要研究方向是表征学习、生成模型以及两者之间的协同作用。目标是构建能够理解人类感知之外的世界的智能视觉系统。

此前曾作为一作和何恺明开发了自条件图像生成框架RCG,团队最新的多项研究中他也都有参与。



也可以说这是一位酷爱湖南菜的学者,把菜谱都展示在了自己的主页上。



论文地址:https://arxiv.org/abs/2511.13720

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
27岁女教师惨死,体内检测出多名男子DNA,母亲得知主谋身份后崩溃

27岁女教师惨死,体内检测出多名男子DNA,母亲得知主谋身份后崩溃

罪案洞察者
2025-10-22 10:15:00
缅甸政府突袭佘智江名下“亚太新城”,逮捕346人,查获近万部涉诈涉赌手机

缅甸政府突袭佘智江名下“亚太新城”,逮捕346人,查获近万部涉诈涉赌手机

红星新闻
2025-11-19 17:31:05
一个时代落幕,中国药企准备好了吗?

一个时代落幕,中国药企准备好了吗?

细雨中的呼喊
2025-09-27 22:58:29
俄媒:俄试飞员博格丹透露,苏-75战机将于2026年初首飞

俄媒:俄试飞员博格丹透露,苏-75战机将于2026年初首飞

环球网资讯
2025-11-19 14:32:21
奥巴马是美国历史上最坏的总统,没有之一

奥巴马是美国历史上最坏的总统,没有之一

诗意世界
2025-09-27 11:50:19
停水通知!今晚开始!最长8小时!天津这些地区将受影响...

停水通知!今晚开始!最长8小时!天津这些地区将受影响...

天津族
2025-11-20 07:47:47
曝光!河北这所医院被警告处罚

曝光!河北这所医院被警告处罚

新牛城
2025-11-20 12:53:36
女神刘亦菲字迹

女神刘亦菲字迹

微微热评
2025-11-18 15:34:34
她这大体格真绝了,目测身高180,这才是无数人心中的女神形象

她这大体格真绝了,目测身高180,这才是无数人心中的女神形象

情感大头说说
2025-11-18 13:38:18
全运会乒乓女团落幕!诞生3个赢家、2个输家,孙颖莎、陈梦在列

全运会乒乓女团落幕!诞生3个赢家、2个输家,孙颖莎、陈梦在列

知轩体育
2025-11-19 23:51:51
山东女团夺冠现场观众大喊河北队,陈梦用手指做禁止出声手势回击

山东女团夺冠现场观众大喊河北队,陈梦用手指做禁止出声手势回击

阿废冷眼观察所
2025-11-20 01:18:59
太无耻!男子陈某被捕,10天找了5个美女:无非就是想白嫖

太无耻!男子陈某被捕,10天找了5个美女:无非就是想白嫖

潇湘晨报
2025-11-19 09:20:30
牛奶加热就变“毒”?院士提醒:热牛奶的5个误区,早了解早受益

牛奶加热就变“毒”?院士提醒:热牛奶的5个误区,早了解早受益

冷眼看世界728
2025-11-19 16:30:03
出大事了,美国大使馆被袭击?日本机毁人亡,五角大楼宣布撤兵

出大事了,美国大使馆被袭击?日本机毁人亡,五角大楼宣布撤兵

梁讯
2025-11-19 13:52:54
当下是牛市“中场休息”,看好五大方向!周应波最新研判

当下是牛市“中场休息”,看好五大方向!周应波最新研判

中国基金报
2025-11-20 10:11:51
广东宏远VS山西男篮!萨林杰首秀,崔永熙出战,杜锋拒绝爆冷

广东宏远VS山西男篮!萨林杰首秀,崔永熙出战,杜锋拒绝爆冷

体坛瞎白话
2025-11-20 10:30:56
许绍雄葬礼:李国麟着装挨轰不敬亡者,高海宁被批吃人血馒头?

许绍雄葬礼:李国麟着装挨轰不敬亡者,高海宁被批吃人血馒头?

杨仔述
2025-11-19 17:12:43
玄彬孙艺珍获影帝影后!男方首获奖,女方二轮大满贯,都感谢儿子

玄彬孙艺珍获影帝影后!男方首获奖,女方二轮大满贯,都感谢儿子

一只番茄鱼
2025-11-19 23:11:26
黄金,突发巨震!

黄金,突发巨震!

证券时报e公司
2025-11-20 12:14:09
全国仅13只成体!佛山男子买甲鱼混进4只,花40年培育800多只

全国仅13只成体!佛山男子买甲鱼混进4只,花40年培育800多只

万象硬核本尊
2025-10-23 17:57:29
2025-11-20 15:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
11714文章数 176335关注度
往期回顾 全部

科技要闻

英伟达单季狂揽570亿美元,手握5000亿订单

头条要闻

日媒爆料:高市或于中国重要日子当天参拜靖国神社

头条要闻

日媒爆料:高市或于中国重要日子当天参拜靖国神社

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌易梦玲恋情曝光,相差16岁

财经要闻

霸王茶姬创始人将与“光伏女神”结婚

汽车要闻

一汽丰田发布IT'S TiME 3.0 三款焕新产品同步亮相

态度原创

旅游
艺术
亲子
家居
时尚

旅游要闻

徐州将启动“彭城七里·且徐行”文旅系列活动

艺术要闻

陈洪绶:花鸟册二十开

亲子要闻

3岁女儿嫌弃小区车多,让爸爸赶紧买新房子,一番话让人哭笑不得

家居要闻

黑白极简 慵懒通透空间

入冬时节,高雅人士都在品鉴什么好东西?

无障碍浏览 进入关怀版