网易首页 > 网易号 > 正文 申请入驻

何恺明团队新作:扩散模型可能被用错了

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

何恺明又一次返璞归真。

最新论文直接推翻扩散模型的主流玩法——不让模型预测噪声,而是直接画干净图。



如果你熟悉何恺明的作品,会发现这正是他创新的典型路径,不提出更复杂的架构,而是把问题拆回最初的样子,让模型做它最擅长的那件事

实际上,扩散模型火了这么多年,架构越做越复杂,比如预测噪声、预测速度、对齐latent、堆tokenizer、加VAE、加perceptual loss……

但大家似乎忘了,扩散模型原本就是去噪模型。

现在这篇新论文把这件事重新摆上桌,既然叫denoising模型,那为什么不直接denoise?

于是,在ResNet、MAE等之后,何恺明团队又给出了一个“大道至简”的结论:扩散模型应该回到最初——直接预测图像

扩散模型可能被用错了

当下的主流扩散模型,虽然设计思想以及名为“去噪”,但在训练时,神经网络预测的目标往往并不是干净的图像,而是噪声, 或者是一个混合了图像与噪声的速度场

实际上,预测噪声和预测干净图差得很远。

根据流形假设,自然图像是分布在高维像素空间中的低维流形上的,是有规律可循的干净数据;而噪声则是均匀弥散在整个高维空间中的,不具备这种低维结构。



简单理解就是,把高维像素空间想象成一个巨大的3D房间,而干净的自然图像其实都挤在房间里的一块2D屏幕上。这就是流形假设——自然数据看着维度高,实则集中在一个低维的「曲面(流形)」上。

但噪声不一样。它是弥漫在整个3D房间里的雪花点,不在屏幕上;而速度场也一样,一半在屏上、一半在屏外,同样也脱离了「流形」的规律。

这就导致了一个核心矛盾,在处理高维数据时,例如将图像切分为16x16甚至32x32的大Patch,要求神经网络去拟合无规律的高维噪声,需要极大的模型容量来保留所有信息,这很容易导致模型训练崩溃。

而相反呢,如果让网络直接预测干净的图像,本质上就是让网络学习如何将噪点投影回低维流形,这对于网络容量的要求要低得多,也更符合神经网络“过滤噪声、保留信号”的原本设计。



于是,这篇文章提出了一个极简的架构JiT——Just image Transformers。

正如其名,这就是一个纯粹处理图像的Transformer,它的设计非常简单。没有像普遍的扩散模型一样使用VAE压缩潜空间,也没有设计任何Tokenizer,不需要CLIP或DINO等预训练特征的对齐,也不依赖任何额外的损失函数。

完全从像素开始,用一个纯粹Transformer去做denoise

JiT就像一个标准的ViT,它将原始像素切成大Patch(维度可高达3072维甚至更高)直接输入,唯一的改动就是将输出目标设定为直接预测干净的图像块。



实验结果显示,在低维空间下,预测噪声和预测原图的表现难分伯仲;但一旦进入高维空间,传统的预测噪声模型彻底崩溃,FID(越低越优)指数级飙升,而直接预测原图JiT却依然稳健。



模型的扩展能力也很出色。即使将patch尺寸扩大到64x64,让输入维度高达一万多维,只要坚持预测原图,无需增加网络宽度也能实现高质量生成。



团队甚至发现,在输入端人为引入瓶颈层进行降维,不仅不会导致模型失效,反而因为契合了流形学习过滤噪声的本质,进一步提升了生成质量。

这种极简架构在不依赖任何复杂组件或预训练的情况下,在ImageNet 256x256和512x512上达到了1.82和1.78的SOTA级FID分数。



作者介绍

这篇论文的一作是何恺明的开门弟子之一黎天鸿,本科毕业于清华姚班,在MIT获得了硕博学位之后,目前在何恺明组内从事博士后研究。



他的主要研究方向是表征学习、生成模型以及两者之间的协同作用。目标是构建能够理解人类感知之外的世界的智能视觉系统。

此前曾作为一作和何恺明开发了自条件图像生成框架RCG,团队最新的多项研究中他也都有参与。



也可以说这是一位酷爱湖南菜的学者,把菜谱都展示在了自己的主页上。



论文地址:https://arxiv.org/abs/2511.13720

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“尼帕病毒”来势汹汹,建议:每家备好5样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好5样东西,关键时刻能救命

黑哥讲现代史
2026-01-28 11:19:43
火箭队行动了!追逐19+3+4控卫,解放阿门?小史密斯或改打中锋

火箭队行动了!追逐19+3+4控卫,解放阿门?小史密斯或改打中锋

熊哥爱篮球
2026-01-28 12:09:36
山东巨人徐富海去世,身高2.4米,患十多种疾病,母亲拉着他要饭

山东巨人徐富海去世,身高2.4米,患十多种疾病,母亲拉着他要饭

窥史
2026-01-26 19:51:31
最后一次克利夫兰打球!名记爆料詹姆斯,退役或提前,骑士送致敬

最后一次克利夫兰打球!名记爆料詹姆斯,退役或提前,骑士送致敬

阿泰希特
2026-01-28 13:30:02
76人三巨头83分大胜三杀雄鹿 恩比德29+9乔治32分特纳31分

76人三巨头83分大胜三杀雄鹿 恩比德29+9乔治32分特纳31分

醉卧浮生
2026-01-28 11:34:48
崇祯不是背锅侠?大明亡国的真正祸首是那个主动 “放火” 的君主

崇祯不是背锅侠?大明亡国的真正祸首是那个主动 “放火” 的君主

猫眼观史
2026-01-27 22:45:43
李彦宏接受《时代》专访:AGI可能不存在,中国模型落后的不太多

李彦宏接受《时代》专访:AGI可能不存在,中国模型落后的不太多

凤凰网科技
2026-01-27 12:37:08
国务院国资委谈央企重组:减少行业内卷,支持央企高质量并购

国务院国资委谈央企重组:减少行业内卷,支持央企高质量并购

南方都市报
2026-01-28 12:34:07
英国网红晒中国就医账单:300英镑解决胃痛!我们的医疗被抢了吗

英国网红晒中国就医账单:300英镑解决胃痛!我们的医疗被抢了吗

李砍柴
2026-01-24 20:06:10
根据工作需要,达州市委书记邵革军补选为成都市人大代表

根据工作需要,达州市委书记邵革军补选为成都市人大代表

澎湃新闻
2026-01-27 09:19:04
78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

洲洲影视娱评
2026-01-28 12:23:18
81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

揽星河的笔记
2025-11-12 12:36:17
只能交易出去?广东“新后卫”将跌出轮换,或遭多队疯抢!

只能交易出去?广东“新后卫”将跌出轮换,或遭多队疯抢!

绯雨儿
2026-01-27 14:03:25
开油车的笑了,开电车的慌了?2026油电新政实锤,税费规则全变了

开油车的笑了,开电车的慌了?2026油电新政实锤,税费规则全变了

刘哥谈体育
2026-01-28 12:29:49
有色金属起飞,2026最具潜力的20家细分龙头清单(完整版)

有色金属起飞,2026最具潜力的20家细分龙头清单(完整版)

叮当当科技
2026-01-28 07:48:41
中方正采取什么措施确保委内瑞拉总统夫妇立即获释?外交部回应

中方正采取什么措施确保委内瑞拉总统夫妇立即获释?外交部回应

财联社
2026-01-27 15:33:54
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
世界倒退最快的国家:从全球第六到一贫如洗,仅仅用了5年

世界倒退最快的国家:从全球第六到一贫如洗,仅仅用了5年

老谢谈史
2025-12-03 13:42:30
中国第一女神枪手,三枪一洞击毙悍匪显神威,病逝后万人自发送别

中国第一女神枪手,三枪一洞击毙悍匪显神威,病逝后万人自发送别

野史留根
2024-04-28 21:44:31
隐忍24年,陈婷终于撕下完美伪装,她给所有“已婚女人”上了一课

隐忍24年,陈婷终于撕下完美伪装,她给所有“已婚女人”上了一课

瓜汁橘长Dr
2025-12-30 17:03:39
2026-01-28 14:11:00
量子位 incentive-icons
量子位
追踪人工智能动态
12074文章数 176366关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

高市早苗拉票时哭了:这三个月我咬紧牙关、全力以赴

头条要闻

高市早苗拉票时哭了:这三个月我咬紧牙关、全力以赴

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

王祖贤入驻某音:一条7秒视频吸粉55万

财经要闻

40倍杠杆断裂!水贝一黄金平台兑付困难

汽车要闻

中国豪华车老大之争:奥迪凭啥干掉奔驰宝马?

态度原创

本地
时尚
手机
公开课
军事航空

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

被章若楠、舒淇带火的毛衣,这样穿太时髦了!

手机要闻

三星One UI 8.5将升级Now Bar,锁屏底部显示漏接电话

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗竖起巨幅宣传画:一艘美军航母被炸

无障碍浏览 进入关怀版