网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

2025-11-19 20:31:28　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：KingHZ

【新智元导读】扩散模型「去噪」，是不是反而忘了真正去噪？何恺明携弟子出手，回归本源！

何恺明新作！

无需使用tokenizer，无需预训练，也无需任何额外的损失函数，何恺明等提出了一种「简单但强大」的方法。

他们证明，Transformer简单地在像素上使用大尺寸图像块（large-patch），就能成为一个强大的生成式模型。

预印本链接：https://arxiv.org/abs/2511.13720

标题：Back to Basics: Let Denoising Generative Models Denoise

论文中给出的生成样本，可见图像质量相当细腻自然，色彩和结构表达力也很强：

作为参照基准，他们在表7和表8中与前人研究成果进行了系统对比。

相较于其他基于像素的方法，新方案完全由通用型Transformer架构驱动，具有计算友好特性，成功避免了分辨率翻倍时计算量的二次增长（详见表8中的浮点运算量统计Gflops）。

表7评估了5万张生成样本的FID和IS指标。

表8呈现了ImageNet在512×512分辨率下的基准测试结果。

JiT模型通过采用更激进的块大小，用较低的计算代价实现出色的生成效果。

他们坦言，推动的是一种面向原始自然数据的「扩散+Transformer」建模理念，强调结构简洁、过程闭环、自洽独立。

JiT全面展示了纯Transformer架构在图像生成中的潜力，而这种理念在其他自然数据领域（如蛋白质、分子、气象等）同样大有可为，尤其在这些领域中设计tokenizer往往异常困难。

通过最小化特定领域的定制设计，它们希望，这种起源于视觉的通用建模范式，未来能在更广阔的跨学科场景中落地生根。

以前，扩散模型全搞错了？

论文一开始，就点名：如今的去噪扩散模型走了一条歧路——

其实，它们并不是真正意义上的「去噪」。

它们并不直接生成干净图像，而是预测噪声或带噪声的量。

何恺明新研究的核心观点在于：预测干净数据和预测带噪数据，本质上截然不同。

根据流形假设，自然图像数据应分布在低维流形上，而带噪数据则不具备这一特性。

图1. 流形假设示意图

流形假设的核心思想是：自然图像，存在于高维像素空间中的一个低维流形之上。

在此概念框架下，干净图像x位于流形之上，而噪声ϵ或流速度v（例如 v = x - ϵ）本质上则游离于流形之外。

这揭示了去噪模型训练的两种根本不同路径：一是训练神经网络直接预测干净图像（即x-prediction），二是训练其预测噪声或含噪量（即ϵ/v-prediction）。

若要高维空间中预测噪声，模型就必须具备极高的容量——因为它需要完整保留噪声的所有信息。

而相较之下，如果目标是预测干净数据，即便神经网络容量有限，也能胜任，因为它只需保留低维信息，同时滤除噪声。

此外，扩散模型还有多个缺陷：

在像素空间或其他高维场景，现有扩散模型仍普遍面临「维度灾难」（curse of dimensionality），难以拓展。
扩散模型严重依赖预训练潜空间，难以自洽，缺乏独立建模能力。

为了解决这个问题，研究者们近年来愈发重视「在像素空间中进行扩散建模」。

何恺明等人认为，这些架构选择的背后，其实是在努力克服预测高维带噪量所需的建模难度。

他们这次回归扩散建模的基本原理：让神经网络直接预测干净图像。

最后，他们发现，只要采用最基础的Vision Transformer（ViT），基于大尺寸图像Patch（由原始像素构成）即可实现有效建模。

新方案完全自洽：

无需任何预训练或辅助损失函数，

无需潜空间tokenizer，

无需对抗损失，

无需感知损失（即不依赖预训练分类器），

也无需特征对齐机制（因此不依赖自监督预训练）。

他们称之为「纯图像Transformer」（Just image Transformers，简称JiT）。

事实上，「x预测」这一策略并不新鲜，甚至可以追溯到最初的DDPM论文，其代码实现中就包含了这一形式。

论文链接：https://dl.acm.org/doi/abs/10.5555/3495724.3496298

标题：Denoising diffusion probabilistic models

不过在早期实验中，DDPM团队发现ϵ预测性能显著更好，从而逐渐成为标准做法。最后，这一做法无意中成了「历史的遗憾」。

在这项研究同时，也有研究在面向条件生成的世界模型中提倡采用x预测。

预印本：https://arxiv.org/abs/2509.24527

标题：Training Agents Inside of Scalable World Models

新研究并不试图「重新发明」x预测这个基本概念，而是想强调：在高维数据与低维流形共存的语境下，直接预测干净数据这一问题长期被忽视，但却至关重要。

扩散模型，一网打尽

扩散模型的预测，可以在三个不同空间中进行：x空间（即干净图像）、ϵ空间（噪声）或v空间（流速）。

选择在哪个空间建模，不仅决定了损失函数的定义位置，也影响了神经网络输出的内容。

需要特别强调的是：损失空间与网络输出空间可以不同，这一选择会对最终性能产生显著影响。

由于三者（x、ϵ、v）之间彼此依赖，只需设定一个网络输出，同时结合另外两个约束条件，即可推导出其余两个变量。

这两个约束条件分别是：

比如，神经网络直接输出x，联立方程组

由此可解出：

这意味着：只要网络输出了x，其对应的ϵ和v都可以显式计算出来。表1的(a)列正是总结了这种情况下的转换关系。

同理，若网络直接输出ϵ或v，即可推出相应的三元关系。表1中的(b)和(c)列分别总结了ϵ预测与v预测下的变换。

综上：x、ϵ、v三者中只需预测其一，另外两个均可由公式推导得出。

理论上，损失函数也可以定义在任意空间。

已有研究指出：在已知不同预测空间之间重参数化关系的前提下，不同损失形式之间是加权等价的。具体形式已在表1中系统列出。

九种组合与生成过程

将x、ϵ、v三种预测空间与三种损失空间进行两两组合，总共构成了九种合法的建模形式（见表1）。这些组合在数学上各自有效，但两两之间并不完全等价。

此外，如图2所示，作者通过一个玩具实验展示：当原始低维数据被嵌入更高维空间后，只有x预测仍能稳定生成合理输出，ϵ与v预测则迅速退化。

无论训练时采用哪种预测/损失组合，推理阶段都可统一转换至v空间（即表1中第3行），再进行ODE采样。因此，这九种形式在生成意义上均合法有效，可根据任务需求灵活选择。

JIT：微微调一下ViT

ViT的核心思想是「图像Patch上Transformer」（ToP，Transformer on Patches）——新提出的架构设计也沿用这一理念。

如图3所示，这种结构与DiT（Diffusion Transformer）非常相似，但核心差别在于：JiT直接在原始像素上建模，完全依赖x预测。

此外，模型在训练过程中也进行条件控制（如时间t和类别标签），采用了adaLN-Zero方法来实现条件嵌入。

表1总结了9种「损失空间 + 预测空间」的组合形式。

为研究它们在实际表现上的差异，研究者分别使用ViT-Base（JiT-B）模型对每种组合进行训练。

根据ImageNet上的大量实验，作者归纳出以下几个关键结论，进一步验证了「只用x预测+ViT」这一策略在高维像素扩散建模中的可行性与优势：

✅x预测至关重要

在高维设定（表2(a)，ImageNet 256×256，JiT-B/16，Patch维度为768）中，只有x预测在三种损失函数下都表现稳定，FID最低为8.62；
ϵ预测和v预测在所有损失下均表现灾难性失败，FID高达300+；

原因在于：ϵ和v包含高维噪声信息，对模型容量要求极高，而x预测只需保留低维干净数据结构，更容易学习；这与前文玩具实验的发现一致（图2）。

⚖️损失加权不是万能解法

类似研究也尝试组合不同预测与损失空间，在低维数据集上几乎所有组合都能成功；
但在高维设定下，如表2(a)所示，损失空间的切换无法拯救ϵ/v预测。

x预测在三种损失空间下都有效，而ϵ/v预测在所有损失权重下均失败，说明关键不在加权，而在预测对象本身。

表3展示了在不同噪声水平下（通过调整logit-normal分布的参数µ）各预测方式的FID变化：

对于x预测，适当提高噪声水平确实能改善性能（从14.44降至8.62）；
但对ϵ/v预测而言，再高的噪声也无济于事，灾难性失败无法避免，说明问题出在信息维度过高、无法有效传播。

图4展示了对线性Patch嵌入层加入低秩瓶颈（bottleneck）结构后的结果：

结果发现：适度瓶颈不仅不会崩溃，反而能提升性能——FID下降最多达到约1.3分。

这说明信息压缩有助于网络聚焦于低维有效特征，契合流形假设与人类感知机制。

虽然理论上增加模型容量可能有助于提升性能，但在高维下，这种方法成本高昂且并不必要。

表5和表6显示，哪怕Patch维度高达3072或12288，只要采用x预测，标准宽度模型依然能稳定工作。

模型设计与输入维度可以部分解耦，仅需按比例调整噪声强度即可适配更大分辨率。

JiT:不止无需tokenizer

在前文分析基础上，作者最终选择使用「x预测 + v损失（v-loss）」作为训练方案，对应表1中的组合 (3)(a)。

优化目标函数如下：

训练步骤（算法1）：

采样步骤（算法2）：

Transformer的关键优势在于其结构设计与任务解耦，因此可以从其他领域（如自然语言处理）借用先进模块来增强性能。

基础版（Baseline）：使用SwiGLU和RMSNorm

加入旋转位置编码RoPE与qk-norm（注意力归一化）

加入 in-context类别Token嵌入：不像ViT仅添加1个CLS Token，默认使用 32个类别Token

这些优化组件均来自语言模型研究，但在视觉扩散任务中同样显著提升性能：

在高分辨率像素生成上，表5表明JiT无惧维度灾难；表6则验证了JiT的可扩展性。

Just Image Transformers（JiT）证明了这样一个核心事实：只用原始像素+x预测+基础ViT结构，就足以实现顶尖性能。

相较其他方法，JiT具有以下独特优势：

结构极简：无需预训练、辅助损失或感知模块；

通用高效：利用标准Transformer即可训练；

稳定扩展：分辨率、模型规模提升不影响性能；

资源友好：FLOPs 控制良好，无维度灾难；

可进化性强：未来可接入更多语言模型模块进行微调提升。

最后，欣赏一下更多未筛选样例（un-curated examples）。

左右滑动查看

更多细节，请参考原文。

何恺明弟子：黎天鸿

论文一作为黎天鸿。

目前，他是麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）的博士后研究员，导师是何恺明。

在此之前，他在麻省理工学院攻读博士和硕士。

他本科毕业于清华大学「姚班」，获计算机科学学士学位。

他的研究兴趣集中在表征学习、生成模型，以及这两者之间的协同作用。他致力于构建能够超越人类感知、理解和建模世界的智能视觉系统。

参考资料：

https://arxiv.org/abs/2511.13720

https://www.tianhongli.me/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

何恺明重磅新作：Just image Transformers让去噪模型回归基本功

机器之心Pro 2025-11-19 11:05:56
0 跟贴 0
OpenAI稀疏模型突破大模型黑箱困境，首次看清内部推理全过程

DeepTech深科技 2025-11-18 13:58:33
0 跟贴 0

Sakana AI造了个数字生命「培养皿」，AI学会打架、结盟、抢地盘

机器之心Pro 2025-11-05 13:58:14
0 跟贴 0

你刷到的视频是真的么？用物理规律拆穿Sora谎言

机器之心Pro 2025-11-05 16:27:02
0 跟贴 0
李飞飞再谈世界模型：AGI是营销术语，空间智能才是AI缺失的能力

DeepTech深科技 2025-11-17 18:19:46
3 跟贴 3

77岁「AI教父」Hinton：AI早有意识！我们打造的智能，可能终结人类文明

新智元 2025-10-11 13:21:31
106 跟贴 106

如视发布空间大模型Argus1.0，支持全景图等多元输入，行业首创！

机器之心Pro 2025-11-19 14:12:26
0 跟贴 0
会「进化」的合成数据！无需上传隐私，也能生成高质量垂域数据

机器之心Pro 2025-07-11 18:44:13
0 跟贴 0

华为诺亚发布ScaleNet：模型放大通用新范式

机器之心Pro 2025-11-18 16:07:35
0 跟贴 0
Gemini 3登顶，一文快速看懂谷歌AI如何逆风翻盘 | 巴伦精选

钛媒体APP 2025-11-19 20:54:09
0 跟贴 0
Gemini 3 终于来了！登顶LMArena，碾压所有基准

DeepTech深科技 2025-11-19 11:10:12
5 跟贴 5
就是个模型，有啥大惊小怪的

沙雕动画 2025-11-15 15:50:41
0 跟贴 0
驾照被吊销的老司机，会开车不算啥，考试跟会开车不是一个概念

爱生活的小虎 2025-11-16 08:59:46
1 跟贴 1
科学家研发大模型新框架，助力解决RISC-V软件生态瓶颈

DeepTech深科技 2025-10-12 19:05:00
1 跟贴 1
香港大学提出无需数据标记的ViT密集表征增强方法

机器之心Pro 2025-11-19 14:59:02
0 跟贴 0
大漂亮基地坐镇琉球又解禁战机编码锁联合协防剑指何方？

华尔街九哥 2025-11-18 18:00:04
0 跟贴 0
逆流而上的螺旋，不受地心引力影响？这到底是什么原理！

勇笑搞笑 2025-11-18 17:34:30
1 跟贴 1
物理学史上，最伟大的10个公式是什么？

点亮经讯 2025-11-19 00:16:16
1 跟贴 1
中国公民赴俄将免签，飞莫斯科、圣彼得堡搜索量激增3倍以上

纵相新闻 2025-11-19 15:05:03
15886 跟贴 15886
能量的本质是什么？是人为发明的概念吗？ #科普

点亮经讯 2025-11-18 00:22:56
0 跟贴 0
NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

机器之心Pro 2025-11-19 15:25:44
0 跟贴 0
他47岁转方向，一举解决了球体堆积领域内最大的未解问题

机器之心Pro 2025-07-10 14:12:12
3 跟贴 3
这是什么原理

米高没搞笑 2025-11-18 09:38:47
1 跟贴 1
上海多个小区已出现，大量市民反感：没经过我同意！“深夜回家，电梯里突然传出声音，吓了一跳”

上观新闻 2025-11-19 15:07:13
1507 跟贴 1507
多模态检索新突破，用软标签打破传统刚性映射约束，全面超越CLIP

量子位 2025-11-15 13:18:07
0 跟贴 0
一场零证据的算法爱情：1095天零同框，10亿+流量背后的精准收割

罗氏八卦 2025-11-19 17:55:06
0 跟贴 0
地平线HSD赋能深蓝L06，高阶智驾价格锚点降至13.99万

趣味科技 2025-11-19 22:36:47
0 跟贴 0
打满五场山东队获得全运会乒乓球女团金牌

央视新闻客户端 2025-11-19 21:34:49
2174 跟贴 2174
VFMTok: Visual Foundation Models驱动的Tokenizer时代来临

机器之心Pro 2025-10-28 18:00:47
0 跟贴 0
于东来卸任胖东来总经理，多名高管退出

极目新闻 2025-11-19 09:23:08
585 跟贴 585
函数图像的辨别，中考易错题，竞赛题

马老师数学课堂 2025-11-19 03:37:00
0 跟贴 0
“日本版OpenAI”创下估值新高！Transformer八子之一创办

量子位 2025-11-19 14:34:05
0 跟贴 0
太恶劣!上海数名蔚来车主同时被坑惨!消费者寒心

看看新闻Knews 2025-11-19 21:52:06
75 跟贴 75
曾仕强：首次视频讲解了生死！曾经的万字长文，精要在这三公式！

UP主硬照鬼才 2025-11-18 06:20:43
1 跟贴 1
深度科普：宇宙有边界吗？边界外面又是什么？

宇宙时空 2025-11-19 21:46:54
2 跟贴 2
有钱就可以为所欲为？乒乓球圈，你会不会偷换概念？

体育盲司马刚 2025-11-18 20:00:14
6 跟贴 6
听说，大家都在梭后训练？最佳指南来了

机器之心Pro 2025-10-09 10:35:40
0 跟贴 0
中国军网在海外发布备战视频出现月球特写画面

北京日报 2025-11-19 10:31:07
1701 跟贴 1701
iPhone 16充电时冒烟苹果：非质量问题也非人为原因

极目新闻 2025-11-19 15:58:04
2408 跟贴 2408
荷兰高官：已暂停对安世半导体的干预

环球网 2025-11-19 17:18:07
2005 跟贴 2005

中方“斩首”警告删除，日方误以为中国软了，没想到更狠的一招！

中方“斩首”警告删除，日方误以为中国软了，没想到更狠的一招！

我心纵横天地间

2025-11-19 12:54:28

台上玄彬孙艺珍深情表白，台下宋慧乔看红眼？明星表情耐人寻味

台上玄彬孙艺珍深情表白，台下宋慧乔看红眼？明星表情耐人寻味

安宁007

2025-11-20 01:14:29

特朗普：美国当年“愚蠢地”放手，导致台湾现在生产了几乎100%的芯片，太丢脸了

特朗普：美国当年“愚蠢地”放手，导致台湾现在生产了几乎100%的芯片，太丢脸了

极目新闻

2025-11-18 22:18:48

陪玩陪睡已过时，拳头塞嘴、集体开嫖、戚薇遭殃，阴暗面彻底曝光

陪玩陪睡已过时，拳头塞嘴、集体开嫖、戚薇遭殃，阴暗面彻底曝光

冷紫葉

2025-11-19 14:56:46

科兴生物收到纳斯达克退市函，因“治理混乱”已停牌超6年，创始人内斗激烈

科兴生物收到纳斯达克退市函，因“治理混乱”已停牌超6年，创始人内斗激烈

红星新闻

2025-11-19 21:35:11

直接起飞！中国篮协重磅决定，CBA升降级要提前，天要亮了

直接起飞！中国篮协重磅决定，CBA升降级要提前，天要亮了

宗介说体育

2025-11-19 11:34:43

向高市早苗提问日本议员吐露：听到她的回答，我心想“糟了”，不敢接着问下去

向高市早苗提问日本议员吐露：听到她的回答，我心想“糟了”，不敢接着问下去

环球网资讯

2025-11-19 16:29:32

为什么日本只敢来挑衅中国？三次教训告诉我们，仁慈换不来尊重！

为什么日本只敢来挑衅中国？三次教训告诉我们，仁慈换不来尊重！

壹知眠羊

2025-11-20 03:04:19

寒潮来袭羽绒服迎来“涨价狂潮” 鸭绒从17万一吨涨到58万

寒潮来袭羽绒服迎来“涨价狂潮” 鸭绒从17万一吨涨到58万

闪电新闻

2025-11-19 11:23:35

邵雨琪获十五运女子跳高金牌

体坛周报

2025-11-19 21:56:09

世界太魔幻，高中学历骗子成我国大学首席科学家，学术圈怎么了？

世界太魔幻，高中学历骗子成我国大学首席科学家，学术圈怎么了？

李将平老师

2025-11-18 20:28:43

瓦茨克：现在认为解雇图赫尔是错误，我们关系已恢复良好

瓦茨克：现在认为解雇图赫尔是错误，我们关系已恢复良好

懂球帝

2025-11-19 22:31:22

朱婷接受采访竟被骂，完整内容曝光，事关回归国家队

朱婷接受采访竟被骂，完整内容曝光，事关回归国家队

跑者排球视角

2025-11-19 23:40:41

霍尊也没想到，自己复出后，分手五年的陈露亲手撕碎他最后的体面

霍尊也没想到，自己复出后，分手五年的陈露亲手撕碎他最后的体面

手工制作阿歼

2025-11-19 09:56:53

前辈是怎么找到她同事家的？！

贵圈真乱

2025-11-19 14:14:07

江苏联赛名单：张籽萱范泊宁郭中楠魏伊衫进一队！吴梦洁成队长

江苏联赛名单：张籽萱范泊宁郭中楠魏伊衫进一队！吴梦洁成队长

金毛爱女排

2025-11-20 00:00:03

马筱梅怀双胞胎！大S儿女失去财产继承权，忙隔空示爱夺回汪小菲

马筱梅怀双胞胎！大S儿女失去财产继承权，忙隔空示爱夺回汪小菲

八星人

2025-11-19 14:38:50

台媒曝杨宗纬一家为“恶邻”，其家人随地“便溺”，杨宗纬回应了

台媒曝杨宗纬一家为“恶邻”，其家人随地“便溺”，杨宗纬回应了

鑫鑫说说

2025-11-19 16:00:26

场均23分，摆上货架却无人问津！2年9600万顶薪，你离退役不远了

场均23分，摆上货架却无人问津！2年9600万顶薪，你离退役不远了

老梁体育漫谈

2025-11-19 23:38:18

补给船所有信号突然消失！菲律宾海警：中方出手对美实施电磁压制

补给船所有信号突然消失！菲律宾海警：中方出手对美实施电磁压制

壹知眠羊

2025-11-20 02:58:02

AI产业主平台领航智能+时代

13908文章数 66278关注度

往期回顾全部

科技要闻

一夜封神，Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄中方回应

体育要闻

世界杯最小参赛国诞生！15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤！

财经要闻

重磅！中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要第5代帝豪本身就是价值

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

亲子

本地

手机

公开课

教育要闻

目前去日本留学安全吗

亲子要闻

爸爸就是最大的危险

本地新闻

第十二届影展携手重庆来福士丨两江交汇，光影共生

手机要闻

OPPO Find X9系列海外卖爆！销量接近上代2倍

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版