网易首页 > 网易号 > 正文 申请入驻

永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】扩散模型「去噪」,是不是反而忘了真正去噪?何恺明携弟子出手,回归本源!

何恺明新作!

无需使用tokenizer,无需预训练,也无需任何额外的损失函数,何恺明等提出了一种「简单但强大」的方法。

他们证明,Transformer简单地在像素上使用大尺寸图像块(large-patch),就能成为一个强大的生成式模型。


预印本链接:https://arxiv.org/abs/2511.13720

标题:Back to Basics: Let Denoising Generative Models Denoise

论文中给出的生成样本,可见图像质量相当细腻自然,色彩和结构表达力也很强:


作为参照基准,他们在表7和表8中与前人研究成果进行了系统对比。

相较于其他基于像素的方法,新方案完全由通用型Transformer架构驱动,具有计算友好特性,成功避免了分辨率翻倍时计算量的二次增长(详见表8中的浮点运算量统计Gflops)。

表7评估了5万张生成样本的FID和IS指标。


表8呈现了ImageNet在512×512分辨率下的基准测试结果。

JiT模型通过采用更激进的块大小,用较低的计算代价实现出色的生成效果。


他们坦言,推动的是一种面向原始自然数据的「扩散+Transformer」建模理念,强调结构简洁、过程闭环、自洽独立

JiT全面展示了纯Transformer架构在图像生成中的潜力,而这种理念在其他自然数据领域(如蛋白质、分子、气象等)同样大有可为,尤其在这些领域中设计tokenizer往往异常困难。

通过最小化特定领域的定制设计,它们希望,这种起源于视觉的通用建模范式,未来能在更广阔的跨学科场景中落地生根。

以前,扩散模型全搞错了?

论文一开始,就点名:如今的去噪扩散模型走了一条歧路——

其实,它们并不是真正意义上的「去噪」。

它们并不直接生成干净图像,而是预测噪声或带噪声的量。

何恺明新研究的核心观点在于:预测干净数据和预测带噪数据,本质上截然不同

根据流形假设,自然图像数据应分布在低维流形上,而带噪数据则不具备这一特性。


图1. 流形假设示意图

流形假设的核心思想是:自然图像,存在于高维像素空间中的一个低维流形之上。

在此概念框架下,干净图像x位于流形之上,而噪声ϵ或流速度v(例如 v = x - ϵ)本质上则游离于流形之外

这揭示了去噪模型训练的两种根本不同路径:一是训练神经网络直接预测干净图像(即x-prediction),二是训练其预测噪声或含噪量(即ϵ/v-prediction)。

若要高维空间中预测噪声,模型就必须具备极高的容量——因为它需要完整保留噪声的所有信息。

而相较之下,如果目标是预测干净数据,即便神经网络容量有限,也能胜任,因为它只需保留低维信息,同时滤除噪声。

此外,扩散模型还有多个缺陷:

  • 在像素空间或其他高维场景,现有扩散模型仍普遍面临「维度灾难」(curse of dimensionality),难以拓展。

  • 扩散模型严重依赖预训练潜空间,难以自洽,缺乏独立建模能力。

为了解决这个问题,研究者们近年来愈发重视「在像素空间中进行扩散建模」。

何恺明等人认为,这些架构选择的背后,其实是在努力克服预测高维带噪量所需的建模难度。

他们这次回归扩散建模的基本原理:让神经网络直接预测干净图像

最后,他们发现,只要采用最基础的Vision Transformer(ViT),基于大尺寸图像Patch(由原始像素构成)即可实现有效建模。

新方案完全自洽:

无需任何预训练或辅助损失函数,

无需潜空间tokenizer,

无需对抗损失 ,

无需感知损失(即不依赖预训练分类器),

也无需特征对齐机制(因此不依赖自监督预训练)。

他们称之为「纯图像Transformer」(Just image Transformers,简称JiT)。

事实上,「x预测」这一策略并不新鲜,甚至可以追溯到最初的DDPM论文,其代码实现中就包含了这一形式。


论文链接:https://dl.acm.org/doi/abs/10.5555/3495724.3496298

标题:Denoising diffusion probabilistic models

不过在早期实验中,DDPM团队发现ϵ预测性能显著更好,从而逐渐成为标准做法。最后,这一做法无意中成了「历史的遗憾」。

在这项研究同时,也有研究在面向条件生成的世界模型中提倡采用x预测。


预印本:https://arxiv.org/abs/2509.24527

标题:Training Agents Inside of Scalable World Models

新研究并不试图「重新发明」x预测这个基本概念,而是想强调:在高维数据与低维流形共存的语境下,直接预测干净数据这一问题长期被忽视,但却至关重要

扩散模型,一网打尽

扩散模型的预测,可以在三个不同空间中进行:x空间(即干净图像)、ϵ空间(噪声)或v空间(流速)。

选择在哪个空间建模,不仅决定了损失函数的定义位置,也影响了神经网络输出的内容。

需要特别强调的是:损失空间与网络输出空间可以不同,这一选择会对最终性能产生显著影响。

由于三者(x、ϵ、v)之间彼此依赖,只需设定一个网络输出,同时结合另外两个约束条件,即可推导出其余两个变量。

这两个约束条件分别是:


比如,神经网络直接输出x,联立方程组


由此可解出:


这意味着:只要网络输出了x,其对应的ϵ和v都可以显式计算出来。表1的(a)列正是总结了这种情况下的转换关系。

同理,若网络直接输出ϵ或v,即可推出相应的三元关系。表1中的(b)和(c)列分别总结了ϵ预测与v预测下的变换。


综上:x、ϵ、v三者中只需预测其一,另外两个均可由公式推导得出

理论上,损失函数也可以定义在任意空间

已有研究指出:在已知不同预测空间之间重参数化关系的前提下,不同损失形式之间是加权等价的。具体形式已在表1中系统列出。

九种组合与生成过程

将x、ϵ、v三种预测空间与三种损失空间进行两两组合,总共构成了九种合法的建模形式(见表1)。这些组合在数学上各自有效,但两两之间并不完全等价

此外,如图2所示,作者通过一个玩具实验展示:当原始低维数据被嵌入更高维空间后,只有x预测仍能稳定生成合理输出,ϵ与v预测则迅速退化。


无论训练时采用哪种预测/损失组合,推理阶段都可统一转换至v空间(即表1中第3行),再进行ODE采样。因此,这九种形式在生成意义上均合法有效,可根据任务需求灵活选择。

JIT:微微调一下ViT

ViT的核心思想是「图像Patch上Transformer」(ToP,Transformer on Patches)——新提出的架构设计也沿用这一理念。


如图3所示,这种结构与DiT(Diffusion Transformer)非常相似核心差别在于:JiT直接在原始像素上建模,完全依赖x预测

此外,模型在训练过程中也进行条件控制(如时间t和类别标签),采用了adaLN-Zero方法来实现条件嵌入。

表1总结了9种「损失空间 + 预测空间」的组合形式。

为研究它们在实际表现上的差异,研究者分别使用ViT-Base(JiT-B)模型对每种组合进行训练。

根据ImageNet上的大量实验,作者归纳出以下几个关键结论,进一步验证了「只用x预测+ViT」这一策略在高维像素扩散建模中的可行性与优势:

x预测至关重要

  • 高维设定(表2(a),ImageNet 256×256,JiT-B/16,Patch维度为768)中,只有x预测在三种损失函数下都表现稳定,FID最低为8.62

  • ϵ预测和v预测在所有损失下均表现灾难性失败,FID高达300+;

原因在于:ϵ和v包含高维噪声信息,对模型容量要求极高,而x预测只需保留低维干净数据结构,更容易学习;这与前文玩具实验的发现一致(图2)。

⚖️损失加权不是万能解法

  • 类似研究也尝试组合不同预测与损失空间,在低维数据集上几乎所有组合都能成功;

  • 但在高维设定下,如表2(a)所示,损失空间的切换无法拯救ϵ/v预测。

x预测在三种损失空间下都有效,而ϵ/v预测在所有损失权重下均失败,说明关键不在加权,而在预测对象本身。


表3展示了在不同噪声水平下(通过调整logit-normal分布的参数µ)各预测方式的FID变化:

  • 对于x预测,适当提高噪声水平确实能改善性能(从14.44降至8.62);

  • 但对ϵ/v预测而言,再高的噪声也无济于事,灾难性失败无法避免,说明问题出在信息维度过高、无法有效传播。


图4展示了对线性Patch嵌入层加入低秩瓶颈(bottleneck)结构后的结果:


结果发现:适度瓶颈不仅不会崩溃,反而能提升性能——FID下降最多达到约1.3分。

这说明信息压缩有助于网络聚焦于低维有效特征,契合流形假设与人类感知机制。

虽然理论上增加模型容量可能有助于提升性能,但在高维下,这种方法成本高昂且并不必要。

表5和表6显示,哪怕Patch维度高达3072或12288,只要采用x预测,标准宽度模型依然能稳定工作。


模型设计与输入维度可以部分解耦,仅需按比例调整噪声强度即可适配更大分辨率。

JiT:不止无需tokenizer

在前文分析基础上,作者最终选择使用「x预测 + v损失(v-loss)」作为训练方案,对应表1中的组合 (3)(a)。

优化目标函数如下:


训练步骤(算法1):


采样步骤(算法2):


Transformer的关键优势在于其结构设计与任务解耦,因此可以从其他领域(如自然语言处理)借用先进模块来增强性能。

基础版(Baseline):使用SwiGLU和RMSNorm

加入旋转位置编码RoPE与qk-norm(注意力归一化)

加入 in-context类别Token嵌入:不像ViT仅添加1个CLS Token,默认使用 32个类别Token

这些优化组件均来自语言模型研究,但在视觉扩散任务中同样显著提升性能:


在高分辨率像素生成上,表5表明JiT无惧维度灾难; 表6则验证了JiT的可扩展性。

Just Image Transformers(JiT)证明了这样一个核心事实:只用原始像素+x预测+基础ViT结构,就足以实现顶尖性能。

相较其他方法,JiT具有以下独特优势:

结构极简无需预训练、辅助损失或感知模块;

通用高效利用标准Transformer即可训练;

稳定扩展分辨率、模型规模提升不影响性能;

资源友好FLOPs 控制良好,无维度灾难;

可进化性强未来可接入更多语言模型模块进行微调提升。

最后,欣赏一下更多未筛选样例(un-curated examples)。





左右滑动查看

更多细节,请参考原文。

何恺明弟子:黎天鸿


论文一作为黎天鸿。

目前,他是麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)的博士后研究员,导师是何恺明。

在此之前,他在麻省理工学院攻读博士和硕士。

他本科毕业于清华大学「姚班」,获计算机科学学士学位。


他的研究兴趣集中在表征学习、生成模型,以及这两者之间的协同作用。他致力于构建能够超越人类感知、理解和建模世界的智能视觉系统。

参考资料:

https://arxiv.org/abs/2511.13720

https://www.tianhongli.me/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方“斩首”警告删除,日方误以为中国软了,没想到更狠的一招!

中方“斩首”警告删除,日方误以为中国软了,没想到更狠的一招!

我心纵横天地间
2025-11-19 12:54:28
台上玄彬孙艺珍深情表白,台下宋慧乔看红眼?明星表情耐人寻味

台上玄彬孙艺珍深情表白,台下宋慧乔看红眼?明星表情耐人寻味

安宁007
2025-11-20 01:14:29
特朗普:美国当年“愚蠢地”放手,导致台湾现在生产了几乎100%的芯片,太丢脸了

特朗普:美国当年“愚蠢地”放手,导致台湾现在生产了几乎100%的芯片,太丢脸了

极目新闻
2025-11-18 22:18:48
陪玩陪睡已过时,拳头塞嘴、集体开嫖、戚薇遭殃,阴暗面彻底曝光

陪玩陪睡已过时,拳头塞嘴、集体开嫖、戚薇遭殃,阴暗面彻底曝光

冷紫葉
2025-11-19 14:56:46
科兴生物收到纳斯达克退市函,因“治理混乱”已停牌超6年,创始人内斗激烈

科兴生物收到纳斯达克退市函,因“治理混乱”已停牌超6年,创始人内斗激烈

红星新闻
2025-11-19 21:35:11
直接起飞!中国篮协重磅决定,CBA升降级要提前,天要亮了

直接起飞!中国篮协重磅决定,CBA升降级要提前,天要亮了

宗介说体育
2025-11-19 11:34:43
向高市早苗提问日本议员吐露:听到她的回答,我心想“糟了”,不敢接着问下去

向高市早苗提问日本议员吐露:听到她的回答,我心想“糟了”,不敢接着问下去

环球网资讯
2025-11-19 16:29:32
为什么日本只敢来挑衅中国?三次教训告诉我们,仁慈换不来尊重!

为什么日本只敢来挑衅中国?三次教训告诉我们,仁慈换不来尊重!

壹知眠羊
2025-11-20 03:04:19
寒潮来袭 羽绒服迎来“涨价狂潮” 鸭绒从17万一吨涨到58万

寒潮来袭 羽绒服迎来“涨价狂潮” 鸭绒从17万一吨涨到58万

闪电新闻
2025-11-19 11:23:35
邵雨琪获十五运女子跳高金牌

邵雨琪获十五运女子跳高金牌

体坛周报
2025-11-19 21:56:09
世界太魔幻,高中学历骗子成我国大学首席科学家,学术圈怎么了?

世界太魔幻,高中学历骗子成我国大学首席科学家,学术圈怎么了?

李将平老师
2025-11-18 20:28:43
瓦茨克:现在认为解雇图赫尔是错误,我们关系已恢复良好

瓦茨克:现在认为解雇图赫尔是错误,我们关系已恢复良好

懂球帝
2025-11-19 22:31:22
朱婷接受采访竟被骂,完整内容曝光,事关回归国家队

朱婷接受采访竟被骂,完整内容曝光,事关回归国家队

跑者排球视角
2025-11-19 23:40:41
霍尊也没想到,自己复出后,分手五年的陈露亲手撕碎他最后的体面

霍尊也没想到,自己复出后,分手五年的陈露亲手撕碎他最后的体面

手工制作阿歼
2025-11-19 09:56:53
前辈是怎么找到她同事家的?!

前辈是怎么找到她同事家的?!

贵圈真乱
2025-11-19 14:14:07
江苏联赛名单:张籽萱范泊宁郭中楠魏伊衫进一队!吴梦洁成队长

江苏联赛名单:张籽萱范泊宁郭中楠魏伊衫进一队!吴梦洁成队长

金毛爱女排
2025-11-20 00:00:03
马筱梅怀双胞胎!大S儿女失去财产继承权,忙隔空示爱夺回汪小菲

马筱梅怀双胞胎!大S儿女失去财产继承权,忙隔空示爱夺回汪小菲

八星人
2025-11-19 14:38:50
台媒曝杨宗纬一家为“恶邻”,其家人随地“便溺”,杨宗纬回应了

台媒曝杨宗纬一家为“恶邻”,其家人随地“便溺”,杨宗纬回应了

鑫鑫说说
2025-11-19 16:00:26
场均23分,摆上货架却无人问津!2年9600万顶薪,你离退役不远了

场均23分,摆上货架却无人问津!2年9600万顶薪,你离退役不远了

老梁体育漫谈
2025-11-19 23:38:18
补给船所有信号突然消失!菲律宾海警:中方出手对美实施电磁压制

补给船所有信号突然消失!菲律宾海警:中方出手对美实施电磁压制

壹知眠羊
2025-11-20 02:58:02
2025-11-20 06:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13908文章数 66278关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

教育
亲子
本地
手机
公开课

教育要闻

目前去日本留学安全吗

亲子要闻

爸爸就是最大的危险

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

手机要闻

OPPO Find X9系列海外卖爆!销量接近上代2倍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版