网易首页 > 网易号 > 正文 申请入驻

何恺明带大二本科生颠覆扩散图像生成:扔掉多步采样和潜空间,一步像素直出

0
分享至

何恺明,再次出手精简架构。

新方法Pixel Mean Flow(pMF),突破传统扩散模型/流模型限制。

两大传统组件多步采样和潜空间都被砍了,现在只需一步,直接在像素空间生成图像。


在ImageNet 256×256分辨率上,pMF达到了2.22 FID;512×512分辨率上则是2.48 FID。这是目前单步、无潜空间扩散模型在该基准上取得的最佳成绩之一。


砍掉扩散模型的两大件

现代扩散模型生成图像,一直离不开多步采样和潜空间编码。

多步采样意味着生成一张图需要跑几十甚至上百次神经网络,潜空间则需要先把图像压缩到一个低维空间再进行操作。两者的共同目的是把一个极度复杂的生成问题拆解成若干个相对简单的子问题。

近年来,研究社区分别在这两个方向上取得了进展:

一致性模型(Consistency Models)和何恺明团队2025年提出的MeanFlow在少步、单步采样上持续突破。


何恺明团队2026年1月提出的JiT(Just image Transformers)则证明了在原始像素空间做扩散模型的可行性。


但把这两条路合到一起,难度陡增。

少步模型要求单个网络能够处理不同起点和终点的轨迹;像素空间模型则需要在没有预训练tokenizer的情况下完成压缩和抽象。

两边的挑战叠加在一起,对架构设计提出了更高的要求。

pMF的核心设计

pMF的思路可以概括为:网络直接输出像素级别的去噪图像,但训练时用速度场来计算损失。

具体来说,pMF定义了一个新的场x,它是从平均速度场u通过简单变换得到的。

x场的关键特性是看起来像干净的图像。


论文通过追踪ODE轨迹进行可视化发现,平均速度场u对应的是噪声图像,而变换后的x场则对应近乎干净或略微模糊的图像。


这背后的假设是流形假设(manifold hypothesis):自然图像实际上位于一个低维流形上,让网络直接预测这个低维流形上的量,比预测高维噪声空间中的量要容易得多。


团队用一个2D玩具模型验证了这一点。

当把2D数据投影到512维观察空间时,传统的u-prediction直接崩溃,而x-prediction仍然能够正常工作。


在真实的ImageNet实验中也是如此:256×256分辨率下,patch维度达到768(16×16×3),u-prediction的FID直接飙到164.89,而 x-prediction则保持在个位数。


pMF还有一个独特优势:

因为网络直接输出像素图像,可以自然地使用感知损失(perceptual loss)。

这本是潜空间方法在训练VAE时才能用的技巧,pMF把它带到了生成器本身的训练中。实

实验显示,加入感知损失后,FID从9.56直接降到3.53,提升了约6个点。


实验结果与对比

在ImageNet 256×256上,pMF-H/16模型以2.22 FID的成绩,超越了此前唯一的同类方法EPG(8.82 FID)。与GAN方法相比,pMF达到了相近的FID,但计算量大幅下降——StyleGAN-XL每次前向传播需要1574 Gflops,是pMF-H/16的5.8倍。


在512×512分辨率上,pMF采用了32×32的大patch尺寸,保持与256×256相近的计算开销,达到了2.48 FID。


另外,潜空间方法还有一笔经常被忽略的开销:VAE解码器。

标准SD-VAE解码器在256分辨率下需要310 Gflops,512分辨率下需要1230 Gflops,这个开销已经超过了pMF整个生成器的计算量。

论文还进行了大量消融实验:

优化器方面,Muon比Adam收敛更快且效果更好;


时间采样方面,MeanFlow的全平面采样策略不可或缺,只在r=t或r=0单线上采样都会导致失败;

预条件器(pre-conditioner)方面,传统的EDM和sCM风格设计在这个高维场景下不如直接的 x-prediction有效。


团队介绍

一个图像生成模型,本质上就是从噪声到像素的映射。

多步采样和潜空间编码都是历史上为了降低难度而引入的折中方案,但随着模型能力的提升和训练技巧的进步,这些“拐杖”正在变得不那么必要。

团队在结尾写道:希望这项工作能够鼓励未来对直接、端到端生成建模的探索。从实验结果来看,单步无潜空间生成已经从“是否可行”进入到“如何做得更好”的阶段了。


共同一作Yiyang Lu(陆伊炀)、Susie Lu、Qiao Sun(孙启傲)、Hanhong Zhao(赵瀚宏)为MIT本科生。

其中孙启傲是IMO金牌得主,赵瀚宏是国际物理奥林匹克竞赛IPhO金牌得主,陆伊炀是全国中学生物理竞赛CPhO金牌得主。

论文地址:
https://arxiv.org/abs/2601.22158

文章来源:量子位。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CCTV5直播!U17亚洲杯:国足vs日本,传来2个好消息,稳进世界杯

CCTV5直播!U17亚洲杯:国足vs日本,传来2个好消息,稳进世界杯

侃球熊弟
2026-02-18 00:37:48
不受拉黑风波影响!贝嫂维多利亚情人节红裙气场全开,美到发光

不受拉黑风波影响!贝嫂维多利亚情人节红裙气场全开,美到发光

述家娱记
2026-02-15 22:34:02
湖南95后女生上门做年夜饭月入4万多:春节前订单就满了

湖南95后女生上门做年夜饭月入4万多:春节前订单就满了

齐鲁壹点
2026-02-17 14:54:08
阿卡和辛纳收到多哈巨额出场费:比冠军的两倍还多

阿卡和辛纳收到多哈巨额出场费:比冠军的两倍还多

网球之家
2026-02-17 22:47:12
重磅规划获批!天津全域纳入首都都市圈,意味着什么?

重磅规划获批!天津全域纳入首都都市圈,意味着什么?

天津人
2026-02-17 16:33:43
炸锅!世界第一中场亲承加盟曼联,只等一个人点头

炸锅!世界第一中场亲承加盟曼联,只等一个人点头

奶盖熊本熊
2026-02-18 04:57:39
初二5不出,到头一场空”,明日正月初二,别犯5个忌讳

初二5不出,到头一场空”,明日正月初二,别犯5个忌讳

爱下厨的阿酾
2026-02-18 03:42:45
蒋万安首度公开表态!建议归还祖辈遗骨,背后政治深意引发猜测

蒋万安首度公开表态!建议归还祖辈遗骨,背后政治深意引发猜测

观星赏月
2026-02-17 12:29:20
旦增,被双开!他理想信仰崩塌,求神拜佛搞迷信活动,顶风违纪,收受巨额财物,半年前主动投案

旦增,被双开!他理想信仰崩塌,求神拜佛搞迷信活动,顶风违纪,收受巨额财物,半年前主动投案

每日经济新闻
2025-10-09 15:44:18
不出意外的话,中国未来有超过一半的人口,或将会流入到这些地方

不出意外的话,中国未来有超过一半的人口,或将会流入到这些地方

灿若银烂
2026-02-12 01:17:52
韩国反思短道速滑衰落原因:技战术外流被抄袭,身体素质难比欧美

韩国反思短道速滑衰落原因:技战术外流被抄袭,身体素质难比欧美

杨华评论
2026-02-17 16:13:32
李纯登上央视春晚合肥分会场,丈夫马頔发视频高调“炫耀”:我媳妇儿上春晚啦!连呼“真美”

李纯登上央视春晚合肥分会场,丈夫马頔发视频高调“炫耀”:我媳妇儿上春晚啦!连呼“真美”

台州交通广播
2026-02-18 00:36:19
一箭双雕?米兰抢购皇马19岁天才,他与吉拉隶属一家经纪公司

一箭双雕?米兰抢购皇马19岁天才,他与吉拉隶属一家经纪公司

里芃芃体育
2026-02-18 00:10:07
加拿大超市售卖中国课本,人教版各科目教材被整齐码放,网友:秒回新华书店

加拿大超市售卖中国课本,人教版各科目教材被整齐码放,网友:秒回新华书店

极目新闻
2026-02-16 19:38:57
金牌榜乱套了!4金5银9铜仅排第10,中国队仍然0金,最大黑马曝光

金牌榜乱套了!4金5银9铜仅排第10,中国队仍然0金,最大黑马曝光

刘哥谈体育
2026-02-17 07:47:06
女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

特约前排观众
2026-02-09 00:05:05
从鲁比奥慕尼黑演讲可以看出,他是一个有水平的人

从鲁比奥慕尼黑演讲可以看出,他是一个有水平的人

廖保平
2026-02-17 09:41:31
吉祥三宝近况:父亲58岁去世,女儿远嫁韩国,母亲孤身一人

吉祥三宝近况:父亲58岁去世,女儿远嫁韩国,母亲孤身一人

小徐讲八卦
2026-01-30 14:30:03
一个动物园,“被报复”了五年

一个动物园,“被报复”了五年

中国新闻周刊
2026-02-17 07:37:04
跑了八小时只赚25块:他把自己从酒里开出来,也把年开回家

跑了八小时只赚25块:他把自己从酒里开出来,也把年开回家

南方都市报
2026-02-17 11:18:10
2026-02-18 06:27:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5364文章数 64614关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

加州州长纽森炮轰特朗普:把美国未来卖给中国

头条要闻

加州州长纽森炮轰特朗普:把美国未来卖给中国

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

春节档电影首波口碑出炉!

财经要闻

大年初一,这三件事很不寻常

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

家居
时尚
艺术
本地
房产

家居要闻

中古雅韵 乐韵伴日常

今年春天最流行的4组配色,过年穿时髦又高级!

艺术要闻

十大名家画喜鹊,2026喜上加喜!

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

房产要闻

三亚新机场,又传出新消息!

无障碍浏览 进入关怀版