网易首页 > 网易号 > 正文 申请入驻

前沿分享丨何恺明带大二本科生颠覆扩散图像生成:扔掉多步采样和潜空间,一步像素直出

0
分享至

转自 量子位

何恺明,再次出手精简架构。

新方法Pixel Mean Flow(pMF),突破传统扩散模型/流模型限制。

两大传统组件多步采样和潜空间都被砍了,现在只需一步,直接在像素空间生成图像。


在ImageNet 256×256分辨率上,pMF达到了2.22 FID;512×512分辨率上则是2.48 FID。这是目前单步、无潜空间扩散模型在该基准上取得的最佳成绩之一。


砍掉扩散模型的两大件

现代扩散模型生成图像,一直离不开多步采样和潜空间编码。

多步采样意味着生成一张图需要跑几十甚至上百次神经网络,潜空间则需要先把图像压缩到一个低维空间再进行操作。两者的共同目的是把一个极度复杂的生成问题拆解成若干个相对简单的子问题。

近年来,研究社区分别在这两个方向上取得了进展:

一致性模型(Consistency Models)和何恺明团队2025年提出的MeanFlow在少步、单步采样上持续突破。


何恺明团队2026年1月提出的JiT(Just image Transformers)则证明了在原始像素空间做扩散模型的可行性。


但把这两条路合到一起,难度陡增。

少步模型要求单个网络能够处理不同起点和终点的轨迹;像素空间模型则需要在没有预训练tokenizer的情况下完成压缩和抽象。

两边的挑战叠加在一起,对架构设计提出了更高的要求。

pMF的核心设计

pMF的思路可以概括为:网络直接输出像素级别的去噪图像,但训练时用速度场来计算损失。

具体来说,pMF定义了一个新的场x,它是从平均速度场u通过简单变换得到的。

x场的关键特性是看起来像干净的图像。


论文通过追踪ODE轨迹进行可视化发现,平均速度场u对应的是噪声图像,而变换后的x场则对应近乎干净或略微模糊的图像。


这背后的假设是流形假设(manifold hypothesis):自然图像实际上位于一个低维流形上,让网络直接预测这个低维流形上的量,比预测高维噪声空间中的量要容易得多。


团队用一个2D玩具模型验证了这一点。

当把2D数据投影到512维观察空间时,传统的u-prediction直接崩溃,而x-prediction仍然能够正常工作。


在真实的ImageNet实验中也是如此:256×256分辨率下,patch维度达到768(16×16×3),u-prediction的FID直接飙到164.89,而 x-prediction则保持在个位数。


pMF还有一个独特优势:

因为网络直接输出像素图像,可以自然地使用感知损失(perceptual loss)。

这本是潜空间方法在训练VAE时才能用的技巧,pMF把它带到了生成器本身的训练中。实

实验显示,加入感知损失后,FID从9.56直接降到3.53,提升了约6个点。


实验结果与对比

在ImageNet 256×256上,pMF-H/16模型以2.22 FID的成绩,超越了此前唯一的同类方法EPG(8.82 FID)。与GAN方法相比,pMF达到了相近的FID,但计算量大幅下降——StyleGAN-XL每次前向传播需要1574 Gflops,是pMF-H/16的5.8倍。


在512×512分辨率上,pMF采用了32×32的大patch尺寸,保持与256×256相近的计算开销,达到了2.48 FID。


另外,潜空间方法还有一笔经常被忽略的开销:VAE解码器。

标准SD-VAE解码器在256分辨率下需要310 Gflops,512分辨率下需要1230 Gflops,这个开销已经超过了pMF整个生成器的计算量。

论文还进行了大量消融实验:

优化器方面,Muon比Adam收敛更快且效果更好;


时间采样方面,MeanFlow的全平面采样策略不可或缺,只在r=t或r=0单线上采样都会导致失败;

预条件器(pre-conditioner)方面,传统的EDM和sCM风格设计在这个高维场景下不如直接的 x-prediction有效。


团队介绍

一个图像生成模型,本质上就是从噪声到像素的映射。

多步采样和潜空间编码都是历史上为了降低难度而引入的折中方案,但随着模型能力的提升和训练技巧的进步,这些“拐杖”正在变得不那么必要。

团队在结尾写道:希望这项工作能够鼓励未来对直接、端到端生成建模的探索。从实验结果来看,单步无潜空间生成已经从“是否可行”进入到“如何做得更好”的阶段了。


共同一作Yiyang Lu(陆伊炀)、Susie Lu、Qiao Sun(孙启傲)、Hanhong Zhao(赵瀚宏)为MIT本科生。

其中孙启傲是IMO金牌得主,赵瀚宏是国际物理奥林匹克竞赛IPhO金牌得主,陆伊炀是全国中学生物理竞赛CPhO金牌得主。

论文地址:
https://arxiv.org/abs/2601.22158

【免责声明】转载出于非商业性的教育和科研目的,只为学术新闻信息的传播,版权归原作者所有,如有侵权请立即与我们联系,我们将及时删除。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有意思,考辛斯对米切尔和哈登可能联手发表引人注目的看法

有意思,考辛斯对米切尔和哈登可能联手发表引人注目的看法

好火子
2026-02-04 04:40:42
2-0!誉为“史上最强U17国足”扬眉吐气,被罚下1人仍赢亚洲冠军

2-0!誉为“史上最强U17国足”扬眉吐气,被罚下1人仍赢亚洲冠军

北纬的咖啡豆
2026-02-04 07:34:36
阿森纳4-2切尔西关键结论:球迷呼吁对谁别期望过高?四冠梦仍在

阿森纳4-2切尔西关键结论:球迷呼吁对谁别期望过高?四冠梦仍在

桥看世界
2026-02-04 07:40:23
双色球第2026015期开奖:5注头奖花落四省,二等奖爆单!

双色球第2026015期开奖:5注头奖花落四省,二等奖爆单!

芭比衣橱
2026-02-04 07:24:38
投资圈大佬去世!年仅40岁,坊间流传死因或与黄金白银暴跌有关

投资圈大佬去世!年仅40岁,坊间流传死因或与黄金白银暴跌有关

火山诗话
2026-02-03 09:11:09
俄罗斯发动大规模袭击,乌克兰第二大城市启动应急响应机制!泽连斯基紧急召开会议,批准新防御计划

俄罗斯发动大规模袭击,乌克兰第二大城市启动应急响应机制!泽连斯基紧急召开会议,批准新防御计划

每日经济新闻
2026-02-04 07:54:49
深夜利空,15个存储芯片亏损,12个业绩下滑,仅这12个大幅增长

深夜利空,15个存储芯片亏损,12个业绩下滑,仅这12个大幅增长

风风顺
2026-02-04 06:05:03
彩电零售量跌破3000万台的恶果

彩电零售量跌破3000万台的恶果

家电圈
2026-02-03 19:50:24
森林狼达成三方交易!康利离队,活塞迎超级替补,狼将追两大MVP

森林狼达成三方交易!康利离队,活塞迎超级替补,狼将追两大MVP

你的篮球频道
2026-02-04 06:33:08
REDMI Turbo 5真实用户反馈出炉,卢伟冰点评了

REDMI Turbo 5真实用户反馈出炉,卢伟冰点评了

科技锋说
2026-02-03 06:23:32
委内瑞拉人肠子悔青,如果这位总统还在,他们的国家何至于此?

委内瑞拉人肠子悔青,如果这位总统还在,他们的国家何至于此?

千秋文化
2026-01-09 14:26:11
沙特公共投资基金回应C罗:利雅得胜利获资最多,成绩却不如人

沙特公共投资基金回应C罗:利雅得胜利获资最多,成绩却不如人

星耀国际足坛
2026-02-03 21:57:51
美媒:美国再次成为了唯一超级大国,中国本有机会,但如今输了!

美媒:美国再次成为了唯一超级大国,中国本有机会,但如今输了!

老好人的愤怒
2026-02-04 07:12:59
宋晓峰被曝看人下菜碟,女儿点男模不付钱,知情人称还有更大的瓜

宋晓峰被曝看人下菜碟,女儿点男模不付钱,知情人称还有更大的瓜

白面书誏
2026-01-27 20:31:56
迷失无人区:女子带藏獒无人区失联两周,警方找到车,车内只剩藏獒

迷失无人区:女子带藏獒无人区失联两周,警方找到车,车内只剩藏獒

罪案洞察者
2025-11-10 13:57:07
侍卫救了乾隆的命,乾隆问他要何赏赐?侍卫:就赏我一个宫女吧

侍卫救了乾隆的命,乾隆问他要何赏赐?侍卫:就赏我一个宫女吧

铭记历史呀
2026-01-26 19:47:25
62分钟速胜过关!王欣瑜送蛋横扫晋级,澳网后首秀迎开门红

62分钟速胜过关!王欣瑜送蛋横扫晋级,澳网后首秀迎开门红

全景体育V
2026-02-03 21:14:02
2026春运大巴彻底翻红!不是高铁不行,是打工人的刚需太真实

2026春运大巴彻底翻红!不是高铁不行,是打工人的刚需太真实

复转这些年
2026-02-03 23:52:33
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
费内巴切官方:坎特转会失败

费内巴切官方:坎特转会失败

体坛周报
2026-02-03 19:32:53
2026-02-04 08:35:00
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
3860文章数 1489关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

美股爆发AI恐慌性抛售 英伟达市值一夜蒸发超8000亿元

头条要闻

美股爆发AI恐慌性抛售 英伟达市值一夜蒸发超8000亿元

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

大S逝世一周年 S家没通知大S子女惹争议

财经要闻

中央一号文件:扎实推进乡村全面振兴

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

本地
房产
手机
数码
亲子

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

房产要闻

大盘最低杀到8000+/㎡!海口59盘,最新房价曝光!

手机要闻

传苹果iPhone 18外观基本沿用现款 将主打2nm芯片升级

数码要闻

西部数据40TB机械硬盘年内登场,2029年冲刺100TB HAMR

亲子要闻

2月大婴儿死亡,原因酒精中毒??亲妈故意往奶瓶里放酒,直接喝死了...

无障碍浏览 进入关怀版