网易首页 > 网易号 > 正文 申请入驻

大道至简,何恺明团队新作pMF开启像素级「无潜、单步」生成范式

0
分享至



机器之心编辑部

何恺明团队新论文,再次「大道至简」。

此次研究直指当前以 DiT 为代表的主流扩散模型与流匹配模型存在的通病,并提出了一种用于单步、无潜空间(Latent-free)的图像生成新框架



  • 论文标题:One-step Latent-free Image Generation with Pixel Mean Flows
  • arXiv 地址:https://arxiv.org/pdf/2601.22158v1

在生成式 AI 领域,追求更高效、更直接的生成范式一直是学界的核心目标。

当前,以 DiT 为代表的主流扩散模型与流匹配模型主要依赖两大支柱来降低生成难度,一是通过多步采样将复杂的分布转换分解为微小的步进,二是在预训练 VAE(变分自编码器)的潜空间中运行以降低计算维度。

尽管这些设计在图像质量上取得了巨大成功,但从深度学习「端到端」的精神来看,这种对多步迭代和预置编码器的依赖,无疑增加了系统的复杂性和推理开销。

面对这些挑战,何恺明团队提出了用于单步、无潜空间图像生成的 pixel MeanFlow(pMF)框架。该框架继承了改进均值流(improved MeanFlow,MF)的思路,通过在瞬时速度(即 v)空间内定义损失函数,来学习平均速度场(即 u)。

与此同时,受 Just image Transformers(JiT)的启发,pMF 直接对类似于去噪图像的物理量(即 x-prediction 值)进行参数化,并预期该物理量位于低维流形上。

为了兼容这两种设计,团队引入了一种转换机制,将 v、u 和 x 三个场联系起来。实验证明,这种设计更符合流形假设,并且产生了一个更易于学习的目标(见下图 1)。



概括来说,pMF 训练了一个能将噪声输入直接映射为图像像素的网络。它具备「所见即所得」的特性,而这在多步采样或基于潜空间的方法中是不存在的。这一特性使得感知损失能够自然地集成到 pMF 中,从而进一步提升生成质量。

实验结果显示,pMF 在单步、无潜空间生成方面表现强劲,在 ImageNet 数据集上,256x256 分辨率下的 FID 达到 2.22,512x512 分辨率下达到 2.48。团队进一步证明,选择合适的预测目标至关重要:在像素空间直接预测速度场会导致性能崩溃。

本文验证了:单步、无潜空间生成正变得既可行又具竞争力,这标志着向构建单一、端到端神经网络形式的直接生成建模迈出了坚实的一步

框架方法

为了实现单步、无潜空间的生成,团队引入了 pMF(pixel MeanFlow),它的核心设计在于建立 u、 v 和 x 这三个不同场之间的关联。团队希望网络能像 JiT 那样直接输出 x,而单步建模则像均值流 (MeanFlow) 一样在 u 和 v 空间内进行。

去噪图像场

iMF 和 JiT 都可以被视为在最小化 v-loss,不同之处在于 iMF 执行的是 u-prediction,而 JiT 执行的是 x-prediction。团队在 u 与广义形式的 x 之间引入了一种联系。

原论文等式 (5) 中定义的平均速度场 u 代表了一个潜在的基准真值(ground-truth),它取决于 p_data、p_prior 以及时间调度,但与网络无关(因此不依赖于参数 θ)。团队引出了一个定义为 x (z_t, r, t) 的新场:



可泛化的流形假设

上图 1 通过模拟从预训练流匹配(FM)模型中获得的一条 ODE 轨迹,可视化了 u 场和 x 场。u 包含噪声图像,这是因为作为速度场,u 同时包含了噪声和数据成分。相比之下,x 场具有去噪图像的外观:它们或是近乎清晰的图像,或是因过度去噪而显得模糊的图像。接下来,团队讨论了如何将流形假设泛化到一物理量 x 上。

请注意,MeanFlow 中的时间步 r 满足:。团队首先展示了 r=t 和 r=0 这两种边界情况可以近似满足流形假设;随后讨论了 0<r<t 的情况。



算法

上文公式 (8) 中导出的 x 场为 MeanFlow 网络提供了一种重参数化方法。具体而言,团队让网络 net_θ 直接输出 x,并根据公式 (8) 计算出相应的速度场 u:



接着将公式 (11) 中的 u_θ 纳入 iMF 表述中,即结合 v-loss 使用原论文公式 (7)。具体的优化目标如下:



从概念上讲,这是基于 x-prediction 的 v-loss,其中 x 通过 x→u→v 的关系转换为 v 空间,从而对 v 进行回归。相应的伪代码见算法 1。遵循 iMF 的思路,该算法可以扩展以支持无分类器引导(CFG)。



带有感知损失的像素均值

网络 x_θ(z_t,r,t) 直接将噪声输入 z_t 映射为去噪图像,这使得模型在训练时具备了「所见即所得」的特性。因此团队进一步引入了感知损失,基于潜空间的方法在 tokenizer 重构训练中获益于感知损失,而基于像素的方法此前尚未能轻易利用这一优势。



实验结果

玩具(Toy)实验

团队首先通过一个 2D 玩具实验表明,「当底层数据位于低维流形上时,在 MeanFlow 中使用 x-prediction 更加理想。」

图 2 显示,x-prediction 的表现相当出色,而随着维度 D 的增加,u-prediction 的性能迅速退化。团队观察到,这种性能差距反映在训练损失的差异上:x-prediction 的训练损失低于对应的 u-prediction。这表明,对于容量有限的网络而言,预测 x 更加容易。



团队默认在分辨率为 256x256 的 ImageNet 数据集上进行消融实验。团队采用了 iMF 架构,它是 DiT 设计的一个变体。除非另有说明,团队将 Patch 大小设置为 16× 16(表示为 pMF/16)。消融模型从零开始训练了 160 个 Epoch。

关于网络预测目标,团队的方法基于流形假设,即假设 x 处于低维流形中且更易于预测。表 2 验证了这一假设。

首先将 64×64 分辨率作为较简单的设置。当 Patch 大小为 4×4 时,Patch 维度为 48(即 4×4×3)。这一维度远低于网络容量(隐藏层维度为 768)。因此,pMF 在 x-prediction 和 u-prediction 下均表现良好。

接下来考虑 256×256 分辨率。按照惯例,Patch 大小设为 16×16,Patch 维度达到 768(即 16×16×3)。这导致了更高维的观测空间,增加了神经网络建模的难度。在这种情况下,只有 x-prediction 表现良好,表明 x 位于更低维的流形上,因此更易于学习。

相比之下,u-prediction 性能彻底崩溃:作为一种含噪物理量,u 在高维空间中具有全支撑,建模难度大得多。



关于高分辨率生成,团队在表 4 中研究了分辨率在 256、512 和 1024 下的 pMF。在保持序列长度不变(16^2)的情况下,不同分辨率下大致维持了相同的计算成本。这样做会导致极其激进的 Patch 大小(例如 64^2)和 Patch 维度(例如 12288)。

结果显示,pMF 可以有效处理这种极具挑战性的情况。尽管观测空间是高维的,但模型始终预测 x,其底层维度并不会成比例增长。



关于可扩展性,团队在表 5 中报告了增加模型大小和训练 Epoch 的结果。正如预期的那样,pMF 从这两个维度的扩展中均有获益。



最后,团队在表 6(256×256)和表 7(512×512)中 ,将 pMF 与之前的模型进行了对比。

其中,在256×256 分辨率下,团队的方法达到了 2.22 FID(在 360 个 Epoch 时),如表 6 所示。据团队的了解,该类别中(单步、无潜空间扩散 / 流模型)唯一的其他方法是最近提出的 EPG,它在自监督预训练下达到了 8.82 FID。



512×512 分辨率下,pMF 达到了 2.48 FID,如表 7 所示。这一结果的计算成本(参数量和 Gflops)与 256×256 版本相当。事实上,唯一的额外开销仅来自通道数更多的 Patch 嵌入层和预测层,所有的 Transformer 模块都维持了相同的计算成本。



更多实验细节请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哪些酷刑是人类意志不能承受的?网友:人彘就是早期的感官剥夺!

哪些酷刑是人类意志不能承受的?网友:人彘就是早期的感官剥夺!

解读热点事件
2025-11-19 00:05:05
输球后福法纳落泪,默森:他应该哭,因为他们根本没拼过

输球后福法纳落泪,默森:他应该哭,因为他们根本没拼过

懂球帝
2026-02-04 09:33:06
留学一年嘴都变大了?女留学生“面相变化图”走红

留学一年嘴都变大了?女留学生“面相变化图”走红

没有偏旁的常庆
2026-02-02 06:10:03
笑不活了胡先煦!飞机上睡成“晕倒状”,空姐暖心上前关切

笑不活了胡先煦!飞机上睡成“晕倒状”,空姐暖心上前关切

陶寻爱说
2026-02-04 06:53:07
浙江女子200万巨款被“吃干抹净”事件:白手起家的孩子,一定要多长几个心眼子……

浙江女子200万巨款被“吃干抹净”事件:白手起家的孩子,一定要多长几个心眼子……

桌子的生活观
2026-02-03 12:26:18
卖地收入四年少4.6万亿,今年多省要涨

卖地收入四年少4.6万亿,今年多省要涨

谢晖说房
2026-02-03 19:30:04
张雪轩:辽宁省政府原副主席、辽宁省政协原副主席

张雪轩:辽宁省政府原副主席、辽宁省政协原副主席

王姐懒人家常菜
2026-02-04 10:39:51
38岁张馨予身体异常,警示中年女星健康重于金钱

38岁张馨予身体异常,警示中年女星健康重于金钱

孙镴北漂拍客
2026-02-04 07:28:22
别再聊戚薇金晨了!宋小宝600多刀微调真相才是真的绝

别再聊戚薇金晨了!宋小宝600多刀微调真相才是真的绝

乡野小珥
2026-02-03 01:22:50
双色球第2026015期中出一等奖5注筹集公益金1.29亿元

双色球第2026015期中出一等奖5注筹集公益金1.29亿元

齐鲁壹点
2026-02-04 15:26:13
定了!两大通信运营商合并,终于可以和老大势均力敌了

定了!两大通信运营商合并,终于可以和老大势均力敌了

通信老柳
2026-02-02 07:51:43
河南小伙娶小18岁伊拉克媳妇,认识4天就结婚,彩礼花了3000万!

河南小伙娶小18岁伊拉克媳妇,认识4天就结婚,彩礼花了3000万!

凡知
2026-01-17 10:15:33
王光美追悼会上刘源罕见失态,李讷见状嘱咐儿子:快去帮帮你刘叔

王光美追悼会上刘源罕见失态,李讷见状嘱咐儿子:快去帮帮你刘叔

搜史君
2026-02-03 18:50:05
学医后才明白,增强骨密度最好的运动,不是散步游泳,其实是它!

学医后才明白,增强骨密度最好的运动,不是散步游泳,其实是它!

路医生健康科普
2026-02-03 08:05:03
美国说中俄被吓住了,印度突然点头,可上合组织却悄悄扩员了。

美国说中俄被吓住了,印度突然点头,可上合组织却悄悄扩员了。

冒泡泡的鱼儿
2026-02-04 15:43:41
伊朗退了,叙利亚退了,巴勒斯坦退了,黎巴嫩退了,塞尔维亚退了

伊朗退了,叙利亚退了,巴勒斯坦退了,黎巴嫩退了,塞尔维亚退了

南权先生
2026-01-23 15:37:57
困守黑水营的八旗军有多狠?抓住敌人夫妇,先吃男人再吃女人!

困守黑水营的八旗军有多狠?抓住敌人夫妇,先吃男人再吃女人!

小豫讲故事
2026-02-04 06:00:24
1746个螺母判4年?五金老板崩溃:明明是玩具,法院说是枪支散件

1746个螺母判4年?五金老板崩溃:明明是玩具,法院说是枪支散件

云中浮生
2026-02-04 15:24:08
继承三亿后我装穷欠债,妻子骂完却掏出百万嫁妆:这债我们一起扛

继承三亿后我装穷欠债,妻子骂完却掏出百万嫁妆:这债我们一起扛

晓艾故事汇
2026-01-16 14:13:59
袁悦扔拍庆祝!3小时24分钟赢下马拉松大战,王欣瑜追平生涯最佳

袁悦扔拍庆祝!3小时24分钟赢下马拉松大战,王欣瑜追平生涯最佳

排球黄金眼
2026-02-04 00:37:45
2026-02-04 17:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12249文章数 142562关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

爱泼斯坦死前48小时签信托文件豪掷遗产 还和女友通话

头条要闻

爱泼斯坦死前48小时签信托文件豪掷遗产 还和女友通话

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

姜元来在大S墓碑前哭泣,与具俊晔拥抱

财经要闻

多家中小银行宣布上调存款利率

汽车要闻

全伪装雪地现身 一汽-大众纯电车型线索曝光

态度原创

健康
旅游
教育
时尚
军事航空

耳石症分类型,症状大不同

旅游要闻

大理江风寺的山泉水有点小贵,旁边将军洞却真能免费,只是要起早

教育要闻

香港两男一女中学生到内地交流外出饮酒租房过夜,学校作出处理

这才是中年女人该有的穿搭,上衣挺括、下装宽松,优雅又显瘦

军事要闻

卡扎菲儿子被暗杀:4名蒙面人员闯入住所

无障碍浏览 进入关怀版