网易首页 > 网易号 > 正文 申请入驻

后生可畏!何恺明团队新成果发布,共一清华姚班大二在读

0
分享至

henry 发自 凹非寺
量子位 | 公众号

继今年5月提出MeanFlow (MF) 之后,何恺明团队于近日推出了最新的改进版本——

Improved MeanFlow (iMF),iMF成功解决了原始MF在训练稳定性、指导灵活性和架构效率上的三大核心问题。



其通过将训练目标重新表述为更稳定的瞬时速度损失,同时引入灵活的无分类器指导(CFG)和高效的上下文内条件作用,大幅提升了模型性能。

在ImageNet 256x256基准测试中,iMF-XL/2模型在 1-NFE(单步函数评估)中取得了1.72的FID成绩,相较于原始MF提升了50%,证明了从头开始训练的单步生成模型可以达到与多步扩散模型相媲美的结果。



MeanFlow一作耿正阳依旧,值得注意的是共同一作的Yiyang Lu目前还是大二学生——来自清华姚班,而何恺明也在最后署了名。

其他合作者包括:Adobe研究员Zongze WuEli Shechtman,及CMU机器学习系主任Zico Kolter

重构预测函数,回到标准的回归问题

iMF (Improved MeanFlow) 的核心改进是通过重构预测函数,将训练过程转换为一个标准的回归问题



在原始的MeanFlow (MF) (上图左)中,其直接最小化平均速度的损失。其中,Utgt是根据MeanFlow恒等式和条件速度e-x推导出来的目标平均速度。



这里的问题在于,推导出来的目标Utgt包含网络自身预测输出的导数项,而这种“目标自依赖”的结构使得优化极不稳定、方差极大。



基于此,iMF从瞬时速度的角度去构建损失,使整个训练就变得稳定。

值得注意的是,网络输出仍然是平均速度,而训练损失则变成了瞬时速度损失,以获得稳定的、标准的回归训练。



它首先将输入简化为单一的含噪数据z,并在内部巧妙地修改了预测函数的计算方式。

具体来说,iMF让用于计算复合预测函数V(代表对瞬时速度的预测)中,雅可比向量积(JVP)项所需的切向量输入不再是外部的e-x,而是由网络自身预测的边缘速度。

通过这一系列步骤,iMF成功移除了复合预测函数V对目标近似值e-x的依赖。此时,iMF再将损失函数的目标设定为稳定的条件速度e-x。

最终,iMF 成功将训练流程转换成了一个稳定的、标准的回归问题,为平均速度的学习提供了坚实的优化基础。

除了对训练目标进行改良外,iMF还通过以下两大突破,全面提升了MeanFlow框架的实用性和效率:

灵活的无分类器指导(CFG)

原始MeanFlow框架的一大局限是:为了支持单步生成,无分类器指导(CFG)的指导尺度在训练时必须被固定,这极大地限制了在推理时通过调整尺度来优化图像质量或多样性的能力。

iMF通过将指导尺度内化为一个可学习的条件来解决此问题。

具体来说,iMF直接将指导尺度作为一个输入条件提供给网络。

在训练阶段,模型会从一个偏向较小值的幂分布中随机采样不同的指导尺度。这种处理方式使得网络能够适应并学习不同指导强度下的平均速度场,从而在推理时解锁了CFG的全部灵活性。



此外,iMF 还将这种灵活的条件作用扩展到支持CFG区间,进一步增强了模型对样本多样性的控制。

高效的上下文内条件作用(In-context Conditioning)架构

原始MF依赖于参数量巨大的adaLN-zero机制来处理多种异构条件(如时间步、类别标签和指导尺度)。

当条件数量增多时,简单地对所有条件嵌入进行求和并交给adaLN-zero处理,会变得效率低下且参数冗余。

iMF引入了改进的上下文内条件作用来解决此问题。



它的创新点在于:它将所有条件(包括时间步、类别以及 CFG 因子等)编码成多个可学习的Token(而非单一向量),并将这些条件Token直接沿序列轴与图像潜在空间的Token进行拼接,然后一起输入到 Transformer 块中进行联合处理。

这一架构调整带来的最大益处是:iMF可以彻底移除参数量巨大的adaLN-zero模块。

这使得iMF在性能提升的同时,模型尺寸得到了大幅优化,例如 iMF-Base 模型尺寸减小了约1/3(从 133M 降至 89M),极大地提升了模型的效率和设计灵活性。

实验结果

iMF在最具挑战性的ImageNet 256x256上的1-NFE中展示了卓越的性能。

iMF-XL/2在1-NFE下的FID达到了1.72,将单步生成模型的性能推到了一个新的高度。



iMF从头开始训练的性能甚至优于许多从预训练多步模型中蒸馏而来的快进模型,证明了 iMF 框架在基础训练上的优越性。

下图在ImageNet 256x256上进行1-NFE(单步函数评估)生成的结果。



iMF在2-NFE时的FID达到1.54,将单步模型与多步扩散模型(FID约1.4-1.7)的差距进一步缩小。



One more thing

如前文所述,IMF 一作延续前作Mean Flow(已入选 NeurIPS 2025 Oral)的核心班底——耿正阳。

他本科毕业于四川大学,目前在CMU攻读博士,师从Zico Kolter教授。



共一作者为清华姚班大二学生Yiyang Lu,现于MIT跟随何恺明教授研究计算机视觉,此前曾在清华叉院许华哲教授指导下研究机器人方向。



这篇论文部分的内容由他们在MIT期间,于何恺明教授指导下完成。



此外,论文的其他作者还包括:Adobe研究员Zongze Wu、Eli Shechtman,CMU机器学习系主任J. Zico Kolter以及何恺明教授。

其中,Zongze Wu本科毕业于同济大学,并在Hebrew University of Jerusalem获得博士学位,他目前在Adobe旧金山研究院担任研究科学家,



同样的,Eli Shechtman也同样来自Adobe,他是Adobe Research图像实验室的高级首席科学家。他于2007加入 Adobe,并于2007–2010年间在华盛顿大学担任博士后研究员。



J. Zico Kolter是论文一作耿正阳的导师,他是CMU计算机科学学院教授,并担任机器学习系主任。



论文的尾作则是著名的机器学习科学家何恺明教授,他目前是MIT的终身副教授。

他最出名的工作是ResNet,是21世纪被引用次数最多的论文。



就在最近的NeurIPS放榜中,何恺明参与的FastCNN还拿下了时间检验奖。

[1]https://arxiv.org/pdf/2505.13447

[2]https://gsunshine.github.io/

[3]https://arxiv.org/pdf/2512.02012

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小区楼上天天晚上都有女的大声叫。。。

小区楼上天天晚上都有女的大声叫。。。

微微热评
2025-12-24 00:26:04
钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

时光在作祟
2026-02-04 13:40:17
中央财办 中央农办:确保绝大多数农户原有承包地顺利延包,绝不能推倒重来 打乱重分

中央财办 中央农办:确保绝大多数农户原有承包地顺利延包,绝不能推倒重来 打乱重分

闪电新闻
2026-02-04 19:06:47
机构:预计2026年黄金均价为4,746.50美元/盎司

机构:预计2026年黄金均价为4,746.50美元/盎司

财联社
2026-02-04 20:53:07
刘虎老师事件,最后的絮叨

刘虎老师事件,最后的絮叨

林中木白
2026-02-04 10:50:41
宝马X5在杭州一商场停了8100多小时,计费超1.6万元,律师:商场以围栏方式“锁车”存在侵权风险

宝马X5在杭州一商场停了8100多小时,计费超1.6万元,律师:商场以围栏方式“锁车”存在侵权风险

极目新闻
2026-02-04 22:40:16
蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

素衣读史
2026-01-24 17:12:53
女主劲爆身材在中国台湾大火 游戏作者直呼"太懂艺术"

女主劲爆身材在中国台湾大火 游戏作者直呼"太懂艺术"

游民星空
2026-02-04 16:28:33
国务院安委办印发紧急通知

国务院安委办印发紧急通知

日照日报
2026-02-03 21:28:25
年底大扫除,我2小时搞定!这9个清洁妙招,妈看了都会夸

年底大扫除,我2小时搞定!这9个清洁妙招,妈看了都会夸

Home范
2026-02-01 16:15:03
美国3.5亿人不愁,俄罗斯1.5亿人不急,为啥中国14亿人慌着催生?

美国3.5亿人不愁,俄罗斯1.5亿人不急,为啥中国14亿人慌着催生?

复转这些年
2026-01-01 10:17:25
王楚然这个人,好看是好看,但是却有个致命的缺点。

王楚然这个人,好看是好看,但是却有个致命的缺点。

大秦共和国
2026-02-04 14:32:39
杨兰兰搬新家,入住顶级海景公寓!同楼层房源周租高达$8500

杨兰兰搬新家,入住顶级海景公寓!同楼层房源周租高达$8500

澳洲红领巾
2026-02-04 14:13:33
韭菜为啥永远割不完?

韭菜为啥永远割不完?

混知
2026-02-04 17:06:53
北大研究发现:洋葱可以在24小时内杀死49%癌细胞,是真的吗?

北大研究发现:洋葱可以在24小时内杀死49%癌细胞,是真的吗?

Thurman在昆明
2026-02-03 18:22:57
韩媒:去年归化韩国的人数达1.1万,56.5%是中国人

韩媒:去年归化韩国的人数达1.1万,56.5%是中国人

随波荡漾的漂流瓶
2026-02-04 12:20:06
谷正文晚年告诉记者:这辈子后悔的事,就是吴石案

谷正文晚年告诉记者:这辈子后悔的事,就是吴石案

古来者说
2026-02-03 12:39:57
深夜4股公布业绩,3个业绩大幅增长,1个业绩暴雷,啤酒大增

深夜4股公布业绩,3个业绩大幅增长,1个业绩暴雷,啤酒大增

风风顺
2026-02-05 00:00:03
巴拿马失去改错机会,中方反击开始!港澳办:巴将会付出双重代价

巴拿马失去改错机会,中方反击开始!港澳办:巴将会付出双重代价

墨兰史书
2026-02-04 18:52:40
律师谈吃娃娃菜中毒夫妻被抓:最高判刑十年以上

律师谈吃娃娃菜中毒夫妻被抓:最高判刑十年以上

大象新闻
2026-02-04 08:49:30
2026-02-05 01:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
12112文章数 176370关注度
往期回顾 全部

教育要闻

教育的最高境界,是培养幸福的普通人

头条要闻

与爱泼斯坦聚会视频公布后被追问 特朗普怒怼女记者

头条要闻

与爱泼斯坦聚会视频公布后被追问 特朗普怒怼女记者

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

春晚主持人阵容曝光,5位都是老面孔

财经要闻

白银,突然暴涨

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

艺术
本地
手机
数码
公开课

艺术要闻

133.8亿!深圳自贸时代中心,年内竣工!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

手机要闻

苹果即将强制App使用iOS 26 SDK构建,微信要适配液态玻璃了?

数码要闻

vivo联合中国联通推出“eSIM手表尝鲜季”活动

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版