网易首页 > 网易号 > 正文 申请入驻

何恺明CVPR最新讲座PPT上线:走向端到端生成建模

0
分享至

机器之心报道

编辑:张倩

生成模型会重现识别模型的历史吗?

今年的 CVPR 已经在美国田纳西州纳什维尔顺利闭幕。除了交流论文、互加好友,很多参会者还参加了个非常有意思的项目 —— 追星。

这个「星」自然是学术明星。从前方发来的实况来看,MIT 副教授何恺明可能是人气最高的那一个。他的讲座全场爆满,还有很多同学晒出了与恺明大神的合影。



其实,这次现身 CVPR 会场的何恺明有着多重身份,包括但不限于最佳论文奖委员会成员、「Visual Generative Modeling: What’s After Diffusion?」workshop 演讲嘉宾等。



这个 workshop 聚焦的主题是扩散模型之后的视觉生成建模演进方向。

近年来,扩散模型迅速超越了先前的方法,成为视觉生成建模中的主导方法,广泛应用于图像、视频、3D 物体等的生成。然而,这些模型也存在一些显著的局限性,例如生成速度较慢、生成过程中人类干预有限,以及在模拟复杂分布(如长视频)时面临挑战。

这个 workshop 旨在探索视觉生成建模中能够超越扩散模型的方法,何恺明在活动中做了主题为「Towards End-to-End Generative Modeling(走向端到端生成建模)」的分享。

近日,他的个人网页上传了 workshop 的 PPT,非常值得学习。



PPT 地址:https://people.csail.mit.edu/kaiming/cvpr25talk/cvpr2025_meanflow_kaiming.pdf

走向端到端生成建模

在 PPT 前几页,何恺明首先带大家回顾了识别模型(recognition model)的演进。在 AlexNet 之前,逐层训练更为流行,如深度信念网络(DBN)和去噪自编码器(DAE)。但 AlexNet 之后,识别模型普遍实现了端到端训练,大大简化了模型设计和训练的复杂性。











有趣的是,今天的生成模型在概念上更像是逐层训练:Diffusion 模型通过 T 个去噪步骤逐步生成,自回归模型通过 T 个 token 逐步生成,它们都需要多步推理过程。这让我们不禁思考:历史能否在生成模型领域重演?



从更高层面来看,识别与生成其实是同一枚硬币的两面。识别可以被看作是一个「抽象」的过程:我们从丰富的原始数据(如图像像素)出发,通过网络的多层处理,逐步提取出越来越抽象的特征,直到最终得到一个高度抽象的分类标签或嵌入。

而生成则恰恰相反,它是一个「具体化」的过程:我们从一个抽象的表示(比如一个随机噪声或概念向量)开始,通过网络的多步转换,逐渐将其具体化,最终生成出具有复杂细节的真实数据。



下图更直观地描绘了这种「抽象」与「具体化」的对应关系。底部代表原始数据,顶部代表抽象的嵌入空间。表示学习是从数据向上流动,将数据映射到嵌入。而生成建模则是从嵌入向下流动,将嵌入转换为数据。这个过程可以被视为数据在不同抽象层次之间的「流动」。











不过,识别和生成和生成有着本质的不同。识别任务通常有一个确定的数据到标签的映射,但生成任务不然:我们希望从一个简单的「噪声」分布映射到复杂多变的数据分布。这个映射是高度非线性的,而且存在无限的可能性。

如何有效地「构造」这个映射,是生成模型面临的核心挑战。连续归一化流(Continuous Normalizing Flow),尤其是其中衍生的「流匹配」(Flow Matching)技术,为解决这个问题提供了有希望的方向。



在讲座中,何恺明提到了流匹配方向的几篇代表性论文:



下图直观地展示了 Flow Matching 在生成模型领域中的位置:



何恺明还介绍了流匹配的一些技术细节:





讲到这里,何恺明总结出了几个关键点:

  • 识别与生成都可以被视为数据分布之间的一种「流」。
  • Flow Matching 为训练生成模型提供了一种强大的方法,它能够构建出 ground-truth 场,这些场是隐式存在的,并且与具体的神经网络结构无关。
  • 尽管我们希望实现精确的积分来生成,但在实践中,我们通常采用有限求和的近似,这与 ResNet 的离散化方法类似,或者利用数值 ODE 求解器。
  • 我们的终极目标是实现前馈式的、端到端的生成建模,摆脱多步迭代的依赖。



接下来,何恺明介绍了他们近期提出的新方法 ——「Mean Flows for One-step Generative Modeling」。它的核心思想是追求一步到位的生成。



具体来说,论文提出了一种名为 MeanFlow 的理论框架,用于实现单步生成任务。其核心思想是引入一个新的 ground-truth 场来表示平均速度,而不是流匹配中常用的瞬时速度。

论文推导出平均速度与瞬时速度之间存在一个内在的关系,从而作为指导网络训练的原则性基础。

基于这一基本概念,论文训练了一个神经网络来直接建模平均速度场,并引入损失函数来奖励网络满足平均速度和瞬时速度之间的内在关系。

以下是该论文的技术细节(可参见机器之心之前的报道辅助理解:《何恺明团队又发新作: MeanFlow 单步图像生成 SOTA,提升达 50%》:





















论文所提方法的实验结果如下。MeanFlow 与之前的单步扩散 / 流模型进行了比较,总体而言,MeanFlow 的表现远超同类:它实现了 3.43 的 FID,与 IMM 的单步结果 7.77 相比,相对提升了 50% 以上。如果仅比较 1-NFE(而不仅仅是单步)生成,MeanFlow 与之前的最佳方法(10.60)相比,相对提升了近 70%。不难看出,该方法在很大程度上缩小了单步和多步扩散 / 流模型之间的差距。











然后,他展示了一些 1-NFE 的生成结果。



接下来,何恺明致敬了整个社区在实现高效、端到端生成方面所做的共同努力。他列举了几个主要的研究方向:

  • Consistency Models (CM):包括 Song 等人的原始工作,以及后续的改进版本如 iCT、ECT、sCM。
  • Two-time-variable Models:例如 Consistency Trajectory Models (CTM)、Flow Map Matching、Shortcut Models 和 Inductive Moment Matching。
  • Revisiting Normalizing Flows:如 TarFlow 等。



最后,何恺明对整个方向进行了展望,并提出了几个问题:

  • 我们是否还在生成模型的「AlexNet 前时代」?
  • 尽管 MeanFlow 已经取得了显著的进步,但它在概念上仍然受限于迭代的 Flow Matching 和扩散模型框架。
  • MeanFlow 网络扮演着双重角色:它既要构建从噪声到数据的理想轨迹(这些轨迹是隐式存在但需要模型去捕捉的),又要通过「粗化」或概括这些场来简化生成过程。
  • 那么,究竟什么是真正适用于端到端生成建模的良好公式?这是一个开放性的、激动人心的研究问题。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
多地发文!立即解散约车群、拼车群,否则追究群主法律责任!

多地发文!立即解散约车群、拼车群,否则追究群主法律责任!

网约车焦点
2025-11-17 12:00:54
后程发力摘金!全运会男子400米决赛:全国纪录保持者刘凯夺冠

后程发力摘金!全运会男子400米决赛:全国纪录保持者刘凯夺冠

全景体育V
2025-11-18 20:23:12
外媒:特斯拉加速淘汰所有中国产零部件,转而生产美国制造的汽车

外媒:特斯拉加速淘汰所有中国产零部件,转而生产美国制造的汽车

寒士之言本尊
2025-11-17 14:37:37
20岁四川音乐学院王璇媛确诊癌症,长得漂亮成绩好,因起红疹确诊

20岁四川音乐学院王璇媛确诊癌症,长得漂亮成绩好,因起红疹确诊

180视角
2025-11-18 15:01:57
“内部信”风波后,俞敏洪连发10条南极旅游视频,旅行社:该行程20天人均花费30万元

“内部信”风波后,俞敏洪连发10条南极旅游视频,旅行社:该行程20天人均花费30万元

极目新闻
2025-11-18 14:06:30
郑丽文“倡导统一”四字吓坏了谁?美西方“驻台代表”排队求见

郑丽文“倡导统一”四字吓坏了谁?美西方“驻台代表”排队求见

海峡导报社
2025-11-18 18:19:07
极目调查|流量风口下野蛮生长的荒野求生:有人提前数月找荒山“实习”,有选手烫伤数天无人知晓

极目调查|流量风口下野蛮生长的荒野求生:有人提前数月找荒山“实习”,有选手烫伤数天无人知晓

极目新闻
2025-11-18 17:38:31
英国再现华人淫魔

英国再现华人淫魔

不正确
2025-11-18 14:40:32
多人携弓箭夜入北京公园搞破坏,竟因为“无聊”!4人落网,3人已刑拘

多人携弓箭夜入北京公园搞破坏,竟因为“无聊”!4人落网,3人已刑拘

环球网资讯
2025-11-18 20:38:05
林北亏麻了!荒野求生14人全部进决赛,喝鸡汤住别墅,每人2万元

林北亏麻了!荒野求生14人全部进决赛,喝鸡汤住别墅,每人2万元

甜柠聊史
2025-11-18 20:02:08
徐波生了300个孩子?揭露了人类社会的本质问题

徐波生了300个孩子?揭露了人类社会的本质问题

历史总在押韵
2025-11-17 00:05:07
省会城市政府主要领导密集调整

省会城市政府主要领导密集调整

鲁中晨报
2025-11-18 22:35:05
女大学生举报社区书记被关精神病院8年?当地:要处理,等通报

女大学生举报社区书记被关精神病院8年?当地:要处理,等通报

追月数星
2025-11-18 19:08:00
东部战区重磅发布!

东部战区重磅发布!

新京报
2025-11-18 16:23:55
中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

新浪财经
2025-11-18 12:46:38
摇晃了几下,突然爆炸!很多广东人家里都有……

摇晃了几下,突然爆炸!很多广东人家里都有……

深圳晚报
2025-11-18 21:59:44
已确认!是知名演员周润发

已确认!是知名演员周润发

大象新闻
2025-11-18 13:14:07
帝王蟹不是螃蟹?泛滥的帝王蟹,为何说每吃一只都是在拯救世界?

帝王蟹不是螃蟹?泛滥的帝王蟹,为何说每吃一只都是在拯救世界?

狸猫之一的动物圈
2025-10-13 10:09:58
下月起,未取得新国标3C认证的电动自行车将被禁售!

下月起,未取得新国标3C认证的电动自行车将被禁售!

南方都市报
2025-11-18 13:57:10
广东模特冠军诞生!你还敢嘲笑辽宁吗?

广东模特冠军诞生!你还敢嘲笑辽宁吗?

麦杰逊
2025-11-18 11:33:20
2025-11-18 23:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11747文章数 142507关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

荒野求生成流量风口:有女子辞职参赛结果烫伤花光积蓄

头条要闻

荒野求生成流量风口:有女子辞职参赛结果烫伤花光积蓄

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

健康
游戏
本地
公开课
军事航空

警惕超声报告这六大"坑"

《秘奥:秘宇奥忆》制作人专访:我们追求简洁的游戏系统"/> 主站 商城 论坛 自运营 登录 注册 《秘奥:秘宇奥忆》制作人专访:我们追求简洁的游戏系统 ...

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版