网易首页 > 网易号 > 正文 申请入驻

Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转

0
分享至

本文第一作者为刘启昊,约翰霍普金斯大学计算机科学博士四年级学生,师从 Alan Yuille 教授,研究方向涉及模型鲁棒性、生成模型与 3D 视觉。通讯作者为 Mannat Singh,Meta GenAI 研究员,近期的研究主要涉及视频生成领域创新工作,包括 Emu Video、MovieGen 等项目。

在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。现有方法如扩散模型(Diffusion Models)和流匹配(Flow Matching)虽取得了显著进展,但仍面临依赖噪声分布、复杂条件机制等挑战。

近期,Meta 与约翰霍普金斯大学联合推出的CrossFlow框架,以全新的技术路径实现了跨模态生成的突破性进展,为生成式 AI 开辟了更高效、更通用的可能性。该文章已经被 CVPR 2025 收录为 Highlight。

  • 论文标题:Flowing from Words to Pixels: A Noise-Free Framework for Cross-Modality Evolution
  • 论文地址:https://arxiv.org/pdf/2412.15213
  • 项目主页:https://cross-flow.github.io/
  • 代码地址:https://github.com/qihao067/CrossFlow
  • Demo地址:https://huggingface.co/spaces/QHL067/CrossFlow

核心创新:从 “噪声到数据” 到 “模态到模态”

基于 Diffusion 或者流匹配的生成模型通常从高斯噪声出发,通过逐步去噪或优化路径生成目标数据。然而,对于噪声的依赖限制了这类算法的灵活性和潜能。

近期,不少工作在探索如何摆脱对噪声的依赖,比如使用基于薛定谔桥的生成模型。然而这些算法往往很复杂,并且依旧局限于相似模态之间的生成(比如人类转猫脸等)。

而 CrossFlow 则深入分析了流匹配,并基于流匹配提出了一种非常简单跨模态生成新范式,可以直接在模态间进行映射,无需依赖噪声分布或额外条件机制。例如,在文本到图像生成中,模型直接使用流匹配学习从文本语义空间到图像空间的映射,省去了复杂的跨注意力机制(Cross-Attention),仅通过自注意力即可实现高效的文本到图像生成。

通过直接使用流匹配做模态间的映射,本文提出的模型在仅使用由自注意力和前向层组成的 transformer的情况下,不需要基于任务的特定设计,便在多个任务(图像生成、字幕生成、深度估计、超分辨率)上实现了媲美乃至超过最优算法的性能。

作者发现,使用流匹配做模态间映射的核心在于如何形成 regularized 的分布。

为了实现这一点,作者提出使用变分编码器(Variational Encoder):将输入模态(如文本)编码为与目标模态(如图像)同维度的正则化潜在空间,确保跨模态路径的平滑性和语义连贯性。然后,作者发现:仅需要训练一个最简单的流匹配模型,就可以实现这两个空间的映射。

同时,现在的图片生成模型往往依赖无分类器引导(Classifier-free guidance)。这种引导通过改变额外输入的 condition 来实现。为了在无额外条件机制的情况下实现无分类器引导,作者通过引入二元指示符,在单模型中实现条件与非条件生成的灵活切换,显著提升生成质量。

实验表现

作者通过大量实验证明了新范式的优势:

1. 在文本到图像生成任务上,相比于主流的使用跨注意力增加 text condition 的方法,CrossFlow 取得了更好的生成效果,并且有更好的 scaling 特性。

2.latent space 的差值算术操作:支持语义层面的加减运算(如 “戴帽子的狗”+“墨镜”-“帽子”=“戴墨镜的狗”),为生成内容提供前所未有的可控性,同时为图像编辑、平滑的视频生成等任务提供了新思路。

3.源分布可定制,让图像生成更灵活,同时显著降低训练成本,提高生成速度:原本的图像生成始终学习从噪声到图像的映射,因此流匹配所需要学到的 path 的复杂度是确定的。而 CrossFlow 则建立了一个可学习的源分布到图像的映射,通过不同的方法来学习源分布,可以改变两个分布之间的差异以及 path 的复杂度,实现更灵活、快速的生成。

具体来说,相比 DALL-E 2 等模型,CrossFlow 训练资源需求大幅减少(630 A100 GPU 天 vs. 数千天),而后续的研究工作也表明,通过对源分布的设计,可以进一步将训练时间缩短至 208 A100 GPU 天,并提高 6.62 倍的采样速度。

4. 由于流匹配的 “双向映射” 的特性(bi-directional flow property),可以直接将文本到图像生成模型反过来使用,成为一个图像描述(image captioning)模型——该模型在 COCO 上取得了SOTA水平。

5. 无需基于任务的特定设计,即可以在多个任务上(图像生成、图像描述、深度估计、超分辨率)的多个数据集上取得 SOTA 的水平,推动模型使用统一、单一框架适配多任务。

结语

CrossFlow 的诞生标志着生成式 AI 从 “噪声中创造” 迈向 “语义间流转” 的新阶段。其简洁的设计、卓越的性能与灵活的扩展性,为跨模态生成提供了更多的可能性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东宏远今日早报!杜锋深夜发声,陈家政效仿徐昕,徐杰状态回升

广东宏远今日早报!杜锋深夜发声,陈家政效仿徐昕,徐杰状态回升

多特体育说
2026-03-26 10:17:08
46 岁张柏芝三亚生图流出,肚子上的软肉,打了整个内娱的脸

46 岁张柏芝三亚生图流出,肚子上的软肉,打了整个内娱的脸

橙星文娱
2026-03-26 13:40:27
3大冷门!上季亚军狂输32分!夺冠热门输20分,前总冠军惨败42分

3大冷门!上季亚军狂输32分!夺冠热门输20分,前总冠军惨败42分

老吴说体育
2026-03-26 00:26:35
美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

南权先生
2026-03-25 15:28:41
俞灏明现身广州永庆坊,生图疤痕明显脸肿涨,手上戒指甜翻网友

俞灏明现身广州永庆坊,生图疤痕明显脸肿涨,手上戒指甜翻网友

洲洲影视娱评
2026-03-26 19:05:28
炸锅!北约最高司令当众认怂:乌军爱国者战力吊打美军

炸锅!北约最高司令当众认怂:乌军爱国者战力吊打美军

老马拉车莫少装
2026-03-26 20:01:46
2025年湖南省常住人口减少47万人,出生人口连续九年下降

2025年湖南省常住人口减少47万人,出生人口连续九年下降

何亚福
2026-03-26 18:42:00
河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

网络易不易
2026-03-26 14:05:04
泽连斯基曝惊天内幕:美国逼乌克兰弃顿巴斯,换一纸安全保证

泽连斯基曝惊天内幕:美国逼乌克兰弃顿巴斯,换一纸安全保证

老马拉车莫少装
2026-03-26 21:17:40
真要走了?5首轮豪赌!火箭再梭哈,杜兰特+字母哥?

真要走了?5首轮豪赌!火箭再梭哈,杜兰特+字母哥?

篮球盛世
2026-03-25 22:25:51
京沪蓉之后,第四座“双机场”城市,来了

京沪蓉之后,第四座“双机场”城市,来了

西部城市
2026-03-25 21:43:15
泡泡史诗级暴跌!榜一大哥单日亏千万,省大努力半年,却创出最大亏损

泡泡史诗级暴跌!榜一大哥单日亏千万,省大努力半年,却创出最大亏损

金石随笔
2026-03-26 00:09:28
江苏拟建一条过江通道,或将再破“世界纪录”

江苏拟建一条过江通道,或将再破“世界纪录”

水泥土的搞笑
2026-03-26 14:04:59
中国首创!打一针降血脂基因治疗获突破

中国首创!打一针降血脂基因治疗获突破

医学界
2026-03-26 19:17:50
公安部172号令落地:70岁驾照不再终身有效,2026年这些事必须办

公安部172号令落地:70岁驾照不再终身有效,2026年这些事必须办

小怪吃美食
2026-03-24 17:29:52
张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

星星没有你亮
2026-03-26 18:26:16
战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

子桑说
2026-03-25 17:27:05
冬去春来:徐胜利因祸得福遇贵人!庄庄终于看清沈冉冉的真面目

冬去春来:徐胜利因祸得福遇贵人!庄庄终于看清沈冉冉的真面目

怂熊剧场
2026-03-26 09:33:08
篮网一口气选的五个首轮秀,现在都怎么样了?

篮网一口气选的五个首轮秀,现在都怎么样了?

只关于篮球
2026-03-26 12:34:23
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
2026-03-26 22:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
游戏
亲子
教育
公开课

数码要闻

iQOO Z11x发布:LCD党的护眼神机 1499元起

开冲!PS会员4月离库名单公布:独立神作进入倒计时

亲子要闻

你好,我是馒头,快开门!

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版