网易首页 > 网易号 > 正文 申请入驻

CVPR 2025 多模态大一统:斯坦福 x 复旦符号主义建模生成式任务

0
分享至

共同第一作者包括:陈家棋,斯坦福大学访问学者,复旦大学硕士,研究方向为 LLM Agent和大一统模型;朱小烨,华南理工大学本科,研究方向为 LLM Agent、LLM 和强化学习;王越,康奈尔大学本科,研究方向为 LLM Agent、多模态语言模型。指导老师:Julian McAuley(UCSD)、Li-jia Li (IEEE Fellow, LiveX AI)。

在人工智能内容创作蓬勃发展的今天,跨模态生成技术正在重塑艺术创作和视觉表达的边界。人们对需求也日趋复杂和多样,譬如将静态照片转化为动态视频并叠加环境音效,打造沉浸式的多感官体验。然而,现有生成系统大多受限于训练数据的覆盖范围,或是因复杂的多模型协调而效率低下,难以满足这些日益增长的创意需求。

问题背景

图 1用于 Any-to-Any 生成任务的一种符号化描述方法。

「将丛林的狂野生长与古老废墟的神秘感融合成一个全新的场景,一定会令人惊叹,」你的艺术家朋友沉思道。「如果还能把这张照片转换成视频,再叠加上鸟鸣声和潺潺流水声——那将营造出一种梦幻般的感官体验。」这些日益复杂、跨模态的创作需求指向了一个根本性挑战:如何设计一个统一模型,能够根据自然语言指令,无缝处理任意输入与输出模态组合的生成任务?这样的任务就是该研究关注的「Any-to-Any」生成任务,如图 2 所示。

图 2 Any-to-Any 生成任务

当前 Any-to-Any 生成任务的方法主要分为隐式神经建模和智能体方法。隐式神经建模需要大量数据训练,虽然能处理常见任务,但对新场景适应能力差且生成过程不可控;智能体方法虽然功能灵活但结构复杂,运行不稳定且效率较低。此外,如果人类设计师用 PS 合成图像时,需要先背诵所有滤镜组合公式才能操作,还有创意可言吗?当前许多方法陷入了这种「知识依赖陷阱」——而真正的 Any-to-Any 生成,应该像儿童搭积木:不需要理解木块分子结构,只需知道它们如何拼接。

于是,研究团队设想构建一个框架:聚焦于统一的任务表示和语言模型友好的接口,从而实现直接的任务指定。使系统能够真正理解并执行用户以自然语言描述的任意生成需求,同时保持执行过程的可控性和可干预性。这一设想从根本上改变了传统生成模型的实现范式,为构建真正意义上的 Any-to-Any 生成系统提供了新的技术路线。

基于符号化表征的生成任务描述框架

框架设计的核心思路在于对生成任务本质的解构:任何复杂的多模态生成过程,本质上都可以拆解为「做什么」(函数)、「怎么做」(参数)和「执行顺序」(拓扑)三个要素。基于这样的见解,研究提出了 -Language,这是一种正式表示方法,系统地捕捉生成任务的这三个基本组成部分。此外,研究还介绍了一种无需训练的推理引擎,它利用预训练的语言模型作为基础,从输入指令和指定的关键函数中得出符号表示。

图 3 语法风格比较。

  • 基于预训练语言模型的符号化流程推断为使方法灵活而稳健地适应生成任务的多样性和复杂性,该研究将高层次的任务描述转化为可执行的符号化流程。如图 4 所示,提出利用语言模型 (LM) 作为推理引擎,从输入指令和指定的关键函数中得出符号表示。

图 4 利用语言模型 (LM) 生成符号化表示。

通过三阶段处理实现这一目标:组件推断阶段由语言模型解析任务描述,识别所需的函数 (F) 和参数 (Φ);拓扑构建阶段基于输入输出关系,建立函数间的数据流连接 (T);迭代优化阶段通过错误反馈循环 (R) 持续修正流程,直至满足所有约束条件 (C)。图 5 完整展示了从自然语言描述到可执行工作流程的转换过程,从而实现了跨模态和跨任务类型的任意转换。

图 5 推理和执行的演示。

实验结果

在实验中,该研究构建了一个包含 120 个真实世界生成案例的数据集,涵盖 12 个任务类别,并通过用户研究和可执行性评估验证了方法的有效性。

  • 跨模态生成质量评估(用户研究)

针对不同模态转换任务进行了系统的用户评估,以验证该方法在真实场景下的生成质量。实验结果显示,在文本到图像任务中,该方法对 Show-o 的胜率达 94%;在图像转视频任务中,对商业系统 Gen-3 的胜率达 67%;文本到音频任务中,对齐度和质量胜率分别达 100% 和 98%。

  • 复杂工作流执行测试(ComfyBench 基准)

为评估方法处理复杂任务的能力,采用包含多步骤工作流的 ComfyBench 进行测试。实验结果显示,总体成功率 43%,显著优于次优方法(32.5%),在复杂任务(如包含 11 个组件的「模型合并」)上表现突出。

  • 消融实验

消融实验证实,两阶段推理架构(组件推断 + 拓扑构建)是系统性能的核心,移除该设计将导致任务完成率下降 35%。

  • 对比实验:符号化 v.s. 代理化方法

选取了当前最先进的代理框架 GenAgent 作为基线,在相同任务集上进行对比测试。实验数据显示,在编译阶段,该方法达到 98% 的通过率,相比代理方法的 84% 显著提升 ($p \< 0.001$);执行成功率方面,该方法 87% 的表现远超代理方法的 63%。

  • 表示方法本质研究

针对「神经表示 v.s. 符号表示」这一核心问题,研究设计了控制变量实验:在相同计算资源下,符号表示的内存占用仅为神经表示的 1/5。任务修改效率测试显示,修改符号化流程平均耗时 23 秒,而神经方法需要重新训练(平均 4.2 小时);但在端到端推理速度上,神经方法快 1.8 倍,这揭示了符号方法在实时性上的 trade-off。

  • 显式流程编辑与错误分析

通过对 120 个失败案例的归因分析发现,28% 的错误源于参数范围越界,主要体现在跨模态任务中的单位转换问题;22% 属于模态不匹配错误,多发生在未明确指定输入输出类型的场景中;15% 由于函数缺失导致,这反映了现有函数库仍需扩展。

总结

该研究提出的符号化生成任务描述语言及配套推理引擎,为多模态任务提供了一种无需专门训练的全新高效解决方案。通过利用预训练大语言模型将自然语言指令直接转化为符号化工作流,该方法成功实现了 12 类跨模态生成任务的灵活合成。实验证明,该框架不仅在生成内容质量上媲美现有的先进统一模型,更在效率、可编辑性和可中断性等方面展现出显著优势。符号化任务表示方法或许能为提升生成式 AI 能力提供一条经济高效且可扩展的技术路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

健康之光
2026-01-04 09:31:45
薄一波打断原副总理姬鹏飞的电话,说:别执迷不悟,他罪该万死

薄一波打断原副总理姬鹏飞的电话,说:别执迷不悟,他罪该万死

抽象派大师
2026-01-26 19:07:26
男子千里送发动机后续:警方介入,正脸曝光 , 知情人爆更多内幕

男子千里送发动机后续:警方介入,正脸曝光 , 知情人爆更多内幕

丁丁鲤史纪
2026-01-28 10:06:08
世界最顶级的豪宅,或许,就在广州!

世界最顶级的豪宅,或许,就在广州!

广州房产
2026-01-28 09:45:16
张雨绮,至今一言不发

张雨绮,至今一言不发

新民周刊
2026-01-28 19:42:48
联合国掀桌!400岗迁出纽约,硬刚美国霸权

联合国掀桌!400岗迁出纽约,硬刚美国霸权

小噎论事
2026-01-27 19:01:46
“网红小胖”:曾参演《爱情公寓》等电视剧,如今已结婚生子,回归正常家庭生活

“网红小胖”:曾参演《爱情公寓》等电视剧,如今已结婚生子,回归正常家庭生活

大风新闻
2026-01-27 10:52:13
全国千亿县大扩容,多地晋级GDP千亿县行列

全国千亿县大扩容,多地晋级GDP千亿县行列

第一财经资讯
2026-01-28 19:53:13
0-2爆冷!澳网乱套了,4号种子出局,王欣瑜太可惜,4强对阵曝光

0-2爆冷!澳网乱套了,4号种子出局,王欣瑜太可惜,4强对阵曝光

体育就你秀
2026-01-28 12:43:12
拿600万,0分2板3犯规,登场10分钟输19分!球迷:CBA第一诈骗犯

拿600万,0分2板3犯规,登场10分钟输19分!球迷:CBA第一诈骗犯

弄月公子
2026-01-28 22:05:48
戴笠一生犯下最大的三个错:睡错一人,信错一人,杀错一人

戴笠一生犯下最大的三个错:睡错一人,信错一人,杀错一人

抽象派大师
2026-01-21 05:51:57
加州先跳,“加拿大进口中国电车,一整个期待住了”

加州先跳,“加拿大进口中国电车,一整个期待住了”

观察者网
2026-01-28 11:39:16
毛主席逝世后,邓小平优待贺子珍,贺子珍:没想到组织上还记得我

毛主席逝世后,邓小平优待贺子珍,贺子珍:没想到组织上还记得我

明月清风阁
2026-01-28 08:20:08
今日笑话:公平的蛇

今日笑话:公平的蛇

有趣的火烈鸟
2026-01-27 15:21:28
澳网男单四强出炉:TOP4包圆,辛纳领跑,德约仍有机会

澳网男单四强出炉:TOP4包圆,辛纳领跑,德约仍有机会

格斗联盟
2026-01-28 20:03:34
“废掉”一个孩子,就让ta待在家里,一天到晚待在家里

“废掉”一个孩子,就让ta待在家里,一天到晚待在家里

行者马生的笔记
2026-01-27 21:15:41
没有了!没有锡安了!七年7500万结束了!

没有了!没有锡安了!七年7500万结束了!

篮球盛世
2026-01-26 19:12:40
战机航母全来了,美军春节前或动手?中方已行动,先断特朗普后路

战机航母全来了,美军春节前或动手?中方已行动,先断特朗普后路

比利
2026-01-26 03:14:21
超20家商业航天概念股披露2025年业绩预告 臻镭科技同比最高预增超6倍

超20家商业航天概念股披露2025年业绩预告 臻镭科技同比最高预增超6倍

财联社
2026-01-28 22:26:28
基本金属大涨之际,高盛逆势看空:铜铝需求已现疲态

基本金属大涨之际,高盛逆势看空:铜铝需求已现疲态

华尔街见闻官方
2026-01-28 17:20:54
2026-01-28 23:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12209文章数 142552关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

水贝知名金店出现兑付困难 未兑付的金额已超过百亿元

头条要闻

水贝知名金店出现兑付困难 未兑付的金额已超过百亿元

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

教育
本地
亲子
旅游
手机

教育要闻

如果你被夸意志力强,反而不是什么好事...

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

亲子要闻

“又是个一米六的男子汉”,宝妈每天喂2块钱米油,孩子天崩开局

旅游要闻

桂林的“限定浪漫”已上线!满城梅花绽放,花期持续至春节!

手机要闻

三星手机屏幕防窥功能确认,Galaxy S26系列或首发

无障碍浏览 进入关怀版