网易首页 > 网易号 > 正文 申请入驻

CVPR 2025 多模态大一统:斯坦福 x 复旦符号主义建模生成式任务

0
分享至

共同第一作者包括:陈家棋,斯坦福大学访问学者,复旦大学硕士,研究方向为 LLM Agent和大一统模型;朱小烨,华南理工大学本科,研究方向为 LLM Agent、LLM 和强化学习;王越,康奈尔大学本科,研究方向为 LLM Agent、多模态语言模型。指导老师:Julian McAuley(UCSD)、Li-jia Li (IEEE Fellow, LiveX AI)。

在人工智能内容创作蓬勃发展的今天,跨模态生成技术正在重塑艺术创作和视觉表达的边界。人们对需求也日趋复杂和多样,譬如将静态照片转化为动态视频并叠加环境音效,打造沉浸式的多感官体验。然而,现有生成系统大多受限于训练数据的覆盖范围,或是因复杂的多模型协调而效率低下,难以满足这些日益增长的创意需求。

问题背景

图 1用于 Any-to-Any 生成任务的一种符号化描述方法。

「将丛林的狂野生长与古老废墟的神秘感融合成一个全新的场景,一定会令人惊叹,」你的艺术家朋友沉思道。「如果还能把这张照片转换成视频,再叠加上鸟鸣声和潺潺流水声——那将营造出一种梦幻般的感官体验。」这些日益复杂、跨模态的创作需求指向了一个根本性挑战:如何设计一个统一模型,能够根据自然语言指令,无缝处理任意输入与输出模态组合的生成任务?这样的任务就是该研究关注的「Any-to-Any」生成任务,如图 2 所示。

图 2 Any-to-Any 生成任务

当前 Any-to-Any 生成任务的方法主要分为隐式神经建模和智能体方法。隐式神经建模需要大量数据训练,虽然能处理常见任务,但对新场景适应能力差且生成过程不可控;智能体方法虽然功能灵活但结构复杂,运行不稳定且效率较低。此外,如果人类设计师用 PS 合成图像时,需要先背诵所有滤镜组合公式才能操作,还有创意可言吗?当前许多方法陷入了这种「知识依赖陷阱」——而真正的 Any-to-Any 生成,应该像儿童搭积木:不需要理解木块分子结构,只需知道它们如何拼接。

于是,研究团队设想构建一个框架:聚焦于统一的任务表示和语言模型友好的接口,从而实现直接的任务指定。使系统能够真正理解并执行用户以自然语言描述的任意生成需求,同时保持执行过程的可控性和可干预性。这一设想从根本上改变了传统生成模型的实现范式,为构建真正意义上的 Any-to-Any 生成系统提供了新的技术路线。

基于符号化表征的生成任务描述框架

框架设计的核心思路在于对生成任务本质的解构:任何复杂的多模态生成过程,本质上都可以拆解为「做什么」(函数)、「怎么做」(参数)和「执行顺序」(拓扑)三个要素。基于这样的见解,研究提出了 -Language,这是一种正式表示方法,系统地捕捉生成任务的这三个基本组成部分。此外,研究还介绍了一种无需训练的推理引擎,它利用预训练的语言模型作为基础,从输入指令和指定的关键函数中得出符号表示。

图 3 语法风格比较。

  • 基于预训练语言模型的符号化流程推断为使方法灵活而稳健地适应生成任务的多样性和复杂性,该研究将高层次的任务描述转化为可执行的符号化流程。如图 4 所示,提出利用语言模型 (LM) 作为推理引擎,从输入指令和指定的关键函数中得出符号表示。

图 4 利用语言模型 (LM) 生成符号化表示。

通过三阶段处理实现这一目标:组件推断阶段由语言模型解析任务描述,识别所需的函数 (F) 和参数 (Φ);拓扑构建阶段基于输入输出关系,建立函数间的数据流连接 (T);迭代优化阶段通过错误反馈循环 (R) 持续修正流程,直至满足所有约束条件 (C)。图 5 完整展示了从自然语言描述到可执行工作流程的转换过程,从而实现了跨模态和跨任务类型的任意转换。

图 5 推理和执行的演示。

实验结果

在实验中,该研究构建了一个包含 120 个真实世界生成案例的数据集,涵盖 12 个任务类别,并通过用户研究和可执行性评估验证了方法的有效性。

  • 跨模态生成质量评估(用户研究)

针对不同模态转换任务进行了系统的用户评估,以验证该方法在真实场景下的生成质量。实验结果显示,在文本到图像任务中,该方法对 Show-o 的胜率达 94%;在图像转视频任务中,对商业系统 Gen-3 的胜率达 67%;文本到音频任务中,对齐度和质量胜率分别达 100% 和 98%。

  • 复杂工作流执行测试(ComfyBench 基准)

为评估方法处理复杂任务的能力,采用包含多步骤工作流的 ComfyBench 进行测试。实验结果显示,总体成功率 43%,显著优于次优方法(32.5%),在复杂任务(如包含 11 个组件的「模型合并」)上表现突出。

  • 消融实验

消融实验证实,两阶段推理架构(组件推断 + 拓扑构建)是系统性能的核心,移除该设计将导致任务完成率下降 35%。

  • 对比实验:符号化 v.s. 代理化方法

选取了当前最先进的代理框架 GenAgent 作为基线,在相同任务集上进行对比测试。实验数据显示,在编译阶段,该方法达到 98% 的通过率,相比代理方法的 84% 显著提升 ($p \< 0.001$);执行成功率方面,该方法 87% 的表现远超代理方法的 63%。

  • 表示方法本质研究

针对「神经表示 v.s. 符号表示」这一核心问题,研究设计了控制变量实验:在相同计算资源下,符号表示的内存占用仅为神经表示的 1/5。任务修改效率测试显示,修改符号化流程平均耗时 23 秒,而神经方法需要重新训练(平均 4.2 小时);但在端到端推理速度上,神经方法快 1.8 倍,这揭示了符号方法在实时性上的 trade-off。

  • 显式流程编辑与错误分析

通过对 120 个失败案例的归因分析发现,28% 的错误源于参数范围越界,主要体现在跨模态任务中的单位转换问题;22% 属于模态不匹配错误,多发生在未明确指定输入输出类型的场景中;15% 由于函数缺失导致,这反映了现有函数库仍需扩展。

总结

该研究提出的符号化生成任务描述语言及配套推理引擎,为多模态任务提供了一种无需专门训练的全新高效解决方案。通过利用预训练大语言模型将自然语言指令直接转化为符号化工作流,该方法成功实现了 12 类跨模态生成任务的灵活合成。实验证明,该框架不仅在生成内容质量上媲美现有的先进统一模型,更在效率、可编辑性和可中断性等方面展现出显著优势。符号化任务表示方法或许能为提升生成式 AI 能力提供一条经济高效且可扩展的技术路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海楼市失控了....

上海楼市失控了....

新浪财经
2026-03-27 00:18:46
特朗普撤回通牒,伊朗打来电话,希望中方伸出援手,王毅斩钉截铁

特朗普撤回通牒,伊朗打来电话,希望中方伸出援手,王毅斩钉截铁

华史谈
2026-03-26 23:37:39
事关停火!刚刚,特朗普最新发声!伊朗,大消息!

事关停火!刚刚,特朗普最新发声!伊朗,大消息!

证券时报
2026-03-27 00:56:03
扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

环球网资讯
2026-03-26 08:55:12
刘强东章泽天的大姑娘!感觉像爸爸多一点

刘强东章泽天的大姑娘!感觉像爸爸多一点

可乐谈情感
2026-03-27 03:08:27
20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

悄悄史话
2026-03-26 14:09:05
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

红星新闻
2026-03-26 11:28:05
国民党内讧开始,马英九拒绝电话、倒向美国?大陆发布统一后安排

国民党内讧开始,马英九拒绝电话、倒向美国?大陆发布统一后安排

一家说
2026-03-27 01:31:09
张雪峰的病,速效救心丸能救吗?

张雪峰的病,速效救心丸能救吗?

中国新闻周刊
2026-03-25 16:23:30
伊朗注意了,美军可能声东击西!第82空降师实力有多强?

伊朗注意了,美军可能声东击西!第82空降师实力有多强?

科普100克克
2026-03-27 01:06:44
0.028%!无罪判决率跌至谷底,为何国际水平是我们的35倍?

0.028%!无罪判决率跌至谷底,为何国际水平是我们的35倍?

深析古今
2026-03-25 01:10:47
伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

大象新闻
2026-03-26 09:45:03
航班在美国发生事故后加拿大航空公司CEO仅用英语发表讲话,加总理批:我非常失望

航班在美国发生事故后加拿大航空公司CEO仅用英语发表讲话,加总理批:我非常失望

环球网资讯
2026-03-26 18:26:42
突发,雷军辞职董事长!

突发,雷军辞职董事长!

品牌头版
2026-03-26 14:46:17
很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

岐黄传人孙大夫
2026-03-26 20:45:03
美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

雪中风车
2026-02-23 19:34:34
美国懵了,能摧毁伊朗电力的石墨炸弹,竟让中国两座城市联手废了

美国懵了,能摧毁伊朗电力的石墨炸弹,竟让中国两座城市联手废了

瑛派儿老黄
2026-03-25 23:46:07
生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

闪电新闻
2026-03-26 11:46:05
中国首创!打一针降血脂基因治疗获突破

中国首创!打一针降血脂基因治疗获突破

医学界
2026-03-26 19:17:50
2026-03-27 04:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
数码
家居
本地
公开课

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

家居要闻

傍海而居 静观蝴蝶海

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版