网易首页 > 网易号 > 正文 申请入驻

CVPR 2025 多模态大一统:斯坦福 x 复旦符号主义建模生成式任务

0
分享至

共同第一作者包括:陈家棋,斯坦福大学访问学者,复旦大学硕士,研究方向为 LLM Agent和大一统模型;朱小烨,华南理工大学本科,研究方向为 LLM Agent、LLM 和强化学习;王越,康奈尔大学本科,研究方向为 LLM Agent、多模态语言模型。指导老师:Julian McAuley(UCSD)、Li-jia Li (IEEE Fellow, LiveX AI)。

在人工智能内容创作蓬勃发展的今天,跨模态生成技术正在重塑艺术创作和视觉表达的边界。人们对需求也日趋复杂和多样,譬如将静态照片转化为动态视频并叠加环境音效,打造沉浸式的多感官体验。然而,现有生成系统大多受限于训练数据的覆盖范围,或是因复杂的多模型协调而效率低下,难以满足这些日益增长的创意需求。

问题背景

图 1用于 Any-to-Any 生成任务的一种符号化描述方法。

「将丛林的狂野生长与古老废墟的神秘感融合成一个全新的场景,一定会令人惊叹,」你的艺术家朋友沉思道。「如果还能把这张照片转换成视频,再叠加上鸟鸣声和潺潺流水声——那将营造出一种梦幻般的感官体验。」这些日益复杂、跨模态的创作需求指向了一个根本性挑战:如何设计一个统一模型,能够根据自然语言指令,无缝处理任意输入与输出模态组合的生成任务?这样的任务就是该研究关注的「Any-to-Any」生成任务,如图 2 所示。

图 2 Any-to-Any 生成任务

当前 Any-to-Any 生成任务的方法主要分为隐式神经建模和智能体方法。隐式神经建模需要大量数据训练,虽然能处理常见任务,但对新场景适应能力差且生成过程不可控;智能体方法虽然功能灵活但结构复杂,运行不稳定且效率较低。此外,如果人类设计师用 PS 合成图像时,需要先背诵所有滤镜组合公式才能操作,还有创意可言吗?当前许多方法陷入了这种「知识依赖陷阱」——而真正的 Any-to-Any 生成,应该像儿童搭积木:不需要理解木块分子结构,只需知道它们如何拼接。

于是,研究团队设想构建一个框架:聚焦于统一的任务表示和语言模型友好的接口,从而实现直接的任务指定。使系统能够真正理解并执行用户以自然语言描述的任意生成需求,同时保持执行过程的可控性和可干预性。这一设想从根本上改变了传统生成模型的实现范式,为构建真正意义上的 Any-to-Any 生成系统提供了新的技术路线。

基于符号化表征的生成任务描述框架

框架设计的核心思路在于对生成任务本质的解构:任何复杂的多模态生成过程,本质上都可以拆解为「做什么」(函数)、「怎么做」(参数)和「执行顺序」(拓扑)三个要素。基于这样的见解,研究提出了 -Language,这是一种正式表示方法,系统地捕捉生成任务的这三个基本组成部分。此外,研究还介绍了一种无需训练的推理引擎,它利用预训练的语言模型作为基础,从输入指令和指定的关键函数中得出符号表示。

图 3 语法风格比较。

  • 基于预训练语言模型的符号化流程推断为使方法灵活而稳健地适应生成任务的多样性和复杂性,该研究将高层次的任务描述转化为可执行的符号化流程。如图 4 所示,提出利用语言模型 (LM) 作为推理引擎,从输入指令和指定的关键函数中得出符号表示。

图 4 利用语言模型 (LM) 生成符号化表示。

通过三阶段处理实现这一目标:组件推断阶段由语言模型解析任务描述,识别所需的函数 (F) 和参数 (Φ);拓扑构建阶段基于输入输出关系,建立函数间的数据流连接 (T);迭代优化阶段通过错误反馈循环 (R) 持续修正流程,直至满足所有约束条件 (C)。图 5 完整展示了从自然语言描述到可执行工作流程的转换过程,从而实现了跨模态和跨任务类型的任意转换。

图 5 推理和执行的演示。

实验结果

在实验中,该研究构建了一个包含 120 个真实世界生成案例的数据集,涵盖 12 个任务类别,并通过用户研究和可执行性评估验证了方法的有效性。

  • 跨模态生成质量评估(用户研究)

针对不同模态转换任务进行了系统的用户评估,以验证该方法在真实场景下的生成质量。实验结果显示,在文本到图像任务中,该方法对 Show-o 的胜率达 94%;在图像转视频任务中,对商业系统 Gen-3 的胜率达 67%;文本到音频任务中,对齐度和质量胜率分别达 100% 和 98%。

  • 复杂工作流执行测试(ComfyBench 基准)

为评估方法处理复杂任务的能力,采用包含多步骤工作流的 ComfyBench 进行测试。实验结果显示,总体成功率 43%,显著优于次优方法(32.5%),在复杂任务(如包含 11 个组件的「模型合并」)上表现突出。

  • 消融实验

消融实验证实,两阶段推理架构(组件推断 + 拓扑构建)是系统性能的核心,移除该设计将导致任务完成率下降 35%。

  • 对比实验:符号化 v.s. 代理化方法

选取了当前最先进的代理框架 GenAgent 作为基线,在相同任务集上进行对比测试。实验数据显示,在编译阶段,该方法达到 98% 的通过率,相比代理方法的 84% 显著提升 ($p \< 0.001$);执行成功率方面,该方法 87% 的表现远超代理方法的 63%。

  • 表示方法本质研究

针对「神经表示 v.s. 符号表示」这一核心问题,研究设计了控制变量实验:在相同计算资源下,符号表示的内存占用仅为神经表示的 1/5。任务修改效率测试显示,修改符号化流程平均耗时 23 秒,而神经方法需要重新训练(平均 4.2 小时);但在端到端推理速度上,神经方法快 1.8 倍,这揭示了符号方法在实时性上的 trade-off。

  • 显式流程编辑与错误分析

通过对 120 个失败案例的归因分析发现,28% 的错误源于参数范围越界,主要体现在跨模态任务中的单位转换问题;22% 属于模态不匹配错误,多发生在未明确指定输入输出类型的场景中;15% 由于函数缺失导致,这反映了现有函数库仍需扩展。

总结

该研究提出的符号化生成任务描述语言及配套推理引擎,为多模态任务提供了一种无需专门训练的全新高效解决方案。通过利用预训练大语言模型将自然语言指令直接转化为符号化工作流,该方法成功实现了 12 类跨模态生成任务的灵活合成。实验证明,该框架不仅在生成内容质量上媲美现有的先进统一模型,更在效率、可编辑性和可中断性等方面展现出显著优势。符号化任务表示方法或许能为提升生成式 AI 能力提供一条经济高效且可扩展的技术路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视《太平年》首播差评如潮,观众理由出奇一致:完全摸不着头脑

央视《太平年》首播差评如潮,观众理由出奇一致:完全摸不着头脑

小娱乐悠悠
2026-01-24 13:12:22
联盟最强火力回归!近四战场均33+10,唐斯和申京被当做玩具戏耍

联盟最强火力回归!近四战场均33+10,唐斯和申京被当做玩具戏耍

你的篮球频道
2026-01-25 09:26:20
创造历史,长安启源为重庆铜梁龙以及向余望、李镇全“送车”

创造历史,长安启源为重庆铜梁龙以及向余望、李镇全“送车”

懂球帝
2026-01-25 01:41:11
长得漂亮却坏事做尽,3次入狱,被摘除4处器官的她,如今过得怎样

长得漂亮却坏事做尽,3次入狱,被摘除4处器官的她,如今过得怎样

银河史记
2026-01-23 15:36:04
总参军训部撤销,升格成副战区级单位,末任部长政委是咋安排的?

总参军训部撤销,升格成副战区级单位,末任部长政委是咋安排的?

史座y
2025-12-15 18:53:52
华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

观察者海风
2026-01-20 15:14:58
哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

岐黄传人孙大夫
2026-01-08 10:06:20
见证历史!50万亿存款搬家, 相当于40%GDP, 钱正疯狂流向两大方向

见证历史!50万亿存款搬家, 相当于40%GDP, 钱正疯狂流向两大方向

现代小青青慕慕
2026-01-12 16:43:32
蒙古终于回头!从2025年开始,文字“认祖归宗”,国家加速去俄化

蒙古终于回头!从2025年开始,文字“认祖归宗”,国家加速去俄化

回京历史梦
2025-10-31 14:25:58
梁洛施不再隐瞒!坦言与李泽楷分手原因,事实证明,我们都被骗了

梁洛施不再隐瞒!坦言与李泽楷分手原因,事实证明,我们都被骗了

素衣读史
2026-01-22 15:21:31
密密麻麻全是佛像!新西兰华人买下海景大房后,爆改后院,邻居看傻

密密麻麻全是佛像!新西兰华人买下海景大房后,爆改后院,邻居看傻

发现新西兰
2026-01-20 11:20:02
深夜利好!6个龙头回购注销,5个龙头增持股票,A股良心股名单

深夜利好!6个龙头回购注销,5个龙头增持股票,A股良心股名单

鹏哥投研
2026-01-25 09:09:47
演员王传君发文宣布退出

演员王传君发文宣布退出

乔话
2026-01-22 17:43:06
人类对闲鱼的开发不足1%,一群神人把我笑发财了

人类对闲鱼的开发不足1%,一群神人把我笑发财了

另子维爱读史
2026-01-11 21:09:06
比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

来科点谱
2025-10-24 09:25:32
《太平年》史实大结局:钱弘俶被赵光义暗杀,孙太真见证钱氏融宋

《太平年》史实大结局:钱弘俶被赵光义暗杀,孙太真见证钱氏融宋

动物奇奇怪怪
2026-01-25 02:45:08
哈迪德家族声援贝克汉姆夫妇,吐槽妮可拉破坏家庭,只想出名?

哈迪德家族声援贝克汉姆夫妇,吐槽妮可拉破坏家庭,只想出名?

英国那些事儿
2026-01-24 23:07:47
犹太财团又要开始卖国了,大规模资产转移后,贝莱德:美国没救了

犹太财团又要开始卖国了,大规模资产转移后,贝莱德:美国没救了

老范谈史
2026-01-13 20:15:38
英国王室隐瞒百年的秘密,统治了300年的国王,竟然全是德国人?

英国王室隐瞒百年的秘密,统治了300年的国王,竟然全是德国人?

鹤羽说个事
2026-01-17 14:30:04
女子称为筹治病钱卖掉劳力士 收钱后账户被冻结:系涉诈资金 案件在办理无法解封

女子称为筹治病钱卖掉劳力士 收钱后账户被冻结:系涉诈资金 案件在办理无法解封

红星新闻
2026-01-24 11:33:24
2026-01-25 11:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12179文章数 142549关注度
往期回顾 全部

科技要闻

马斯克SpaceX背后的她:现实版钢铁侠小辣椒

头条要闻

牛弹琴:特朗普称"中国想吞并加拿大" 全世界目瞪口呆

头条要闻

牛弹琴:特朗普称"中国想吞并加拿大" 全世界目瞪口呆

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

艺术
时尚
教育
游戏
公开课

艺术要闻

18位西方画家笔下的女人,美得惊艳了时光!

冬天最佳“显瘦”公式:上短+下长

教育要闻

马年特色寒假作业清单来了!各科全覆盖,老师一定用得上!

前作活了十几年 《GTA6》也会横跨三代主机吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版