网易首页 > 网易号 > 正文 申请入驻

CVPR 2025 多模态大一统:斯坦福 x 复旦符号主义建模生成式任务

0
分享至

共同第一作者包括:陈家棋,斯坦福大学访问学者,复旦大学硕士,研究方向为 LLM Agent和大一统模型;朱小烨,华南理工大学本科,研究方向为 LLM Agent、LLM 和强化学习;王越,康奈尔大学本科,研究方向为 LLM Agent、多模态语言模型。指导老师:Julian McAuley(UCSD)、Li-jia Li (IEEE Fellow, LiveX AI)。

在人工智能内容创作蓬勃发展的今天,跨模态生成技术正在重塑艺术创作和视觉表达的边界。人们对需求也日趋复杂和多样,譬如将静态照片转化为动态视频并叠加环境音效,打造沉浸式的多感官体验。然而,现有生成系统大多受限于训练数据的覆盖范围,或是因复杂的多模型协调而效率低下,难以满足这些日益增长的创意需求。

问题背景

图 1用于 Any-to-Any 生成任务的一种符号化描述方法。

「将丛林的狂野生长与古老废墟的神秘感融合成一个全新的场景,一定会令人惊叹,」你的艺术家朋友沉思道。「如果还能把这张照片转换成视频,再叠加上鸟鸣声和潺潺流水声——那将营造出一种梦幻般的感官体验。」这些日益复杂、跨模态的创作需求指向了一个根本性挑战:如何设计一个统一模型,能够根据自然语言指令,无缝处理任意输入与输出模态组合的生成任务?这样的任务就是该研究关注的「Any-to-Any」生成任务,如图 2 所示。

图 2 Any-to-Any 生成任务

当前 Any-to-Any 生成任务的方法主要分为隐式神经建模和智能体方法。隐式神经建模需要大量数据训练,虽然能处理常见任务,但对新场景适应能力差且生成过程不可控;智能体方法虽然功能灵活但结构复杂,运行不稳定且效率较低。此外,如果人类设计师用 PS 合成图像时,需要先背诵所有滤镜组合公式才能操作,还有创意可言吗?当前许多方法陷入了这种「知识依赖陷阱」——而真正的 Any-to-Any 生成,应该像儿童搭积木:不需要理解木块分子结构,只需知道它们如何拼接。

于是,研究团队设想构建一个框架:聚焦于统一的任务表示和语言模型友好的接口,从而实现直接的任务指定。使系统能够真正理解并执行用户以自然语言描述的任意生成需求,同时保持执行过程的可控性和可干预性。这一设想从根本上改变了传统生成模型的实现范式,为构建真正意义上的 Any-to-Any 生成系统提供了新的技术路线。

基于符号化表征的生成任务描述框架

框架设计的核心思路在于对生成任务本质的解构:任何复杂的多模态生成过程,本质上都可以拆解为「做什么」(函数)、「怎么做」(参数)和「执行顺序」(拓扑)三个要素。基于这样的见解,研究提出了 -Language,这是一种正式表示方法,系统地捕捉生成任务的这三个基本组成部分。此外,研究还介绍了一种无需训练的推理引擎,它利用预训练的语言模型作为基础,从输入指令和指定的关键函数中得出符号表示。

图 3 语法风格比较。

  • 基于预训练语言模型的符号化流程推断为使方法灵活而稳健地适应生成任务的多样性和复杂性,该研究将高层次的任务描述转化为可执行的符号化流程。如图 4 所示,提出利用语言模型 (LM) 作为推理引擎,从输入指令和指定的关键函数中得出符号表示。

图 4 利用语言模型 (LM) 生成符号化表示。

通过三阶段处理实现这一目标:组件推断阶段由语言模型解析任务描述,识别所需的函数 (F) 和参数 (Φ);拓扑构建阶段基于输入输出关系,建立函数间的数据流连接 (T);迭代优化阶段通过错误反馈循环 (R) 持续修正流程,直至满足所有约束条件 (C)。图 5 完整展示了从自然语言描述到可执行工作流程的转换过程,从而实现了跨模态和跨任务类型的任意转换。

图 5 推理和执行的演示。

实验结果

在实验中,该研究构建了一个包含 120 个真实世界生成案例的数据集,涵盖 12 个任务类别,并通过用户研究和可执行性评估验证了方法的有效性。

  • 跨模态生成质量评估(用户研究)

针对不同模态转换任务进行了系统的用户评估,以验证该方法在真实场景下的生成质量。实验结果显示,在文本到图像任务中,该方法对 Show-o 的胜率达 94%;在图像转视频任务中,对商业系统 Gen-3 的胜率达 67%;文本到音频任务中,对齐度和质量胜率分别达 100% 和 98%。

  • 复杂工作流执行测试(ComfyBench 基准)

为评估方法处理复杂任务的能力,采用包含多步骤工作流的 ComfyBench 进行测试。实验结果显示,总体成功率 43%,显著优于次优方法(32.5%),在复杂任务(如包含 11 个组件的「模型合并」)上表现突出。

  • 消融实验

消融实验证实,两阶段推理架构(组件推断 + 拓扑构建)是系统性能的核心,移除该设计将导致任务完成率下降 35%。

  • 对比实验:符号化 v.s. 代理化方法

选取了当前最先进的代理框架 GenAgent 作为基线,在相同任务集上进行对比测试。实验数据显示,在编译阶段,该方法达到 98% 的通过率,相比代理方法的 84% 显著提升 ($p \< 0.001$);执行成功率方面,该方法 87% 的表现远超代理方法的 63%。

  • 表示方法本质研究

针对「神经表示 v.s. 符号表示」这一核心问题,研究设计了控制变量实验:在相同计算资源下,符号表示的内存占用仅为神经表示的 1/5。任务修改效率测试显示,修改符号化流程平均耗时 23 秒,而神经方法需要重新训练(平均 4.2 小时);但在端到端推理速度上,神经方法快 1.8 倍,这揭示了符号方法在实时性上的 trade-off。

  • 显式流程编辑与错误分析

通过对 120 个失败案例的归因分析发现,28% 的错误源于参数范围越界,主要体现在跨模态任务中的单位转换问题;22% 属于模态不匹配错误,多发生在未明确指定输入输出类型的场景中;15% 由于函数缺失导致,这反映了现有函数库仍需扩展。

总结

该研究提出的符号化生成任务描述语言及配套推理引擎,为多模态任务提供了一种无需专门训练的全新高效解决方案。通过利用预训练大语言模型将自然语言指令直接转化为符号化工作流,该方法成功实现了 12 类跨模态生成任务的灵活合成。实验证明,该框架不仅在生成内容质量上媲美现有的先进统一模型,更在效率、可编辑性和可中断性等方面展现出显著优势。符号化任务表示方法或许能为提升生成式 AI 能力提供一条经济高效且可扩展的技术路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
韦东奕换了个发型和手袋,网友就吵翻了,张益唐9个月前就说准了

韦东奕换了个发型和手袋,网友就吵翻了,张益唐9个月前就说准了

草莓解说体育
2026-05-16 01:18:20
注意!中老年男性有性生活和没性生活,差别居然这么大?

注意!中老年男性有性生活和没性生活,差别居然这么大?

皓皓情感说
2026-04-22 08:20:32
T-Mobile推eSIM旅游套餐:7天25美元,50GB 5G流量

T-Mobile推eSIM旅游套餐:7天25美元,50GB 5G流量

野生运营
2026-05-15 00:05:17
阿根廷足坛爆发口水战:迪马利亚怒斥米利托“输不起”

阿根廷足坛爆发口水战:迪马利亚怒斥米利托“输不起”

星耀国际足坛
2026-05-15 11:09:12
万众瞩目的国际盛会,反倒被6岁小男孩圈粉!细节温柔到极致

万众瞩目的国际盛会,反倒被6岁小男孩圈粉!细节温柔到极致

阿讯说天下
2026-05-15 12:12:40
公积金,被玩成高息存款了

公积金,被玩成高息存款了

邓姐姐的美好生活提案
2026-05-15 16:15:53
从狂赚到大亏15亿卢布!吉利长安在俄罗斯一年从天堂摔地狱

从狂赚到大亏15亿卢布!吉利长安在俄罗斯一年从天堂摔地狱

老马拉车莫少装
2026-05-11 14:18:27
499美元,特朗普T1手机确认本周启动发货

499美元,特朗普T1手机确认本周启动发货

华尔街见闻官方
2026-05-15 17:31:27
温州一小区保洁员不慎坠入5米污水池,消防员到场发现:池里竟还有一个人???

温州一小区保洁员不慎坠入5米污水池,消防员到场发现:池里竟还有一个人???

浙江消防
2026-05-15 16:13:05
明明都知道,为什么就是动不了

明明都知道,为什么就是动不了

时光慢邮啊
2026-05-14 10:30:15
今起,武汉公积金新政正式施行

今起,武汉公积金新政正式施行

越乔
2026-05-15 22:55:52
贵阳市国有资产监督管理委员会原党委书记、主任王黔,被查

贵阳市国有资产监督管理委员会原党委书记、主任王黔,被查

大风新闻
2026-05-15 11:08:02
相恋仅7个月 !皇马25岁巨星与网红女友分手:姐弟恋告终

相恋仅7个月 !皇马25岁巨星与网红女友分手:姐弟恋告终

叶青足球世界
2026-05-15 20:47:37
筑牢防灾减灾救灾人民防线

筑牢防灾减灾救灾人民防线

人民网
2026-05-14 08:49:06
林志玲被曝日本“拍片”?拍摄片段流出,网友:女神怎么沦落成这样

林志玲被曝日本“拍片”?拍摄片段流出,网友:女神怎么沦落成这样

八卦王者
2026-05-10 13:32:20
黄仁勋回应最后一刻登机:特朗普总统让我这么做 这是一个绝佳机会

黄仁勋回应最后一刻登机:特朗普总统让我这么做 这是一个绝佳机会

凤凰卫视
2026-05-14 18:04:06
“宇宙级”武器?只需一片可毁灭整个太阳系,二向箔到底是什么?

“宇宙级”武器?只需一片可毁灭整个太阳系,二向箔到底是什么?

半解智士
2026-05-14 12:18:52
黄仁勋先生喝了一杯蜜雪冰城,于是便有人说:亲民。

黄仁勋先生喝了一杯蜜雪冰城,于是便有人说:亲民。

荆楚寰宇文枢
2026-05-15 23:27:39
从不饮酒的特朗普,为何主动喝了酒?

从不饮酒的特朗普,为何主动喝了酒?

侠客栈
2026-05-15 14:21:45
曼联官方:德里赫特成功接受背部手术,预计下赛季初期回归;卡里克:卡塞米罗可以出战,谢什科还没有完全恢复

曼联官方:德里赫特成功接受背部手术,预计下赛季初期回归;卡里克:卡塞米罗可以出战,谢什科还没有完全恢复

MUREDS
2026-05-15 23:10:11
2026-05-16 01:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13006文章数 142649关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

家居
本地
游戏
公开课
军事航空

家居要闻

110㎡淡而有致的生活表达

本地新闻

用苏绣的方式,打开江西婺源

《街霸6》春丽新品来了!招牌肉腿完美还原

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

乌克兰首都基辅遭空袭 死亡人数增至12人

无障碍浏览 进入关怀版