网易首页 > 网易号 > 正文 申请入驻

赋予视频生成「视觉思维链」:VChain显式建模时空规划与状态演变

0
分享至



当视频生成模型在视觉保真度上不断突破时,一个核心瓶颈正变得愈发清晰:模型是否真正理解了真实世界?能否推理出合理的演变过程?

在具身智能、影视制作以及物理仿真等应用场景中,要求模型不仅要生成 “平滑的像素”,更要实现 “逻辑连贯的演化”。这种对物理规律与因果关系的建模能力,是当前基于大数据驱动的端到端生成模型面临的长期挑战。

那么,我们能否将多模态大模型(MLLM)的推理能力,作为一种 “外脑” 注入到视频生成过程中呢?

来自南洋理工大学(NTU)的研究团队在ACL 2026 (Findings)发表了VChain。这一框架试图将大型多模态模型(如 GPT-4o)的视觉推理能力引入视频生成,以提升视频在逻辑与物理规律上的连贯性。



  • 论文: VChain: Chain-of-Visual-Thought for Reasoning in Video Generation
  • 作者:黄子琪 (Ziqi Huang), 于宁 (Ning Yu), Gordon Chen, 邱浩楠 (Haonan Qiu), Paul Debevec, 刘子纬 (Ziwei Liu)
  • 论文地址: https://arxiv.org/abs/2510.05094
  • 项目主页: https://eyeline-labs.github.io/VChain

背景

视频生成的 “常识缺失”

现有的视频生成模型往往表现出一种 “物理不及格” 的状态:球可以反物理地滚动,羽毛可能比石头下落得更快。原因在于,目前的模型擅长模仿 “样子”(视觉模式),却不懂 “道理”(物理因果)。

虽然 GPT-4o 等多模态大模型在视觉推理上表现出色,但直接生成视频成本极高。VChain 的核心思路是 “让专业的人做专业的事”:引入一个在推理阶段工作的框架,利用 LMM 进行逻辑推演,转而 “指导” 视频模型进行创作。



为了解决这个问题,研究者们提出了VChain,一个在推理阶段工作的框架,VChain 的核心思路是 “让专业的人做专业的事”:利用 LMM 进行逻辑推演,转而指导视频模型进行内容创作。

方法

三步走的 VChain 框架 - “视觉思维链”

VChain 的实现流程非常优雅,主要分为三个阶段,全部在推理时完成,无需对视频模型进行重新训练,非常高效。



1. 视觉思维推理 (Visual Thought Reasoning)

面对 “将浓硫酸倒在木桌上” 这类指令,VChain 首先调用 LMM 进行 “头脑风暴”,推演事件的因果链并生成关键图像帧。这些帧被称为 “视觉思维链 (Chain of Visual Thoughts)”,它将抽象逻辑转化为具体的视觉步骤。

这个过程是迭代的,LMM 会一步步地思考:“首先,一杯硫酸在桌子上方;然后,硫酸开始倾倒;接着,液体接触到桌面;最后,桌面被腐蚀变黑。” 并为每一步生成对应的图像。



2. 推理时稀疏调优 (Sparse Inference-Time Visual-State Adaptation)

有了这些包含逻辑关系的关键帧(视觉思维)后,VChain 并不会用它们来生成所有视频帧。相反,它只在这些 “关键时刻” 对预训练好的视频生成器进行微调。

具体来说,它将这些关键帧和对应的文本描述配对,作为稀疏的监督信号,通过 LoRA 高效地调整视频生成模型的参数。这种方式只在几个关键点上进行 “校准”,大大降低了计算开销。

3. 视频采样 (Video Sampling)

经过稀疏调优后,视频生成模型就领会了整个事件的 “大纲”。最后,VChain 将所有步骤的文本描述连接成一个完整的长提示,输入给调优后的模型,从而生成一个连贯、流畅且符合逻辑的完整视频。

实验效果

从 “貌合神离” 到 “形神兼备”

那么,VChain 的效果究竟如何呢?

在定性对比中,我们可以看到,对于 “保龄球撞击球瓶” 这个场景,现有模型生成的视频中,球瓶几乎不动或只是轻微抖动,完全没有发生真实的碰撞。而经过提示增强后,虽然有了互动,但动态效果非常不自然,甚至出现了伪影。

相比之下,如果给同样的模型加上 VChain 框架,生成的视频则完全符合物理规律:球以合理的力量撞击球瓶,球瓶被击倒的过程连贯且真实。物体的几何形状和材质在整个过程中都保持得很好。



在定量评估中,VChain 在各项指标上也达到或超过了现有方法。在针对物理规律常识推理因果逻辑的专项测评中,VChain 显著优于现有方法。



研究者们还通过消融实验证明了 VChain 每个组成部分的重要性。如果去掉 “视觉思维”,模型虽然知道要生成第一人称视角的视频,但无法捕捉到正确的 “接球” 视觉模式。如果去掉 “稀疏调优”,直接用关键帧进行插值,则会导致严重的图像扭曲和伪影。只有将两者结合,才能得到最连贯、最真实的结果。



VChain 巧妙的地方在于它是一种 “即插即用” 的推理时框架,它没有去大动干戈地训练一个全新的视频模型,也不依赖额外的数据,而是通过 “LMM” 赋能;这为未来多模态模型的协同工作提供了一个范例。

深度思考

视频生成范式的 “推理革命”

基于论文附录的探讨,VChain 展示了视频推理与生成的两种潜在趋势:

1. 从 “语义指引” 到 “具象视觉推理” 的跨越

过去的研究多依赖 LLM 生成文字脚本或简单的布局信息。然而,文本在传达 “复杂的物理形变” 时存在表达盲区。

VChain 证明了:对于视频生成任务,推理过程也需要 “去符号化” 并直接进入视觉空间。 只有通过具备空间与材质约束的图像锚点,才能有效修正生成器内心错误的物理先验,实现逻辑与像素的统一。

2. 推理者 - 渲染者 (Reasoner-Renderer)” 协作新范式

VChain 提出了一种模块化的协作路径,将复杂的逻辑判断(由 MLLM,也就是 Reasoner 来完成)与底层的视觉渲染(由扩散变压器架构,或者更广义的 Renderer 来完成)进行解耦。

当视频生成逐渐被视为 “世界模型” 的一种实现形式,我们不应只满足于画面的精美。只要多模态大模型的常识以及逻辑推理能力上限依然高于视觉生成模型,这种将推理能力引导至生成过程的范式,就为未来多模态模型的协同工作提供了一个可参考的方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
离婚证拿到手后,婆婆问我为什么不搬走,我笑了:别墅是我的

离婚证拿到手后,婆婆问我为什么不搬走,我笑了:别墅是我的

麦子情感故事
2026-05-30 14:30:18
袁立病中公开与辛柏青真实关系,守护他丧妻体面

袁立病中公开与辛柏青真实关系,守护他丧妻体面

TVB的四小花
2026-05-30 00:42:11
王楚然搞“剧组夫妻”被实锤!?

王楚然搞“剧组夫妻”被实锤!?

八卦疯叔
2026-05-28 11:28:04
斯洛特下课时间线:此前多家媒体称其会留任,红军前天联系伊劳拉

斯洛特下课时间线:此前多家媒体称其会留任,红军前天联系伊劳拉

懂球帝
2026-05-30 20:11:03
欧冠192亿决战!阿森纳vs巴黎,4大巨星竞逐金球奖,登贝莱盼卫冕

欧冠192亿决战!阿森纳vs巴黎,4大巨星竞逐金球奖,登贝莱盼卫冕

球场没跑道
2026-05-30 14:26:55
大定破2万!余承东:全新M9是地球上最强SUV,没有之一!网友:广告法能不能管管他

大定破2万!余承东:全新M9是地球上最强SUV,没有之一!网友:广告法能不能管管他

大白聊IT
2026-05-28 21:21:39
俄军开始从两个战场撤退,瑞典36架鹰狮助力乌克兰空军

俄军开始从两个战场撤退,瑞典36架鹰狮助力乌克兰空军

史政先锋
2026-05-29 15:58:46
孙中山曾称:中国要想在亚洲当大哥,必须把首都搬到这三个地方

孙中山曾称:中国要想在亚洲当大哥,必须把首都搬到这三个地方

浩渺青史
2026-05-27 00:21:06
明星无滤镜后,周涛一脸凶相,李冰冰像小老太,金晨脸大如饼

明星无滤镜后,周涛一脸凶相,李冰冰像小老太,金晨脸大如饼

笑饮孤鸿非
2026-05-30 20:58:06
黎家盈这独家的松弛感!边看神舟二十一返航,边狂吸一袋太空饮料

黎家盈这独家的松弛感!边看神舟二十一返航,边狂吸一袋太空饮料

风云圈天气
2026-05-30 13:32:45
一路走好!不敢相信仅1天时间,文艺界5位艺术家离世,你认识谁

一路走好!不敢相信仅1天时间,文艺界5位艺术家离世,你认识谁

白面书誏
2026-05-30 12:54:00
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
自由市场大鱼评级:米神C级,威少B级,哈登A级,他S级抢着要

自由市场大鱼评级:米神C级,威少B级,哈登A级,他S级抢着要

林子说事
2026-05-30 20:11:04
43票赞成对16票反对!加州强制退款法案闯关,游戏厂商要头疼了?

43票赞成对16票反对!加州强制退款法案闯关,游戏厂商要头疼了?

队友祭天法力无边
2026-05-29 18:02:43
破防了!台积电3nm核心的中国学者,辞掉日本铁饭碗带团队回国!

破防了!台积电3nm核心的中国学者,辞掉日本铁饭碗带团队回国!

芳芳历史烩
2026-05-30 04:21:35
闹大了!杭州“白嫖女”被全网追杀,但说实话:她照样嫁得出去

闹大了!杭州“白嫖女”被全网追杀,但说实话:她照样嫁得出去

李昕言温度空间
2026-05-27 22:03:19
外媒:歼-35总设计师“揭秘”,中国2款第6代战斗机或将震惊世界

外媒:歼-35总设计师“揭秘”,中国2款第6代战斗机或将震惊世界

蓝星杂谈
2026-05-30 17:25:24
徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

乡野小珥
2026-05-18 08:58:28
广厦队还能夺冠吗?王仕鹏给王博提了3个建议!

广厦队还能夺冠吗?王仕鹏给王博提了3个建议!

体育哲人
2026-05-30 17:53:32
VOGUE晚宴合影成照妖镜,刘诗诗面相引讨论

VOGUE晚宴合影成照妖镜,刘诗诗面相引讨论

梦想的旅途照进现实
2026-05-30 17:46:05
2026-05-30 21:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13116文章数 142655关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

伊朗浓缩铀材料将被挖出销毁 特朗普就战事最新表态

头条要闻

伊朗浓缩铀材料将被挖出销毁 特朗普就战事最新表态

体育要闻

岁月不饶人!39岁德约鏖战近5小时拼到呕吐

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

亲子
艺术
游戏
教育
公开课

亲子要闻

夏季皮肤科门诊量激增!专家:别让特应性皮炎反复影响孩子成长

艺术要闻

震惊!这个波兰女人究竟什么来头

索尼又抽风?玩家在PS商店购买游戏疑似被强制回收

教育要闻

名师说高考【历史:立足课本 深耕真题 拓展思维 巧用技法】

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版