网易首页 > 网易号 > 正文 申请入驻

MagicWorld:用光流约束+历史记忆+多步训练,让长时程交互稳定不漂移

0
分享至

视频世界模型跑久了容易“散架”——要么人不动了,要么场景崩了。其核心原因在于误差累积。

MagicWorld针对当前视频世界模型在长时间交互中易出现运动不合理与场景崩坏的问题,提出了一种面向长时稳定性的交互式建模框架。

该方法通过引入基于光流的运动约束提升动态真实性,利用历史检索机制增强跨时间一致性,并通过多步聚合的训练策略优化整体交互序列质量,从而有效缓解误差累积问题。整体上,MagicWorld实现了在长时间交互下更加稳定、一致的世界生成能力。


论文标题: MagicWorld: Towards Long-Horizon Stability for Interactive Video World Exploration 论文链接: https://arxiv.org/abs/2511.18886

一、研究背景:解决视频世界模型的“长时漂移”问题

近年来,视频世界模型(Video World Model)逐渐成为生成式AI的一个重要方向。它的目标不再只是“生成一段视频”,而是学习视觉世界在用户动作条件下如何持续演化,从而支持交互式探索、场景预测和长期规划。

这类能力在自动驾驶、具身智能和虚拟世界构建等任务中都具有很高价值。但现有交互式视频世界模型虽然已经能够根据用户输入进行连续生成,仍然面临两个非常关键的问题。

第一个问题是运动漂移(motion drift):在复杂动态场景中,行人、车辆等本应持续运动的目标,往往会出现静止、运动异常甚至逐渐退化的现象,导致生成结果缺乏真实感。

第二个问题是长时不稳定(long-horizon instability):由于大多数方法采用自回归方式逐步生成,前一步的小误差会不断累积,最终造成场景结构扭曲、语义偏移以及长序列一致性崩坏。

针对这些问题,来自浙江大学和vivo蓝图实验室等机构的研究团队联合提出了MagicWorld。其核心目标非常明确:既要让动态目标“动得真实”,又要让整个世界在长时间交互下保持稳定一致。为此,作者围绕运动建模、历史记忆和训练机制,设计了一套面向长时稳定性的交互式视频世界模型框架。

二、核心技术:MagicWorld框架

MagicWorld的整体思路可以概括为三部分:基于光流的运动保持约束、基于latent相似度的历史缓存检索,以及多步聚合的增强式交互训练策略。它们分别对应“让运动更真实”“让模型记住过去”“让训练优化整段交互而不是单步结果”。


2.1 基于光流的运动保持:抑制动态目标运动漂移

为了缓解动态主体在生成过程中出现的运动退化问题,MagicWorld引入了flow-guided motion preservation。

这个模块的核心思想是:既然动态区域的真实变化可以由光流反映出来,那么就应该在训练时利用光流信息,对这些区域施加更强的时间一致性约束。具体来说,作者并没有直接在RGB空间做光流监督,而是将监督放到latent空间中进行,以减少显存开销。

模型首先基于flow-matching形式预测去噪后的latent表示,再利用相邻帧之间的光流进行warping,对齐连续latent帧,并对高运动区域赋予更大的约束权重。这样一来,模型会更关注那些真正发生运动的区域,而不会对静态背景施加过强限制。

最终效果是,动态主体的运动更加连贯,运动漂移现象得到明显缓解。从直观上看,这一步相当于告诉模型:哪些地方应该动,以及这些区域在时间维度上必须保持合理演化。这也是MagicWorld提升运动真实性的关键基础。

2.2 历史缓存检索:让模型“记住过去”

长时交互中的另一个核心问题,是模型会随着时间推移逐渐偏离最初的世界状态。为了解决这个问题,MagicWorld设计了history cache retrieval,本质上是给模型增加了一套可检索的历史记忆机制。

其做法分为三步。首先,在每个自回归步骤中,模型会把生成得到的latent特征写入一个历史缓存池中;其次,在下一步推理时,将当前输入帧的latent与缓存中的历史latent做相似度匹配;最后,选取得分最高的几个历史状态作为辅助条件,再注入当前生成过程。

MagicWorld在latent空间中进行语义与结构层面的相似性匹配。由于latent表征已对齐高层语义与空间结构,这种方式提供了更鲁棒且更具判别性的相似性度量,使模型能够检索到真正相关的历史片段,从而在视角切换与长时序生成中保持结构一致性并缓解漂移问题。

可以把它理解成一种更灵活的“世界记忆”:模型不是机械地继承上一步结果,而是在生成过程中不断参考过去最相关的状态,避免场景越走越偏。

2.3 多步聚合训练:从优化单步转向优化整段交互

除了结构设计,MagicWorld在训练策略上也做了非常关键的改进。

作者指出,已有一些交互式蒸馏方法在每一步交互后都会立即更新模型参数,但这种做法容易让模型只顾当前一步的局部最优,而忽略整条生成轨迹的整体质量。为此,MagicWorld提出了multi-shot aggregated DMD。

训练时,模型不会在每一步结束就立刻反向传播,而是先完整模拟一段多步交互rollout,将整段交互中的蒸馏损失聚合起来,再统一进行优化。这样,模型学习到的不再只是“这一步怎么生成得好”,而是“这一整段交互序列是否稳定、是否一致”。

在此基础上,受Reward Forcing的启发,作者进一步引入了dual-reward weighting,同时用视觉质量和运动质量两个奖励信号来加权蒸馏目标,用于在优化过程中同时建模视觉质量与运动一致性,从而提升生成结果的整体表现。这意味着模型不仅要生成清晰画面,还要保证长时间交互中的动态表现合理。实验表明,这种“多步聚合+双奖励”的训练方式,相比逐步更新的方案,能更有效地减少误差累积,提升长时稳定性。

2.4 数据支撑:构建真实世界数据集RealWM120K

为了更系统地支持真实动态场景下的视频世界建模,论文还构建了RealWM120K数据集。该数据集以全球多城市的city-walk视频为主体,覆盖不同城市、季节、时间和天气条件,并配套了文本描述、相机轨迹、点云、目标mask和深度图等多模态标注。

相比以往偏游戏环境或弱动态场景的数据,RealWM120K更强调真实街景中的复杂动态主体与非平凡相机运动,因此更适合用来评估和训练长时交互式视频世界模型。

三、性能表现:在长时稳定性与运动真实性上全面提升

MagicWorld在RealWM120K-Val上进行了系统评测,结果显示其在整体表现上优于现有主流方法。根据论文中的VBench结果,MagicWorld的Overall Score达到0.8547,为所有对比方法中最高;同时,其推理延迟为15秒,效率也具备很强竞争力,仅次于极少数更轻量的方法。


四、总结:从“能生成”走向“能长期稳定生成”

MagicWorld解决的并不是一个表面上的画质问题,而是交互式视频世界模型走向实用化过程中最核心的瓶颈之一:如何在长时间交互中保持运动合理、场景稳定和语义一致

它的思路很清晰:用光流约束解决动态主体“怎么动”的问题,用历史缓存解决“如何记住过去”的问题,再通过多步聚合和双奖励训练,让模型从优化单步结果转向优化整段交互轨迹。最终,这套方法在实验中同时提升了运动真实性、时间一致性和长时稳定性。

Illustration generated by AI.

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

添加工作人员微信(aceyiming投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
12分钟对轰4球 欧冠半决赛巅峰对决精彩到荒谬 12.1亿豪门5-4复仇

12分钟对轰4球 欧冠半决赛巅峰对决精彩到荒谬 12.1亿豪门5-4复仇

狍子歪解体坛
2026-04-29 04:57:56
跌落神坛!40岁诺伊尔全场0扑救 让大巴黎5次射正进5球 仅获5.2分

跌落神坛!40岁诺伊尔全场0扑救 让大巴黎5次射正进5球 仅获5.2分

我爱英超
2026-04-29 05:22:10
我在沙特开餐馆娶了3位妻子,回国奔丧一星期,再回去时当场愣了

我在沙特开餐馆娶了3位妻子,回国奔丧一星期,再回去时当场愣了

千秋文化
2026-04-28 20:17:01
人事 | 张柱任农业农村部党组书记

人事 | 张柱任农业农村部党组书记

天津广播
2026-04-28 21:22:58
Claude自己上“闲鱼”:砍价成交186单,实验结果反直觉

Claude自己上“闲鱼”:砍价成交186单,实验结果反直觉

智东西
2026-04-27 18:08:21
米饭被点名!医生直言:米饭冷冻24小时,抗性淀粉翻倍控糖护肠

米饭被点名!医生直言:米饭冷冻24小时,抗性淀粉翻倍控糖护肠

路医生健康科普
2026-04-26 19:55:03
中国正式禁止美国收购Manus,美媒集体破防指责

中国正式禁止美国收购Manus,美媒集体破防指责

空间展示知识
2026-04-28 11:51:13
随着利雅得新月1-0,沙特联最新积分榜出炉:C罗率队5分优势领跑

随着利雅得新月1-0,沙特联最新积分榜出炉:C罗率队5分优势领跑

侧身凌空斩
2026-04-29 04:03:30
24小时内,中俄兵分两路,普京接见伊朗外长,特朗普做出巨大让步

24小时内,中俄兵分两路,普京接见伊朗外长,特朗普做出巨大让步

坠入二次元的海洋
2026-04-28 19:50:47
丢人现眼!女子老太地铁互殴后续:官方介入,真相曝光,恐将社死

丢人现眼!女子老太地铁互殴后续:官方介入,真相曝光,恐将社死

派大星纪录片
2026-04-28 16:23:41
阿联酋发表声明:自5月1日起退出欧佩克及欧佩克+

阿联酋发表声明:自5月1日起退出欧佩克及欧佩克+

财联社
2026-04-28 20:24:29
10年19冠!曼城官宣31岁功勋自由身离队 周薪25万  意甲3豪门哄抢

10年19冠!曼城官宣31岁功勋自由身离队 周薪25万 意甲3豪门哄抢

我爱英超
2026-04-28 20:29:10
4000万粉网红白冰,偷税超900万被查!从发廊小哥到富豪,靠“接地气、不割韭菜”立人设!

4000万粉网红白冰,偷税超900万被查!从发廊小哥到富豪,靠“接地气、不割韭菜”立人设!

新民周刊
2026-04-28 20:08:08
巴黎5-4拜仁!金球先生2射1传 9000万飞翼双响 单场9球创欧冠纪录

巴黎5-4拜仁!金球先生2射1传 9000万飞翼双响 单场9球创欧冠纪录

我爱英超
2026-04-29 04:59:25
不当总统了?马克龙将卸任,临走前通告全球:中美俄都在针对我们

不当总统了?马克龙将卸任,临走前通告全球:中美俄都在针对我们

共工之锚
2026-04-28 00:08:09
济南文旅因夏雨荷引热议:大明湖底的十万亡魂,济南人可还记得

济南文旅因夏雨荷引热议:大明湖底的十万亡魂,济南人可还记得

十为先生
2026-04-28 14:53:25
辛柏青回应吴越撮合,没有翻脸没有接梗,把分寸和家人稳稳守住

辛柏青回应吴越撮合,没有翻脸没有接梗,把分寸和家人稳稳守住

一盅情怀
2026-04-28 17:18:29
跌回20年前!权威数据表明,中国房地产的实际购买力已跌至2006的水平

跌回20年前!权威数据表明,中国房地产的实际购买力已跌至2006的水平

风向观察
2026-04-28 16:20:39
云南14岁男生杀害同班15岁女生,一审被判处无期徒刑;女孩父亲终日借酒浇愁已饮酒300斤

云南14岁男生杀害同班15岁女生,一审被判处无期徒刑;女孩父亲终日借酒浇愁已饮酒300斤

大风新闻
2026-04-28 17:08:25
河北一中学教师买卖8支玩具仿真枪获刑三年,申诉被驳回

河北一中学教师买卖8支玩具仿真枪获刑三年,申诉被驳回

澎湃新闻
2026-04-28 16:06:27
2026-04-29 05:36:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2360文章数 596关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

中央政治局会议定调,八大看点速览!

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

家居
艺术
本地
公开课
军事航空

家居要闻

江景风格 流动的秩序

艺术要闻

京东浙江总部公示,99.99米高,中国第一民企落子民营大省!

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

德国总理默茨:美国正遭受伊朗领导层的羞辱

无障碍浏览 进入关怀版