网易首页 > 网易号 > 正文 申请入驻

美团发布千帧级交互模型Infinite-World,超越腾讯HY-World 1.5!

0
分享至

智猩猩AI整理

编辑:六六

尽管现有世界模型能够在真值完美的合成数据上实现高效优化,但对于真实世界视频,由于姿态估计存在噪声且视角重访稀缺,此类模型仍缺乏有效的训练范式。

美团研究团队提出了 Infinite-World——一个能够从含噪声的真实世界数据中进行学习的交互式世界模型,该模型具备超远视野建模能力,可在长达1000帧的连续序列中保持高度一致的状态与空间结构。。通过客观指标与用户研究等大量实验表明 Infinite-World 在视觉质量、动作可控性与空间一致性方面均实现了优越性能。


  • 论文标题:Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

  • 论文链接:https://arxiv.org/abs/2602.02393

  • 项目页面:https://rq-wu.github.io/projects/infinite-world.html

01

方法

1. 层级化无姿态记忆压缩模块

为在计算成本恒定的前提下实现稳定的千帧仿真,研究团队提出了层级化无姿态记忆压缩模块(Hierarchical Pose-free Memory Compressor, HPMC),其结构如图 1 (a) 所示。


图 1 Infinite-World 架构概述。(a) 层级化无姿态记忆压缩模块。(b) 感知不确定性的动作标注。(c) 数据策略。

(1)压缩模式

HPMC 根据上下文长度,通过两种操作模式将历史潜变量转换为固定内存预算的表征,即适用于短序列的直接压缩模式与适用于长距离探索的层级化压缩模式:

模式 1:短视野直接压缩。当上下文长度在可处理阈值范围内时,将时间编码器 直接作用于原始潜变量 ,生成压缩表征 token 。

模式 2:长视野层级化压缩。当探索视野 超出内存预算时,引入层级化压缩机制以避免内存漂移。通过滑动窗口将原始潜变量划分为 个重叠分块;对每个分块执行第一阶段局部压缩,提取其中的显著时空特征;将所有分块得到的中间表征 token 进行拼接后,再次使用时间编码器 执行第二阶段全局压缩。

(2)向扩散DiT注入上下文信息

为引导生成过程,DiT的输入为压缩后的历史表征、作为局部记忆的最后一帧潜变量,以及含噪目标潜变量这三类表征在时间维度的拼接结果。在该拼接序列后附加二进制掩码,用于区分上下文信息与去噪目标。

(3)联合优化与无姿态锚定

层级化无姿态记忆压缩模块的核心特征为: 与 DiT 骨干网络进行端到端联合优化(如图 1 (a)中火焰图标所示)。通过训练该压缩网络以最小化未来帧的生成损失,模型可自主识别并保留对闭环任务最具相关性的历史特征信息。

基于此,该模块摒弃了对外部位姿元数据与显式几何先验的依赖,以纯数据驱动的无姿态方式实现了长距离空间一致性。

2. 不确定性感知的动作标注与编码

为弥补连续控制与含噪真实世界轨迹间的差异,研究团队设计了不确定性感知的动作标注与编码机制,将原始运动信息转换为离散动作空间。

(1)运动解耦与三态标注

研究先将位姿变化解耦为平移、旋转幅值,通过 (噪声阈值)、 (动作触发阈值)两个阈值设计三态逻辑为运动分配动作标签,分为无操作、离散动作、不确定三类。针对平移、旋转任一维度,动作标签 的分配规则如下:


离散动作映射对应平移/旋转语义方向,保留不确定状态可避免低速运动误分类、降低噪声对标注的干扰;

(2)时间对齐的动作注入

同时动作编码器将运动与视角序列转为嵌入特征 ,经两步长为 2 的一维卷积实现 4 倍下采样,与视觉特征做时间对齐,对特征历史段零填充后,将其与整合后的视频特征逐元素相加,该设计能让动作信号以精准的时间同步性、极低计算开销,直接调制含噪潜变量空间。

3. 重访密集型微调策略

为了搞清楚模型学会 “长时空间记忆” 到底需要什么数据,研究团队先做了个探索性实验:研究基于合成三维场景训练一个轻量化的基于DiT的生成器,将历史潜变量作为拼接后的上下文输入模型。实验结果得出两项关键结论:

  • 记忆的高样本效率:闭环实现能力可通过少量数据激活。空间记忆的习得更依赖于轨迹的拓扑多样性,而非数据的绝对数量。

  • 上下文受限的外推特性:记忆稳定性与训练时间窗口之间存在强耦合关系。

研究团队明确了长视野世界建模的核心瓶颈在于轨迹的持续时长与拓扑密度,而非数据量本身。基于上述发现,研究团队设计了两阶段训练策略:

  • 开放域预训练:首先在大规模真实世界数据集上对模型进行预训练,使其学习多样化的视觉先验与局部动态特征。

  • 基于重访密集型数据集的记忆激活:利用轻量化的重访密集型数据集(Revisit-Dense Dataset, RDD)激活模型的空间记忆。该方式能够有效弥合现实差距,以实际可行的计算成本实现稳定的千帧闭环效果。

02

评估

研究团队将 Infinite-World 模型与多款前沿交互式世界模型展开性能对比,如表 1 所示,Infinite-World 模型在 VBench 评测体系的所有维度上均取得最优或次优性能。

表 1 长视野交互式评测基准上的定量对比。研究在该基准中报告了来自 VBench 的客观质量指标,以及基于用户研究得到的多维度主观评分。其中,黑体与下划线格式分别表示最优与次优结果。


Yume 1.5 模型在平均得分上取得微弱领先(0.8141 比 0.8119),这一结果的核心成因是其远大于 Infinite-World 的参数量级(5 B对比 1.3 B)。此外,研究发现 Yume 1.5 模型在评测基准中取得的高分,部分原因在于其动作控制能力存在局限性。


用户评测:客观指标虽能完成初步评估,人工主观评价却能更全面地反映模型的交互性能。Infinite-World 模型展现出绝对性的优势,取得了 1719 的领先 ELO 评分,该评分较次优模型 HY-World-1.5(1542 分)实现了 177 分的显著领先。

细粒度排名凸显了研究的技术优势,Infinite-World 模型在记忆一致性(1.92)、视觉保真度(1.67)两项指标上均位列第一,印证了层级化无姿态记忆压缩模块(HPMC)能有效缓解千帧视野下的误差累积。

该模型的动作响应性指标(1.54)也取得顶尖成绩,与依赖标注完善合成数据训练的 HY-World-1.5 持平(1.50),而其仅用含噪原始真实世界视频便实现此效果,验证了不确定性感知动作标注机制可有效弥合现实差距,让模型在非理想轨迹训练下仍能输出即时精准的动作反馈。


图 2 Infinite-World 模型与四款基线模型的视觉对比结果。注意第二分块与第六分块间的视觉一致性,且第八分块为第一帧的放大视图。

图 2 中展示了 Infinite-World 模型与多款前沿模型的视觉对比结果,四款基线模型各存在明显缺陷:

  • Matrix-Game 2.0 视觉保真度高但无视野外记忆机制;

  • Hunyuan-GameCraft 仅能保持粗略的场景持续性,无法留存长视野下的细粒度结构细节;

  • HY-World-1.5 短期一致性表现好,却因误差累积产生重影伪影和结构畸变;

  • Yume 1.5 受训练数据的运动分布偏差影响,形成固化的向前移动倾向,无法完成视角重访和视野外记忆验证。

Infinite-World 通过不确定性感知动作标注克服了上述各类问题,实现了响应性动作控制,其在数百帧后仍能保留场景全局地标,成功完成各基线模型均无法实现的长距离闭环,也验证了层级化记忆压缩模块能有效激活模型的空间推理能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视曝光!对方“自称深圳航空工作人员”,女游客43万元差点没了......

央视曝光!对方“自称深圳航空工作人员”,女游客43万元差点没了......

深圳晚报
2026-02-12 16:55:23
俄15架苏-57战机远东部署,距中国不足400公里释放何信号

俄15架苏-57战机远东部署,距中国不足400公里释放何信号

看尽人间百态
2026-02-13 10:50:08
珠海正方集团有限公司原党委书记、董事长、总经理唐亮严重违纪违法被开除党籍和公职

珠海正方集团有限公司原党委书记、董事长、总经理唐亮严重违纪违法被开除党籍和公职

潇湘晨报
2026-02-12 20:07:10
西部冠军概率出炉!湖人4%勇士2%火箭6%仅第五 一队超5成断档第一

西部冠军概率出炉!湖人4%勇士2%火箭6%仅第五 一队超5成断档第一

锅子篮球
2026-02-13 10:45:40
摊牌!永辉CEO致歉全员工:学胖东来亏21亿,欲望终究撑不起野心

摊牌!永辉CEO致歉全员工:学胖东来亏21亿,欲望终究撑不起野心

生活新鲜市
2026-02-12 20:59:38
你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

带你感受人间冷暖
2026-01-29 00:10:05
正式签约!电影《举起手来3》新进展来了→

正式签约!电影《举起手来3》新进展来了→

喜欢历史的阿繁
2026-02-12 13:18:11
两次毁约拒绝赔偿,墨西哥却再次找中国建高铁,中国这次不再惯着

两次毁约拒绝赔偿,墨西哥却再次找中国建高铁,中国这次不再惯着

来科点谱
2026-02-11 08:48:35
微信又推出新功能,这个功能超超超好用!

微信又推出新功能,这个功能超超超好用!

XCiOS俱乐部
2026-02-12 11:19:34
4999 的 iPhone 16 Pro 上架了!真的狠

4999 的 iPhone 16 Pro 上架了!真的狠

花果科技
2026-02-11 19:42:36
中日韩最大财团对比:三星3.2万亿,三菱21万亿,中国第一是谁?

中日韩最大财团对比:三星3.2万亿,三菱21万亿,中国第一是谁?

阿器谈史
2026-01-30 08:40:58
不会唱别上了,小年夜春晚这个混子毁了节目,刘宇宁周深都救不了

不会唱别上了,小年夜春晚这个混子毁了节目,刘宇宁周深都救不了

娱乐圈十三太保
2026-02-12 17:47:00
被日军当众凌辱5小时后,她为何从不逃跑,也不求死

被日军当众凌辱5小时后,她为何从不逃跑,也不求死

马蹄烫嘴说美食
2026-02-12 18:59:18
《太平年》大结局,演员评分出炉:白宇6.2分排倒2,第1无争议!

《太平年》大结局,演员评分出炉:白宇6.2分排倒2,第1无争议!

动物奇奇怪怪
2026-02-13 08:37:49
菲方突然对华示好,高市连说“大事不好”,中国即将迎来一位贵客

菲方突然对华示好,高市连说“大事不好”,中国即将迎来一位贵客

独醉笑清风
2026-02-12 12:15:53
报告:近六成日企计划今年扩大或维持对华投资

报告:近六成日企计划今年扩大或维持对华投资

第一财经资讯
2026-02-12 11:01:30
一号文件一下来,城镇户口的人估计后悔惨了!

一号文件一下来,城镇户口的人估计后悔惨了!

南权先生
2026-02-11 15:55:35
国防部重磅警告!海马斯敢部署澎湖东引,解放军直接覆盖摧毁

国防部重磅警告!海马斯敢部署澎湖东引,解放军直接覆盖摧毁

Ck的蜜糖
2026-02-12 20:05:30
中印加勒万河谷肉搏战:680人八小时混战,双方到底伤亡多少人?

中印加勒万河谷肉搏战:680人八小时混战,双方到底伤亡多少人?

叹为观止易
2026-01-28 14:25:41
baby投靠古天乐?两人已经隐婚,与黄晓明划清界限,女方香港复出

baby投靠古天乐?两人已经隐婚,与黄晓明划清界限,女方香港复出

八卦王者
2026-02-13 10:40:52
2026-02-13 11:55:00
呼呼历史论
呼呼历史论
分享有趣的历史
502文章数 16307关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻?

头条要闻

中戏院长落马不足两个月 两任表演系主任主动投案

头条要闻

中戏院长落马不足两个月 两任表演系主任主动投案

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

最大续航703km!全新奔驰纯电GLC 350 L即将国产

态度原创

房产
教育
艺术
手机
军事航空

房产要闻

999元开线上免税店?海南爆出免税大骗局,多人已被抓!

教育要闻

直角隐圆模型,一个视频学明白!

艺术要闻

书法大师的神作现身,引发网友热议!

手机要闻

全球第六:小米17 Ultra影像DXOMark获166分,全焦段表现稳定

军事要闻

美国新交付F35隐身战机没雷达

无障碍浏览 进入关怀版