网易首页 > 网易号 > 正文 申请入驻

腾讯世界模型Voyager开源!三项能力登顶斯坦福WorldScore,平均分第一

0
分享至


智东西AI前瞻(公众号:zhidxcomAI)
作者 江宇
编辑 漠影

短短半月,混元团队又向3D生成的“视野盲区”推进了一步。

智东西9月2日报道,今日,腾讯混元团队正式开源其HunyuanWorld 1.0世界模型的官方扩展模型“HunyuanWorld-Voyager”

这也是混元在近两个月内,围绕3D世界生成系统的第三次发布:7月,团队首次开源HunyuanWorld 1.0模型,支持从文本或图像生成可漫游的三维场景;8月,推出适配消费级显卡的Lite版本,降低部署门槛。

Voyager则将目标从“生成一个可看的世界”进一步推向“构建一个可走、可扩展的世界”。

它主要针对当前世界模型在长距离生成和视角一致性上的限制,首次引入RGB-D视频联合建模空间缓存机制,可根据单张图和用户设定的相机轨迹,生成结构连续、深度一致的点云视频,并可直接导出为标准3D格式。

换句话说,它不仅能把视野之外的区域合理补全,还能持续“记住”用户走过的路径,并在空间中衔接新的视角内容

根据斯坦福李飞飞团队主导的WorldScore排行榜,Voyager在当前主流世界模型中平均成绩位列第一。


体验指路:

主页:https://3d-models.hunyuan.tencent.com/world/

Github:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager

Huggingface:https://huggingface.co/tencent/HunyuanWorld-Voyager

技术报告:https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf

一、多种3D任务解锁,直出结果可即用

Voyager不仅继承了混元世界模型1.0的图生世界能力,还进一步解决了“用户走出原视角之后”的补全问题。其生成结果不仅可实时呈现,还能直接导出为标准3D格式(如点云、mesh),无需借助Colmap、VGGT等后处理工具。

具体来看,Voyager可应用于以下典型任务:

1、控制生成视频画面:用户可通过键盘或摇杆设定相机轨迹,系统生成对应视角的视频序列,同时保持空间结构一致性;

2、风格化编辑与控制:支持对生成视频进行画面风格调整与局部重绘,保持内容可控;

3、图生3D与视频深度估计:支持从图像生成结构完整的3D物体,也可对普通视频进行深度补全,用于三维理解与后续建模;

▲图生3D物体

▲视频深度估计

二、引入新架构,空间建模能力显著增强

混元世界模型-Voyager架构是对混元世界模型1.0新视角内容的补全,引入了“世界一致视频扩散”与“长距离世界探索”两大核心机制。

此前,混元世界模型1.0模型已支持从文本或图像生成可漫游的三维世界,并输出标准3D格式,兼容游戏引擎。但当用户“走出”原始画面后,生成范围会受限。Voyager解决的正是这类遮挡与长距离视角问题。

1、世界一致的视频扩散

目前,可控视频生成模型已经具备构建“世界模型”的潜力,但这类“图生视频”方案多停留在RGB模态,难以还原三维结构,限制了交互性和空间一致性。相比之下,显式生成3D场景(如点云、Mesh)可用于更真实的空间重建,但受限于训练数据和计算资源,难以在大规模场景中泛化。

混元世界模型Voyager结合了视频生成与显式3D建模两类方法,支持在用户设定相机轨迹和初始场景的条件下,生成空间一致的RGB-D视频序列,并可直接导出为点云格式的三维数据。


Voyager首次在视频生成中引入RGB+Depth的双模态联合建模,形成“点云视频”:

1、输入:图片+用户指定的相机轨迹;

2、输出:RGB-D视频序列,每帧均具备像素级深度信息;

3、拼接机制:先在空间维度上拼接RGB和D(Depth),再在特征维度上结合两模态信息,用VAE框架学习RGB-D的生成规律;

4、训练结构:由双流模块与控制模块组成,基于Hunyuan-Video DiT模型进行训练。

此外,为支撑训练需求,混元团队构建了一套可扩展的数据构建引擎,可自动对任意输入视频估计相机姿态与时序信息,摆脱人工标注依赖,批量生成可用于RGB-D建模的训练样本。基于该引擎,Voyager融合真实视频与虚幻引擎合成数据,构建了包含超过10万段视频片段的大规模训练集。

这种机制让Voyager具备“原生3D记忆能力”,无需后处理重建步骤即可生成空间一致、格式统一的3D点云。

2、长距离世界探索

Voyager通过提出一种具备空间一致性的可拓展世界缓存机制,突破了长距离世界探索的限制。

1、先生成一个初始场景点云缓存(来自HunyuanWorld 1.0);

2、再将缓存投影至用户设定的相机视角;

3、利用扩散模型生成新视角画面,并不断更新缓存,最终形成一个支持任意相机轨迹的闭环系统。


这一方法兼顾空间结构记忆、视角可控与多视图一致性,意味着用户可以像玩第一人称游戏一样“自由走”,所到之处都能被系统填补,并保持几何结构一致。

三、三项实验:验证空间一致性与重建质量

为全面验证HunyuanWorld-Voyager的性能表现,混元团队围绕视频生成质量、三维场景重建能力以及世界生成能力三个方向进行了系统实验,覆盖RGB视频质量、几何一致性与长距离空间表达等多个维度。

1. 视频生成:相似性与结构性指标均领先

在视频生成任务中,混元团队选取RealEstate10K数据集中的150个视频片段,并与四种开源的摄像头可控视频生成方法进行对比。


结果显示,Voyager在全部指标上均优于现有方法。


定性分析中,Voyager能够生成更为多样、结构清晰的视频帧,尤其在细节区域的保留上表现出色。例如在样例中,其他方法在相机大幅移动时易产生α影或结构塌陷,而Voyager仍能准确还原输入图像中的产品边界与材质细节。

2. 场景重建能力:融合RGB-D,三维结构更准确

在场景生成任务中,Voyager进一步验证了其RGB-D视频序列对三维结构重建的支持能力。混元团队使用VGGT方法作为后处理统一流程,对比核心模型的RGB视频生成后能否支持高质量点云还原。


结果表明,即便在仅使用RGB重建的场景下,Voyager生成的视频在几何一致性方面也优于其他方法;而一旦加入原生深度信息初始化点云,重建精度进一步提升。


在3D Gaussian Splatting任务中,Voyager成功还原了复杂结构(如吊灯)的完整形状,而其他方法在边缘结构与局部细节上普遍存在缺失。

3. 世界生成能力:跨域泛化与长距离空间表达能力增强

在更具挑战性的WorldScore静态基准测试中,Voyager同样展现出领先能力。该基准评估模型在开放域条件下的世界建构能力,尤其关注光学运动控制能力与空间一致性表现。


Voyager在该任务中获得最高平均分,验证了其空间一致建模机制具备跨数据域的泛化能力。

同时,由于生成条件一致,Voyager在保证一致性的前提下,所驱动的相机运动幅度大幅超过对比模型,其对于长路径建模与多视角连续性控制更具备优势。

结语:让生成的世界走得更远

从静态场景到可控漫游,再到具备深度信息与空间拓展,Voyager补足了混元世界模型在空间连续性上的一块关键能力。

从一段文字、一张图生成一个初始场景,再根据用户设定的相机轨迹拓展新视角内容,这种“边走边生成”的逻辑,正在成为AI理解空间的另一种可能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
WTT常规赛:国乒女单提前夺冠!何卓佳3-1进决赛会师队友石洵瑶

WTT常规赛:国乒女单提前夺冠!何卓佳3-1进决赛会师队友石洵瑶

全言作品
2026-01-23 22:42:24
贝尔谈皇马任意球分工:右边归我,左边归C罗,中间靠猜拳决定

贝尔谈皇马任意球分工:右边归我,左边归C罗,中间靠猜拳决定

懂球帝
2026-01-23 18:12:28
澳网男单16强决出8席!阿卡兹维领衔,8位种子选手晋级

澳网男单16强决出8席!阿卡兹维领衔,8位种子选手晋级

全景体育V
2026-01-23 20:51:46
血压高,要先控制“心率”?若心跳不低于这个范围,不用过于担心

血压高,要先控制“心率”?若心跳不低于这个范围,不用过于担心

路医生健康科普
2026-01-23 10:36:49
温州鞋老板破产15年,女儿在国外时来电:爸,巴黎的房子还要吗?

温州鞋老板破产15年,女儿在国外时来电:爸,巴黎的房子还要吗?

七分瘦三分肥
2025-06-10 12:35:09
难以置信,芯片也开始涨价了

难以置信,芯片也开始涨价了

Mask的小酒馆
2026-01-23 13:18:17
河南开封万岁山一NPC演员雪中静立被误以为是假人,景区:有保暖措施,期间会安排换班

河南开封万岁山一NPC演员雪中静立被误以为是假人,景区:有保暖措施,期间会安排换班

台州交通广播
2026-01-22 23:24:46
发不出工资了,这3个行业的人要趁早做打算

发不出工资了,这3个行业的人要趁早做打算

复转这些年
2026-01-19 23:12:25
1960年,苏联高射炮对付不了美国U-2侦察机,谢列夫给出办法:用一块磁铁就可以

1960年,苏联高射炮对付不了美国U-2侦察机,谢列夫给出办法:用一块磁铁就可以

史海孤雁
2026-01-22 17:37:10
美国中产斩杀线,到底谁在幸灾乐祸

美国中产斩杀线,到底谁在幸灾乐祸

冰川思想库
2025-12-29 10:56:56
男女同居,女人不怕你动手动脚,最怕你做这两件事

男女同居,女人不怕你动手动脚,最怕你做这两件事

枫红染山径
2026-01-19 14:42:41
从1-4到6-4!31岁朱琳从世界493位杀回,澳网再现“神剧本”

从1-4到6-4!31岁朱琳从世界493位杀回,澳网再现“神剧本”

曹老师评球
2026-01-12 13:02:35
体面全无!邹市明自爆破产,不止赔光2亿,其妻子参加婚礼耍酒疯

体面全无!邹市明自爆破产,不止赔光2亿,其妻子参加婚礼耍酒疯

李覴在北漂
2026-01-21 00:31:17
徒弟曾骂聂卫平看不懂棋,葬礼都不来参加,背后恩怨超过50年

徒弟曾骂聂卫平看不懂棋,葬礼都不来参加,背后恩怨超过50年

老土历史
2026-01-22 17:21:52
劳塔罗本赛季意甲已打入12球,与上赛季持平

劳塔罗本赛季意甲已打入12球,与上赛季持平

懂球帝
2026-01-24 04:41:42
视频丨美移民执法人员把5岁儿童当“诱饵”引起轩然大波

视频丨美移民执法人员把5岁儿童当“诱饵”引起轩然大波

国际在线
2026-01-23 23:23:02
强力得分手也球都摸不着!湖人的战术安排实在是令人无法理解?

强力得分手也球都摸不着!湖人的战术安排实在是令人无法理解?

稻谷与小麦
2026-01-24 01:46:32
“中产阶级”及格线诞生!全国只有3320万户,你达标了吗?

“中产阶级”及格线诞生!全国只有3320万户,你达标了吗?

李云飞Afey
2026-01-01 12:52:31
白巧克力:媒体人没权利投全明星首发,他们都不看比赛还胖得要死

白巧克力:媒体人没权利投全明星首发,他们都不看比赛还胖得要死

懂球帝
2026-01-23 08:24:09
36家企业动迁,沈阳皇姑区首府新区又有大动作,这次包括殡仪馆吗

36家企业动迁,沈阳皇姑区首府新区又有大动作,这次包括殡仪馆吗

辽沈音信
2026-01-23 23:34:08
2026-01-24 06:51:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11117文章数 116945关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

2026年,消费没有新故事?

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

教育
时尚
手机
房产
艺术

教育要闻

中国家庭普遍做错的教育行为是什么?吴军:追求同质化的教育,孩子的培养不需要盲目跟风

今日热点:车银优代言广告被隐藏;《巅峰对决》主演担任米兰冬奥会火炬手……

手机要闻

iPhone日历增强指南:一键加入每日天气、倒数日、调休补班等信息

房产要闻

正式官宣!三亚又一所名校要来了!

艺术要闻

高大上?错,刚够吃:揭秘历代画家混饭史

无障碍浏览 进入关怀版