网易首页 > 网易号 > 正文 申请入驻

腾讯世界模型Voyager开源!三项能力登顶斯坦福WorldScore,平均分第一

0
分享至

短短半月,混元团队又向3D生成的“视野盲区”推进了一步。

智东西9月2日报道,今日,腾讯混元团队正式开源其HunyuanWorld 1.0世界模型的官方扩展模型“HunyuanWorld-Voyager”

这也是混元在近两个月内,围绕3D世界生成系统的第三次发布:7月,团队首次开源HunyuanWorld 1.0模型,支持从文本或图像生成可漫游的三维场景;8月,推出适配消费级显卡的Lite版本,降低部署门槛。

Voyager则将目标从“生成一个可看的世界”进一步推向“构建一个可走、可扩展的世界”。

它主要针对当前世界模型在长距离生成和视角一致性上的限制,首次引入RGB-D视频联合建模空间缓存机制,可根据单张图和用户设定的相机轨迹,生成结构连续、深度一致的点云视频,并可直接导出为标准3D格式。

换句话说,它不仅能把视野之外的区域合理补全,还能持续“记住”用户走过的路径,并在空间中衔接新的视角内容

根据斯坦福李飞飞团队主导的WorldScore排行榜,Voyager在当前主流世界模型中平均成绩位列第一。

体验指路:

主页:https://3d-models.hunyuan.tencent.com/world/

Github:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager

Huggingface:https://huggingface.co/tencent/HunyuanWorld-Voyager

技术报告:https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf

一、多种3D任务解锁,直出结果可即用

Voyager不仅继承了混元世界模型1.0的图生世界能力,还进一步解决了“用户走出原视角之后”的补全问题。其生成结果不仅可实时呈现,还能直接导出为标准3D格式(如点云、mesh),无需借助Colmap、VGGT等后处理工具。

具体来看,Voyager可应用于以下典型任务:

1、控制生成视频画面:用户可通过键盘或摇杆设定相机轨迹,系统生成对应视角的视频序列,同时保持空间结构一致性;

2、风格化编辑与控制:支持对生成视频进行画面风格调整与局部重绘,保持内容可控;

3、图生3D与视频深度估计:支持从图像生成结构完整的3D物体,也可对普通视频进行深度补全,用于三维理解与后续建模;

▲图生3D物体

▲视频深度估计

二、引入新架构,空间建模能力显著增强

混元世界模型-Voyager架构是对混元世界模型1.0新视角内容的补全,引入了“世界一致视频扩散”与“长距离世界探索”两大核心机制。

此前,混元世界模型1.0模型已支持从文本或图像生成可漫游的三维世界,并输出标准3D格式,兼容游戏引擎。但当用户“走出”原始画面后,生成范围会受限。Voyager解决的正是这类遮挡与长距离视角问题。

1、世界一致的视频扩散

目前,可控视频生成模型已经具备构建“世界模型”的潜力,但这类“图生视频”方案多停留在RGB模态,难以还原三维结构,限制了交互性和空间一致性。相比之下,显式生成3D场景(如点云、Mesh)可用于更真实的空间重建,但受限于训练数据和计算资源,难以在大规模场景中泛化。

混元世界模型Voyager结合了视频生成与显式3D建模两类方法,支持在用户设定相机轨迹和初始场景的条件下,生成空间一致的RGB-D视频序列,并可直接导出为点云格式的三维数据。

Voyager首次在视频生成中引入RGB+Depth的双模态联合建模,形成“点云视频”:

1、输入:图片+用户指定的相机轨迹;

2、输出:RGB-D视频序列,每帧均具备像素级深度信息;

3、拼接机制:先在空间维度上拼接RGB和D(Depth),再在特征维度上结合两模态信息,用VAE框架学习RGB-D的生成规律;

4、训练结构:由双流模块与控制模块组成,基于Hunyuan-Video DiT模型进行训练。

此外,为支撑训练需求,混元团队构建了一套可扩展的数据构建引擎,可自动对任意输入视频估计相机姿态与时序信息,摆脱人工标注依赖,批量生成可用于RGB-D建模的训练样本。基于该引擎,Voyager融合真实视频与虚幻引擎合成数据,构建了包含超过10万段视频片段的大规模训练集。

这种机制让Voyager具备“原生3D记忆能力”,无需后处理重建步骤即可生成空间一致、格式统一的3D点云。

2、长距离世界探索

Voyager通过提出一种具备空间一致性的可拓展世界缓存机制,突破了长距离世界探索的限制。

1、先生成一个初始场景点云缓存(来自HunyuanWorld 1.0);

2、再将缓存投影至用户设定的相机视角;

3、利用扩散模型生成新视角画面,并不断更新缓存,最终形成一个支持任意相机轨迹的闭环系统。

这一方法兼顾空间结构记忆、视角可控与多视图一致性,意味着用户可以像玩第一人称游戏一样“自由走”,所到之处都能被系统填补,并保持几何结构一致。

三、三项实验:验证空间一致性与重建质量

为全面验证HunyuanWorld-Voyager的性能表现,混元团队围绕视频生成质量、三维场景重建能力以及世界生成能力三个方向进行了系统实验,覆盖RGB视频质量、几何一致性与长距离空间表达等多个维度。

1. 视频生成:相似性与结构性指标均领先

在视频生成任务中,混元团队选取RealEstate10K数据集中的150个视频片段,并与四种开源的摄像头可控视频生成方法进行对比。

结果显示,Voyager在全部指标上均优于现有方法。

定性分析中,Voyager能够生成更为多样、结构清晰的视频帧,尤其在细节区域的保留上表现出色。例如在样例中,其他方法在相机大幅移动时易产生α影或结构塌陷,而Voyager仍能准确还原输入图像中的产品边界与材质细节。

2. 场景重建能力:融合RGB-D,三维结构更准确

在场景生成任务中,Voyager进一步验证了其RGB-D视频序列对三维结构重建的支持能力。混元团队使用VGGT方法作为后处理统一流程,对比核心模型的RGB视频生成后能否支持高质量点云还原。

结果表明,即便在仅使用RGB重建的场景下,Voyager生成的视频在几何一致性方面也优于其他方法;而一旦加入原生深度信息初始化点云,重建精度进一步提升。

在3D Gaussian Splatting任务中,Voyager成功还原了复杂结构(如吊灯)的完整形状,而其他方法在边缘结构与局部细节上普遍存在缺失。

3. 世界生成能力:跨域泛化与长距离空间表达能力增强

在更具挑战性的WorldScore静态基准测试中,Voyager同样展现出领先能力。该基准评估模型在开放域条件下的世界建构能力,尤其关注光学运动控制能力与空间一致性表现。

Voyager在该任务中获得最高平均分,验证了其空间一致建模机制具备跨数据域的泛化能力。

同时,由于生成条件一致,Voyager在保证一致性的前提下,所驱动的相机运动幅度大幅超过对比模型,其对于长路径建模与多视角连续性控制更具备优势。

结语:让生成的世界走得更远

从静态场景到可控漫游,再到具备深度信息与空间拓展,Voyager补足了混元世界模型在空间连续性上的一块关键能力。

从一段文字、一张图生成一个初始场景,再根据用户设定的相机轨迹拓展新视角内容,这种“边走边生成”的逻辑,正在成为AI理解空间的另一种可能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄天鹅就鸡蛋角黄素抽检结果发布声明

黄天鹅就鸡蛋角黄素抽检结果发布声明

澎湃新闻
2026-03-25 15:39:05
9020mAh!新机官宣:3月26日,正式发布上市!

9020mAh!新机官宣:3月26日,正式发布上市!

科技堡垒
2026-03-26 11:29:06
历史唯一!9场比赛,仅差51次助攻啊,约基奇又又要创造历史

历史唯一!9场比赛,仅差51次助攻啊,约基奇又又要创造历史

球童无忌
2026-03-25 16:56:03
一夜之间,这两个城市房价上涨了!

一夜之间,这两个城市房价上涨了!

靓仔情感
2026-03-26 13:57:14
举火烧天!杨瀚森接球顺下单臂隔扣班克斯,目前9中9独揽20分

举火烧天!杨瀚森接球顺下单臂隔扣班克斯,目前9中9独揽20分

懂球帝
2026-03-26 10:15:02
毛主席有多明智?成立新疆生产建设兵团,七十年后谁都得服

毛主席有多明智?成立新疆生产建设兵团,七十年后谁都得服

诺言卿史录
2026-03-26 09:06:41
伊朗开始收“买路钱”了:想过霍尔木兹海峡?拿200万美元来

伊朗开始收“买路钱”了:想过霍尔木兹海峡?拿200万美元来

Ck的蜜糖
2026-03-26 16:57:49
湖南省委书记到凤凰,乘坐世界首条磁浮旅游专线

湖南省委书记到凤凰,乘坐世界首条磁浮旅游专线

观察者网
2026-03-25 21:33:09
广东球迷高喊:流氓教练杜锋下课!杜锋回应:感谢现场观众 非常热情

广东球迷高喊:流氓教练杜锋下课!杜锋回应:感谢现场观众 非常热情

晚雾空青
2026-03-26 16:09:03
悲催!丈夫月收入从2万到四五千,从程序员到送快递,女子想离婚

悲催!丈夫月收入从2万到四五千,从程序员到送快递,女子想离婚

火山詩话
2026-03-15 10:23:17
研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

观察鉴娱
2026-03-26 09:25:28
邓超孙俪正式解绑:16年婚姻,各自安好

邓超孙俪正式解绑:16年婚姻,各自安好

二胡的岁月如歌
2026-03-26 14:50:14
正式翻脸:沙特与阿联酋开放军事基地,放任美军暴打伊朗

正式翻脸:沙特与阿联酋开放军事基地,放任美军暴打伊朗

雅儿姐在遛弯
2026-03-26 08:24:39
大瓜!张雪峰女儿只能分得16.5%遗产

大瓜!张雪峰女儿只能分得16.5%遗产

兰亭墨未干
2026-03-26 14:52:45
490亿元的大项目即将开建!!

490亿元的大项目即将开建!!

新浪财经
2026-03-26 11:14:48
“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

火山詩话
2026-03-26 11:11:22
特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

刘蕳爱下厨
2026-03-25 15:08:52
美以联合空袭伊拉克

美以联合空袭伊拉克

第一财经资讯
2026-03-26 12:56:50
快讯!美国要打大仗了!

快讯!美国要打大仗了!

达文西看世界
2026-03-26 09:29:08
战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

子桑说
2026-03-25 17:27:05
2026-03-26 17:28:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11433文章数 117015关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
游戏
艺术
亲子
军事航空

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

商业互吹or真心话?制作人玩《红色沙漠》忘记工作

艺术要闻

哪一座桥不是风景?

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范!我要当爸爸的专属赞助人

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版