网易首页 > 网易号 > 正文 申请入驻

腾讯世界模型Voyager开源!三项能力登顶斯坦福WorldScore,平均分第一

0
分享至

短短半月,混元团队又向3D生成的“视野盲区”推进了一步。

智东西9月2日报道,今日,腾讯混元团队正式开源其HunyuanWorld 1.0世界模型的官方扩展模型“HunyuanWorld-Voyager”

这也是混元在近两个月内,围绕3D世界生成系统的第三次发布:7月,团队首次开源HunyuanWorld 1.0模型,支持从文本或图像生成可漫游的三维场景;8月,推出适配消费级显卡的Lite版本,降低部署门槛。

Voyager则将目标从“生成一个可看的世界”进一步推向“构建一个可走、可扩展的世界”。

它主要针对当前世界模型在长距离生成和视角一致性上的限制,首次引入RGB-D视频联合建模空间缓存机制,可根据单张图和用户设定的相机轨迹,生成结构连续、深度一致的点云视频,并可直接导出为标准3D格式。

换句话说,它不仅能把视野之外的区域合理补全,还能持续“记住”用户走过的路径,并在空间中衔接新的视角内容

根据斯坦福李飞飞团队主导的WorldScore排行榜,Voyager在当前主流世界模型中平均成绩位列第一。

体验指路:

主页:https://3d-models.hunyuan.tencent.com/world/

Github:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager

Huggingface:https://huggingface.co/tencent/HunyuanWorld-Voyager

技术报告:https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf

一、多种3D任务解锁,直出结果可即用

Voyager不仅继承了混元世界模型1.0的图生世界能力,还进一步解决了“用户走出原视角之后”的补全问题。其生成结果不仅可实时呈现,还能直接导出为标准3D格式(如点云、mesh),无需借助Colmap、VGGT等后处理工具。

具体来看,Voyager可应用于以下典型任务:

1、控制生成视频画面:用户可通过键盘或摇杆设定相机轨迹,系统生成对应视角的视频序列,同时保持空间结构一致性;

2、风格化编辑与控制:支持对生成视频进行画面风格调整与局部重绘,保持内容可控;

3、图生3D与视频深度估计:支持从图像生成结构完整的3D物体,也可对普通视频进行深度补全,用于三维理解与后续建模;

▲图生3D物体

▲视频深度估计

二、引入新架构,空间建模能力显著增强

混元世界模型-Voyager架构是对混元世界模型1.0新视角内容的补全,引入了“世界一致视频扩散”与“长距离世界探索”两大核心机制。

此前,混元世界模型1.0模型已支持从文本或图像生成可漫游的三维世界,并输出标准3D格式,兼容游戏引擎。但当用户“走出”原始画面后,生成范围会受限。Voyager解决的正是这类遮挡与长距离视角问题。

1、世界一致的视频扩散

目前,可控视频生成模型已经具备构建“世界模型”的潜力,但这类“图生视频”方案多停留在RGB模态,难以还原三维结构,限制了交互性和空间一致性。相比之下,显式生成3D场景(如点云、Mesh)可用于更真实的空间重建,但受限于训练数据和计算资源,难以在大规模场景中泛化。

混元世界模型Voyager结合了视频生成与显式3D建模两类方法,支持在用户设定相机轨迹和初始场景的条件下,生成空间一致的RGB-D视频序列,并可直接导出为点云格式的三维数据。

Voyager首次在视频生成中引入RGB+Depth的双模态联合建模,形成“点云视频”:

1、输入:图片+用户指定的相机轨迹;

2、输出:RGB-D视频序列,每帧均具备像素级深度信息;

3、拼接机制:先在空间维度上拼接RGB和D(Depth),再在特征维度上结合两模态信息,用VAE框架学习RGB-D的生成规律;

4、训练结构:由双流模块与控制模块组成,基于Hunyuan-Video DiT模型进行训练。

此外,为支撑训练需求,混元团队构建了一套可扩展的数据构建引擎,可自动对任意输入视频估计相机姿态与时序信息,摆脱人工标注依赖,批量生成可用于RGB-D建模的训练样本。基于该引擎,Voyager融合真实视频与虚幻引擎合成数据,构建了包含超过10万段视频片段的大规模训练集。

这种机制让Voyager具备“原生3D记忆能力”,无需后处理重建步骤即可生成空间一致、格式统一的3D点云。

2、长距离世界探索

Voyager通过提出一种具备空间一致性的可拓展世界缓存机制,突破了长距离世界探索的限制。

1、先生成一个初始场景点云缓存(来自HunyuanWorld 1.0);

2、再将缓存投影至用户设定的相机视角;

3、利用扩散模型生成新视角画面,并不断更新缓存,最终形成一个支持任意相机轨迹的闭环系统。

这一方法兼顾空间结构记忆、视角可控与多视图一致性,意味着用户可以像玩第一人称游戏一样“自由走”,所到之处都能被系统填补,并保持几何结构一致。

三、三项实验:验证空间一致性与重建质量

为全面验证HunyuanWorld-Voyager的性能表现,混元团队围绕视频生成质量、三维场景重建能力以及世界生成能力三个方向进行了系统实验,覆盖RGB视频质量、几何一致性与长距离空间表达等多个维度。

1. 视频生成:相似性与结构性指标均领先

在视频生成任务中,混元团队选取RealEstate10K数据集中的150个视频片段,并与四种开源的摄像头可控视频生成方法进行对比。

结果显示,Voyager在全部指标上均优于现有方法。

定性分析中,Voyager能够生成更为多样、结构清晰的视频帧,尤其在细节区域的保留上表现出色。例如在样例中,其他方法在相机大幅移动时易产生α影或结构塌陷,而Voyager仍能准确还原输入图像中的产品边界与材质细节。

2. 场景重建能力:融合RGB-D,三维结构更准确

在场景生成任务中,Voyager进一步验证了其RGB-D视频序列对三维结构重建的支持能力。混元团队使用VGGT方法作为后处理统一流程,对比核心模型的RGB视频生成后能否支持高质量点云还原。

结果表明,即便在仅使用RGB重建的场景下,Voyager生成的视频在几何一致性方面也优于其他方法;而一旦加入原生深度信息初始化点云,重建精度进一步提升。

在3D Gaussian Splatting任务中,Voyager成功还原了复杂结构(如吊灯)的完整形状,而其他方法在边缘结构与局部细节上普遍存在缺失。

3. 世界生成能力:跨域泛化与长距离空间表达能力增强

在更具挑战性的WorldScore静态基准测试中,Voyager同样展现出领先能力。该基准评估模型在开放域条件下的世界建构能力,尤其关注光学运动控制能力与空间一致性表现。

Voyager在该任务中获得最高平均分,验证了其空间一致建模机制具备跨数据域的泛化能力。

同时,由于生成条件一致,Voyager在保证一致性的前提下,所驱动的相机运动幅度大幅超过对比模型,其对于长路径建模与多视角连续性控制更具备优势。

结语:让生成的世界走得更远

从静态场景到可控漫游,再到具备深度信息与空间拓展,Voyager补足了混元世界模型在空间连续性上的一块关键能力。

从一段文字、一张图生成一个初始场景,再根据用户设定的相机轨迹拓展新视角内容,这种“边走边生成”的逻辑,正在成为AI理解空间的另一种可能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
烟火长歌丨“宁”“波”打的电话正在通话中

烟火长歌丨“宁”“波”打的电话正在通话中

人民资讯
2026-05-10 16:53:20
交管大队长否认违规:在KTV喝的是茶水,女子主动靠近我反应不及

交管大队长否认违规:在KTV喝的是茶水,女子主动靠近我反应不及

映射生活的身影
2026-05-10 15:28:16
摩洛哥姑娘嫁江苏农村小伙,婚礼全程开心大笑,摄影师感慨:拍了七年婚礼没见过这样的

摩洛哥姑娘嫁江苏农村小伙,婚礼全程开心大笑,摄影师感慨:拍了七年婚礼没见过这样的

可达鸭面面观
2026-05-10 13:46:52
“重达11000克拉”!外媒:缅甸发现迄今为止第二重的“罕见巨型”红宝石

“重达11000克拉”!外媒:缅甸发现迄今为止第二重的“罕见巨型”红宝石

环球网资讯
2026-05-10 11:20:10
中国驻英国大使就英国法院对中国公民的所谓“裁决”向英方提出严正交涉

中国驻英国大使就英国法院对中国公民的所谓“裁决”向英方提出严正交涉

新京报
2026-05-10 18:07:10
2:3!日本女团惜败国乒,张本美和赛后采访满是心有不甘与心碎!

2:3!日本女团惜败国乒,张本美和赛后采访满是心有不甘与心碎!

田先生篮球
2026-05-10 23:07:16
上层圈子的潜规则:没人明说,但招招致命

上层圈子的潜规则:没人明说,但招招致命

细说职场
2026-05-10 09:39:27
伊朗对美国方案的回应聚焦“结束战争与海上安全”

伊朗对美国方案的回应聚焦“结束战争与海上安全”

新华社
2026-05-10 23:08:04
触目惊心!“德国驾校”迷奸案,名校博士、外企主管成跨国犯罪主谋

触目惊心!“德国驾校”迷奸案,名校博士、外企主管成跨国犯罪主谋

新民周刊
2026-05-10 13:03:12
不访华了?鲁比奥称美方愿让步,中俄高抬贵手,已为自己找好台阶

不访华了?鲁比奥称美方愿让步,中俄高抬贵手,已为自己找好台阶

书纪文谭
2026-05-10 21:13:02
“汉坦病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“汉坦病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

岐黄传人孙大夫
2026-05-09 09:08:44
早田希娜赛后痛哭!水谷隼盛赞孙颖莎,桥本帆乃香表态下次要复仇

早田希娜赛后痛哭!水谷隼盛赞孙颖莎,桥本帆乃香表态下次要复仇

排球黄金眼
2026-05-10 23:34:01
三亚皮皮虾再升级!老板身亡仍被追责,游客曝猛料,不止是为了钱

三亚皮皮虾再升级!老板身亡仍被追责,游客曝猛料,不止是为了钱

北纬的咖啡豆
2026-05-10 11:43:20
吴君如很早就说过了,陈妍希私下就是这样穿

吴君如很早就说过了,陈妍希私下就是这样穿

八卦王者
2026-05-10 13:24:46
紫牛头条|儿子车祸受伤生存希望不足0.1%仍绝不放弃!这位母亲生死守护已620天

紫牛头条|儿子车祸受伤生存希望不足0.1%仍绝不放弃!这位母亲生死守护已620天

扬子晚报
2026-05-10 20:20:42
“我家三个儿子都不见了,小的才9岁”,台州一家长急疯深夜报警!凌晨3点被警察找到后,仨娃撒腿就跑……

“我家三个儿子都不见了,小的才9岁”,台州一家长急疯深夜报警!凌晨3点被警察找到后,仨娃撒腿就跑……

环球网资讯
2026-05-10 15:25:11
史诗级合作!英伟达联手康宁光连接扩产 10倍 5大供应商直接起飞

史诗级合作!英伟达联手康宁光连接扩产 10倍 5大供应商直接起飞

元芳说投资
2026-05-10 06:20:08
西汉姆0-1阿森纳:那么,恭喜枪手吧!等待了22年的冠军快要来了

西汉姆0-1阿森纳:那么,恭喜枪手吧!等待了22年的冠军快要来了

安海客
2026-05-11 01:49:04
想不到的广东:全国最富的省份,7成城市却在平均线以下

想不到的广东:全国最富的省份,7成城市却在平均线以下

风向观察
2026-05-10 19:34:45
牺牲太大!航天女英雄刘洋:结婚 8 年未生子,回地面后销声匿迹

牺牲太大!航天女英雄刘洋:结婚 8 年未生子,回地面后销声匿迹

华人星光
2026-05-10 13:57:49
2026-05-11 02:52:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11795文章数 117070关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

家居
教育
本地
数码
公开课

家居要闻

菁英人居 全能豪宅

教育要闻

高考地理中的共享经济

本地新闻

用苏绣的方式,打开江西婺源

数码要闻

你昂贵的DDR5内存可能是假货:穿着三星的马甲 心里却是SK海力士

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版