网易首页 > 网易号 > 正文 申请入驻

世界模型,腾讯混元卷到了榜首

0
分享至

不圆 发自 凹非寺
量子位 | 公众号 QbitAI

腾讯混元世界模型上新,综合能力问鼎WorldScore排行榜。



HunyuanWorld-Voyager(简称混元Voyager),发布即开源。这距离HunyuanWorld 1.0 Lite版发布仅过两周。

官方介绍说,这是业界首个支持原生3D重建的超长漫游世界模型,能够生成长距离、世界一致的漫游场景,支持将视频直接导出为3D格式

无论是真实街景:



还是像素游戏:



效果都相当不错,不说的话还以为是实拍或者录屏。

它和之前的模型相比有什么不同呢?一起来看一下。

一句话,一张图,一个场景

仔细看了看混元Voyager的介绍,这次上新的直观表现其实是多了一个「漫游场景」的功能。

比360°全景图交互性更强,可以用鼠标和键盘在场景内活动,更好地感受和探索世界。



左边可以调整渲染画质和场视角:



录制gif图会压缩画质,实际体验相当清晰。

而且只需要一句话或一张图就可以生成这样的场景。

混元官方还给出了Prompt指引:



给出的示例效果也相当不错,体验感很好,甚至想戴个VR眼镜试试。



由于文件大小受限,压缩了很多次,截个屏给大家看看原本的画质:



对了,图生场景对图片的分辨率是有要求的,太大或者太小都会报错。





具体要求也给出来了,写得十分清楚:



除此之外,混元Voyager3D输入-3D输出的特性,与此前已开源的混元世界模型1.0高度适配,可进一步扩展1.0模型的漫游范围,提升复杂场景的生成质量,并可对生成的场景做风格化控制和编辑。



同时混元Voyager还可支持视频场景重建、3D物体纹理生成、视频风格定制化生成、视频深度估计等多种3D理解与生成应用,展现出空间智能的潜力。



将场景深度预测引入视频生成过程

混元Voyager为什么能够做到一键生成沉浸式漫游场景呢?这个问题涉及到它的模型框架。



混元Voyager框架创新性地将场景深度预测引入视频生成过程,首次通过空间与特征结合的方式,支持原生的3D记忆和场景重建,避免了传统后处理带来的延迟和精度损失。

同时,在输入端加入3D条件保证画面视角精准,输出端直接生成3D点云,适配多种应用场景。额外的深度信息还能支持视频场景重建、3D物体纹理生成、风格化编辑和深度估计等功能。

用比较好理解的话来说,视频生成+3D建模——

基于相机可控的视频生成技术,从初始场景视图和用户指定相机轨迹中,合成可自由控制视角、空间连贯的RGB-D视频。



混元Voyager包含两个关键组件:
(1)世界一致的视频扩散:提出了一种统一的架构,能够基于现有世界观测,同时生成精确对齐的RGB视频与深度视频序列,并确保全局场景的一致性。
(2)长距离世界探索:提出了一种高效的世界缓存机制,该机制融合了点云剔除与自回归推理能力,可支持迭代式的场景扩展,并通过上下文感知的一致性技术实现平滑的视频采样。

为训练混元Voyager模型,腾讯混元团队还构建了一套可扩展的数据构建引擎——该引擎是一个自动化视频重建流水线,能够对任意输入视频自动估计相机位姿以及度量深度,从而无需依赖人工标注,即可实现大规模、多样化训练数据的构建。

基于此流水线,混元Voyager整合了真实世界采集与虚幻引擎渲染的视频资源,构建了一个包含超过10万个视频片段的大规模数据集。

将基于1.0模型生成的初始3D点云缓存投影到目标相机视图,即可为扩散模型提供指导。

此外,生成的视频帧还会实时更新缓存,形成闭环系统,支持任意相机轨迹,同时维持几何一致性。这不仅扩展了漫游范围,还为1.0模型补充新视角内容,提升整体生成质量。



混元Voyager模型在斯坦福大学李飞飞团队发布的世界模型基准测试WorldScore上位居综合能力首位,超越现有开源方法。

这一结果表明,与基于3D的方法相比,混元Voyager在相机运动控制和空间一致性方面表现出优异竞争力。





在视频生成质量上,定性定量结果表明混元Voyager具备卓越的视频生成质量,能够生成高度逼真的视频序列。

特别在定性比较的最后一组样例中,只有混元Voyager有效保留了输入图像中产品的细节特征。相比之下,其他方法容易产生明显伪影。





场景重建方面,在使用VGGT进行后处理的情况下,混元Voyager的重建结果优于所有基线模型,表明其生成视频在几何一致性方面表现更为出色。

同时,若进一步使用生成的深度信息来初始化点云,重建效果更佳,这也进一步证明了所提出深度生成模块对于场景重建任务的有效性。

上图中的定性结果同样印证了这一结论。在最后一组样例中,混元Voyager 能够较好地保留吊灯的细节特征,而其他方法难以重建出基本形状。

同时,在主观质量评价中,混元Voyager同样获得最高评分,进一步验证了所生成视频具备卓越的视觉真实性。

并且混元Voyager完全开源,相关技术报告已公开,源代码在GitHub和Hugging Face上免费开放。

模型部署的要求如下:



One More Thing

腾讯混元正在不断加速开源进展,除了包括混元Voyager在内的混元世界模型系列,还有MoE架构的代表性模型混元large、混合推理模型Hunyuan-A13B,以及多个面向端侧场景的小尺寸模型,最小仅0.5B参数。

最近还开源了翻译模型Hunyuan-MT-7B和翻译集成模型Hunyuan-MT-Chimera-7B(奇美拉),前者在国际机器翻译比赛中拿下了30个第一名。



除腾讯以外的其它国内大厂也在猛猛开源。

阿里的Qwen自不用说,除此外,阿里前段时间还开源了视频生成模型Wan2.2-S2V

美团的第一个开源大模型Longcat-Flash-Chat最近也发布了,不知道大家有没有关注。

参考链接:https://mp.weixin.qq.com/s/vCkFWwV5vUQhjMRfMQB2XA
项目主页:https://3d-models.hunyuan.tencent.com/world/
模型:https://3d.hunyuan.tencent.com/sceneTo3D
GitHub:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
压哨手球送点!汉尼拔双手掩面,红军连场绝杀,名宿:简直是疯了

压哨手球送点!汉尼拔双手掩面,红军连场绝杀,名宿:简直是疯了

奥拜尔
2025-09-14 23:15:23
“想通过杀人被判刑”,26岁患精神分裂男子持铁锤砸路人致1死6伤,遇害者家属发声

“想通过杀人被判刑”,26岁患精神分裂男子持铁锤砸路人致1死6伤,遇害者家属发声

极目新闻
2025-09-14 13:15:45
世锦赛男子100米:塞维尔刷PB夺冠,牙买加打破美国10年垄断

世锦赛男子100米:塞维尔刷PB夺冠,牙买加打破美国10年垄断

全景体育V
2025-09-14 21:33:23
美媒警告:若台海冲突爆发,美潜艇将阻止解放军围台,切断补给线

美媒警告:若台海冲突爆发,美潜艇将阻止解放军围台,切断补给线

军器战位
2025-09-14 23:21:01
《易经》有三大天规:不可触犯,碰之必惹祸端

《易经》有三大天规:不可触犯,碰之必惹祸端

金沛的国学笔记
2025-09-13 14:36:41
西贝创始人终于道歉,却彻底激怒了罗永浩,没法翻篇了!

西贝创始人终于道歉,却彻底激怒了罗永浩,没法翻篇了!

i王石头
2025-09-15 01:26:11
英超最新积分榜:利物浦全胜领跑,曼城第8、曼联第14

英超最新积分榜:利物浦全胜领跑,曼城第8、曼联第14

雷速体育
2025-09-15 01:52:32
西班牙王室莱蒂齐亚王后与国王丈夫闹离婚,11亿元天价离婚分手费

西班牙王室莱蒂齐亚王后与国王丈夫闹离婚,11亿元天价离婚分手费

译言
2025-09-14 15:27:10
大学生又开始用现金了?透露出什么信号?部分学生说出了内情

大学生又开始用现金了?透露出什么信号?部分学生说出了内情

深度报
2025-09-07 21:52:26
某员工向老板举报,说同事利用办公室的打印机,经常给小孩打印作业,结果老板反问她,你举报的目的何在?

某员工向老板举报,说同事利用办公室的打印机,经常给小孩打印作业,结果老板反问她,你举报的目的何在?

LadyDaily
2025-09-02 16:42:12
大阅兵后,中国的第一个对手出现,中方这次真发火了,将全面反制

大阅兵后,中国的第一个对手出现,中方这次真发火了,将全面反制

小lu侃侃而谈
2025-09-10 19:13:12
“国家一级演员”何冰的消失,不仅是娱乐圈的悲哀,更是损失!

“国家一级演员”何冰的消失,不仅是娱乐圈的悲哀,更是损失!

素衣读史
2025-08-20 17:55:59
“西贝真不贵”?贾国龙这一句话,把打工人的尊严按在地上摩擦

“西贝真不贵”?贾国龙这一句话,把打工人的尊严按在地上摩擦

吃瓜盟主
2025-09-13 14:30:01
韩庚20周年演唱会被骂惨,粉丝失望直呼“吃相太难看”!

韩庚20周年演唱会被骂惨,粉丝失望直呼“吃相太难看”!

世界探索者探索
2025-09-14 18:45:33
杨尚昆问周总理:小平自称参加过遵义会议,此事确否,是何职务?

杨尚昆问周总理:小平自称参加过遵义会议,此事确否,是何职务?

大运河时空
2025-09-03 11:55:59
武汉国民政府的瓦解,打土豪让军队哗变,汪精卫成为苏俄顾问傀儡

武汉国民政府的瓦解,打土豪让军队哗变,汪精卫成为苏俄顾问傀儡

南极狼人
2025-09-12 20:40:47
A股即将迎来“924行情”一周年,下周这些重磅消息利好A股?

A股即将迎来“924行情”一周年,下周这些重磅消息利好A股?

每日经济新闻
2025-09-14 17:16:48
联合国安理会上,以色列不仅怒怼五常,还当众威胁卡塔尔

联合国安理会上,以色列不仅怒怼五常,还当众威胁卡塔尔

三叔的装备空间
2025-09-13 20:26:34
A股涨到3892,不出意外,下周(9月15日-19日)很可能要这样走了

A股涨到3892,不出意外,下周(9月15日-19日)很可能要这样走了

虎哥闲聊
2025-09-14 10:00:39
刺杀柯克凶嫌落网,美国杀手如迷人生

刺杀柯克凶嫌落网,美国杀手如迷人生

不正确
2025-09-13 08:35:59
2025-09-15 02:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
11313文章数 176268关注度
往期回顾 全部

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

头条要闻

罗永浩向贾国龙重新开战:我看你智力有问题 不可救药

头条要闻

罗永浩向贾国龙重新开战:我看你智力有问题 不可救药

体育要闻

利物浦1-0绝杀十人伯恩利 萨拉赫95分钟点射

娱乐要闻

花泽香菜官宣离婚 结束与老公5年婚姻

财经要闻

西贝贾国龙,“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

亲子
教育
家居
公开课
军事航空

亲子要闻

小学孩子记不住数学抽象概念咋办?幼儿园老师这招值得家长学习!

教育要闻

重磅:关于新修订职教高考考试大纲和专业技能考试标准的通知!

家居要闻

原木风格 温馨舒适氛围

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄无人机飞入波兰 美国务卿:不可接受

无障碍浏览 进入关怀版