![]()
作者 | 黄昱
在朝着AGI前进的道路上,AI持续向垂直场景化、3D交互化落地,更多成熟的多模态大模型也在进入市场。
稳坐全球游戏头把交椅的腾讯,一直瞄准游戏研发需求很大的3D生成持续发力。
4月16日,腾讯正式发布并开源了混元3D世界模型(HY-World 2.0)。
腾讯目前的3D系列模型分为两类,如果说混元3D生成大模型专注单个高精度 3D 资产,混元3D世界模型则致力于构建完整、可交互、可导入游戏引擎的3D场景。
腾讯混元的3D世界模型正在一步步将“AI造世界”从概念变为现实,但这条赛道角逐,才刚刚开始。同日,阿里也发布了世界模型Happy Oyster,主打实时世界创建与交互。
一键生成游戏世界
HY-World 2.0是一个多模态世界模型,其核心能力在于能够理解文字、图片、视频等不同类型的输入,进而自动生成、重建和模拟3D世界。
同时,HY-World 2.0支持多格式3D资产(Mesh/3DGS/点云等)导出,可以与现有的游戏工作流无缝对接,用于快速生成游戏地图和关卡原型。
也就是说,HY-World 2.0更强调实用性,可以直接生成可供二次编辑的3D资产文件。
此外,HY-World 2.0在交互性上也实现了突破。该模型支持“角色模式”,允许用户操作角色在生成的街道、建筑和场景中自由探索。
在技术实现路径上,腾讯混元团队则以3D生成为主轴,通过统一空间理解、生成、重建的架构,达到了SOTA级的生成效果。
据悉,在传统的3D生成方法中,往往需要精确的相机参数才能生成全景图,但在实际操作中这些参数极难获取。
HY-World 2.0全新升级的HY-Pano-2.0模型采用了端到端的隐式学习方案,使模型能够自行学会从普通图片到360度全景的空间映射,大幅降低对相机元数据的依赖。
解决了空间构建问题后,模型还需要解决如何在空间中合理移动的挑战。腾讯团队自研了空间Agent技术,将视觉大语言模型(VLM)与游戏自动寻路算法中常用的navmesh表征相结合。
这使得大模型不仅能理解空间语义,还能智能规划出诸如“环绕物体”或“最大漫游”等合理的漫游轨迹,确保覆盖高价值区域的同时避免穿墙或跑飞现象。
沿着这些规划好的轨迹,腾讯打造新视角生成(NVS)模型HY-WorldStereo模型的任务则是让新生成的区域与已有区域在几何和视觉上衔接,保持高度的空间一致性,使得画面质量在快速生成中不会衰减。
早在2024年11月,腾讯就发布且开源了混元3D生成大模型1.0,到去年腾讯混元3D生成大模型3.0上线。与此同时,去年7月,混元3D世界模型1.0发布,
腾讯提供数据显示,截至今年3月,混元3D系列模型在开源社区的下载量突破300万,腾讯混元3D创作引擎也被德国软件公司Maxon引入其专业三维软件Cinema 4D。
发力3D生成的背后
以3D大模型为核心的多模态大模型,近年来一直是腾讯发力的重点。
华尔街见闻从腾讯内部了解到,相较于大语言模型,腾讯大模型团队这些年显然将更多精力投入到了多模态大模型的打造中。
为了提升大语言模型的能力,在今年三月的业绩会上,腾讯总裁刘炽平指出,过去几个月腾讯比较密集地进行了混元大模型团队的组织升级和工作流重构,同时也重新建立了整个预训练和强化学习的基础设施,以及进一步提升数据质量。
据彼时披露,混元3.0正在内测阶段,4月初会逐步对外开放。
如今,早于大语言模型混元3.0,“好兄弟”HY-World 2.0先来了。
这也释放出一个重要信息,即便开始加速提升混元大语言模型的能力,腾讯依然会持续发力多模态大模型。
腾讯重视多模态与3D世界,背后有着极为清晰的产业逻辑:一切为了核心业务的协同,尤其是向其最核心的“造血机”——游戏业务输送弹药。
构建一个复杂的开放世界地图或精细的关卡原型,往往需要庞大的美术团队耗费数月甚至数年时间。3D大模型的出现,精准击中了这一痛点。
通过一句话或一张草图秒级生成可导入UE引擎的3D空间,这种技术一旦在内部工作流中全面铺开,将为腾讯游戏带来惊人的降本增效成果,推动游戏研发流程革新。
据华尔街见闻了解,腾讯自研无代码编程游戏编辑器轻游梦工坊已接入腾讯混元3D生成模型最新版本,构建了“无代码可视化编程+预制系统+海量资源库+ AI生成”的组合方案,形成了一个“傻瓜式”的工具体系。
而《元梦之星》等数十款腾讯内部游戏也已深度应用混元模型能力。
腾讯管理层在3月的业绩会上也曾指出,生产力型AI智能体的普及将推动3D等世界模型需求增长,因AI技术必然补充并最终强化计算机辅助设计(CAD)能力,该能力在工业设计、建筑领域至关重要,在游戏领域的重要性也持续提升。
与此同时,腾讯管理层认为,腾讯在物理AI及3D模型领域占据独特有利位置,依托游戏业务积累的海量、深度3D图形数据集,可为模型训练提供优质数据支撑,进而向市场提供相关3D工具,具备承接市场需求的良好基础。
然而,尽管3D生成技术描绘了宏大的业务赋能图景,它当前仍面临着严峻的挑战。
作为多模态生成中难度最大的领域之一,3D生成对算力和数据资源有着极高的要求。时长的增加或维度的提升会导致算力呈平方级的上升,复杂的几何计算和物理模拟使得大规模应用在推理成本上居高不下。
同时,在追求极致精度的3A级游戏工业场景中,AI生成的资产通常还需要大量的人工后期修正,距离完全的“开箱即用”仍有一段距离。大模型厂商必须在庞大的算力资本开支与实际的商业化效率之间找到平衡。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.