![]()
公司情报专家《财经涂鸦》获悉,12月17日,腾讯混元发布世界模型1.5(Tencent HY WorldPlay),成为国内首个开放体验的实时世界模型。
据悉,混元世界模型1.5具备三大核心能力,包括实时的交互生成、长范围的3D一致性以及多样化的交互体验,目前腾讯混元3D官网已开放申请使用。
使用方面,用户输入文字描述或者图片即可创建专属的互动世界,通过键盘、鼠标或手柄实时控制虚拟相机的移动和转向,即可像玩游戏一样自由探索AI生成的世界。
腾讯方面表示,该模型将带来世界建模的全新可能性。用户可以在生成的世界里随意移动探索,离开某个区域后再次返回时,模型能够“记住”该区域的三维结构,呈现前后一致的场景——这种空间记忆能力标志着模型在三维世界理解上的突破。
同时,混元世界模型1.5(WorldPlay)还首次开源了业界最系统、最全面的实时世界模型框架,涵盖数据、训练、流式推理部署等全链路、全环节。
混元团队在技术报告中公开了模型预训练、持续训练、自回归视频模型强化学习、带记忆力的模型蒸馏的训练细节,并详述模型在控制(control space),记忆(reconstituted memory),蒸馏(context forcing),强化学习后训练几大模块上的思考与原创设计。
据悉,WorldPlay这一自回归扩散模型是混元世界模型1.5的核心。其采用Next-Frames-Prediction的视觉自回归任务进行训练,实现了长范围几何一致性的实时交互式世界建模,破解了业界满足实时性与几何一致性的难题。
该模型依托三大核心,实现了诸多创新,包括双分支动作表征实现精准控制、上下文记忆重构机制保持几何一致性、上下文对齐蒸馏技术增强长视频生成的视觉质量和几何一致性。
此外,该工作也构建了一套新颖的基于3D奖励的强化学习后训练框架来进一步增强生成视频的视觉质量和几何一致性。
数据方面,混元团队构建的自动化3D场景渲染流程,可以获得大量高质量的真实世界渲染数据,进一步激发核心算法的潜力。同时,混元世界模型1.5可支持24帧/秒的长时流式生成,一致性与泛化能力适用于多样化场景。
这一全新的内容生成模式可以应用在多个场景中。
例如,在AI游戏开发领域,它可以作为智能关卡生成器,根据玩家的文本描述实时创建可探索的游戏世界;在影视制作和虚拟现实(VR)领域,创作者通过简单的文本指令,就可以快速预览和迭代场景设计;在具身智能(Embodied AI)研究领域,混元世界模型1.5提供了一个理想的训练和测试平台,研究者可以通过借助这个平台,以更高的效率、更大的规模,去探索具身智能体的感知、决策、规划和长期交互能力。
作者:苏打
编辑:tuya
出品:财经涂鸦(ID:caijingtuya)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.