世界模型WoW发布，200万次真实交互让AI真正懂物理|机器人|wow|真实世界|正式版模型

世界模型WoW发布，200万次真实交互让AI真正懂物理

分享至

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在，欢迎加入共同成长。

人类对世界的认知，源于亲手触摸、尝试与探索，而非被动观察。但当前主流视频生成模型如 Sora，仅靠海量视频数据学习，缺乏真实世界交互体验，常常出现违背物理常识的 “幻觉”。近日，由北京人形机器人创新中心与香港科技大学等机构联合推出的 WoW 世界模型，凭借 200 万条真实机器人交互数据，打通 “感知 - 想象 - 反思 - 行动” 闭环，让 AI 真正具备物理直觉，为 embodied intelligence 发展奠定关键基础！已上线始智AI-wisemodel开源社区，欢迎体验。

模型地址

https://wisemodel.cn/models/WoWworldmodel/WoW-1-Wan-14B-2M/intro

https://wisemodel.cn/models/WoWworldmodel/WoW-1-Wan-1.3B-2M

01.

行业痛点：

传统世界模型的三大致命缺陷

现有世界模型虽能生成逼真视频，却难以适配真实世界交互需求：

物理认知薄弱：仅通过被动观察学习，缺乏因果关联理解，生成内容常出现物体穿透、重力异常等物理谬误；
想象与行动脱节：能 “想象” 未来场景，却无法将其转化为可执行的机器人动作，难以落地应用；
泛化能力不足：在未见过的场景、机器人形态或任务中表现糟糕，难以适应真实世界的多样性。

这些问题导致 AI 始终无法真正 “理解” 世界，只能做表面的模式复刻。

02.

技术革新：

WoW的四大核心突破

WoW以 “真实交互数据 + 闭环优化框架” 为核心，实现四大关键创新，让 AI 从 “看世界” 升级为 “懂世界、控世界”：

1. 200 万次真实交互：筑牢物理直觉根基

摒弃互联网视频数据，WoW 采用 203 万条真实机器人交互轨迹训练，涵盖 5275 个任务、12 种不同机器人形态，累计时长超 7300 小时。数据经过严格筛选，剔除无效交互，保留高质量、因果关系明确的操作记录，包括单臂 / 双臂 manipulation、刚性 / 柔性物体交互等场景，让模型在真实物理反馈中学习规律，而非死记硬背视频模式。

2. SOPHIA 闭环框架：让 AI 学会 “反思优化”

创新提出 SOPHIA 自优化框架，模拟人类 “尝试 - 反馈 - 修正” 的认知过程：

生成器（Solver）：基于扩散 Transformer（DiT）生成符合物理规律的未来视频，融合 3D 小波变换与 RoPE 位置编码，保证时空一致性；
评论家（Critic）：由视觉语言模型（VLM）组成动态评估团队，从任务完成度、物理合理性、运动流畅度等维度打分；
优化器（Refiner）：根据评估反馈迭代优化文本指令，引导生成器修正错误，逐步提升物理一致性。

这种 “生成 - 评估 - 优化” 的闭环，让模型不断反思改进，避免单一生成的局限性。

3. Flow-Mask 逆动力学模型：打通 “想象到行动” 最后一公里

设计 FM-IDM 模块，能将生成的视频轨迹转化为 7 自由度机械臂可执行的动作指令。通过分析相邻帧的光流变化与场景掩码，精准推断机器人末端执行器的平移、旋转及夹爪控制信号，实现 “想象场景→动作落地” 的完整闭环。在真实机器人测试中，该模块在简单任务上成功率达 94.5%，中等难度任务达 75.2%，大幅超越传统方法。

4. WoWBench 基准：量化物理与因果推理能力

构建首个聚焦物理一致性的评估基准 WoWBench，包含 606 个样本、20 个子任务，从四大维度全面测试模型：

感知理解（物体识别、空间关系等）
预测推理（碰撞动力学、物体恒存性等）
决策规划（长时任务分解、因果依赖等）
泛化执行（未见场景、机器人形态等）

采用多维度评估指标，既包括视频质量、轨迹一致性等量化指标，也涵盖人类主观评分，全面衡量模型的真实世界适配能力。

03.

性能验证：

多项指标刷新纪录，真实场景表现亮眼

WoW 在实验中展现出远超传统模型的综合能力：

基准测试霸榜：在 WoWBench 上实现 96.53% 的指令理解准确率和 80.16% 的物理规律符合率，人类评估与自动评估均排名第一；
物理一致性卓越：能准确模拟碰撞、形变、流体等复杂物理现象，在刚性物体交互、柔性材料操作等场景中无明显物理谬误；
泛化能力突出：无需微调即可适配 12 种不同机器人形态，在素描、油画等风格化场景，以及 “物体超重”“重力偏移” 等反事实场景中，仍能生成合理结果；
真实落地可行：成功控制物理机器人完成取放面包、关闭抽屉、按钮按压等任务，动作流畅且精准。

04.

适用场景：

赋能多领域智能升级

WoW 的技术特性使其在多个场景具备极高应用价值：

机器人操控：为工业机械臂、服务机器人提供高精度动作规划，适配多样化任务与环境；
物理模拟：替代传统物理引擎，高效生成复杂场景模拟视频，助力游戏开发、仿真测试；
多视图生成：支持从有限视角重建完整 3D 场景，生成几何一致的新颖视图；
VLM 能力增强：作为认知沙盒，帮助视觉语言模型调试规划逻辑，将复杂任务成功率从 30% 提升至 89%。

无论是工业自动化、智能家居，还是虚拟仿真、AI 助手升级，WoW 都能凭借其强大的物理理解与行动能力提供核心支撑。

WoW 的推出，打破了传统世界模型 “只懂想象、不会行动” 的局限，证明了 “真实交互是 AI 习得物理直觉的关键”。其 200 万条真实交互数据、SOPHIA 闭环优化框架与 FM-IDM 动作转化模块的有机结合，让 AI 首次实现 “感知世界 - 想象未来 - 反思优化 - 操控物理” 的完整闭环。

随着技术的进一步迭代，未来的 AI 将具备更强的环境适应能力与自主决策能力，在工业生产、家庭服务、科研探索等领域发挥更大价值。

----- END -----

wisemodel相关：

系列模型：

关于wisemodel更多

欢迎持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态。

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：liudaoquan@wisemodel.cn

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

向上滑动查看

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.