![]()
始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。
人类对世界的认知,源于亲手触摸、尝试与探索,而非被动观察。但当前主流视频生成模型如 Sora,仅靠海量视频数据学习,缺乏真实世界交互体验,常常出现违背物理常识的 “幻觉”。近日,由北京人形机器人创新中心与香港科技大学等机构联合推出的 WoW 世界模型,凭借 200 万条真实机器人交互数据,打通 “感知 - 想象 - 反思 - 行动” 闭环,让 AI 真正具备物理直觉,为 embodied intelligence 发展奠定关键基础!已上线始智AI-wisemodel开源社区,欢迎体验。
![]()
模型地址
https://wisemodel.cn/models/WoWworldmodel/WoW-1-Wan-14B-2M/intro
https://wisemodel.cn/models/WoWworldmodel/WoW-1-Wan-1.3B-2M
01.
行业痛点:
传统世界模型的三大致命缺陷
![]()
现有世界模型虽能生成逼真视频,却难以适配真实世界交互需求:
- 物理认知薄弱:仅通过被动观察学习,缺乏因果关联理解,生成内容常出现物体穿透、重力异常等物理谬误;
- 想象与行动脱节:能 “想象” 未来场景,却无法将其转化为可执行的机器人动作,难以落地应用;
- 泛化能力不足:在未见过的场景、机器人形态或任务中表现糟糕,难以适应真实世界的多样性。
这些问题导致 AI 始终无法真正 “理解” 世界,只能做表面的模式复刻。
02.
技术革新:
WoW的四大核心突破
WoW以 “真实交互数据 + 闭环优化框架” 为核心,实现四大关键创新,让 AI 从 “看世界” 升级为 “懂世界、控世界”:
![]()
1. 200 万次真实交互:筑牢物理直觉根基
摒弃互联网视频数据,WoW 采用 203 万条真实机器人交互轨迹训练,涵盖 5275 个任务、12 种不同机器人形态,累计时长超 7300 小时。数据经过严格筛选,剔除无效交互,保留高质量、因果关系明确的操作记录,包括单臂 / 双臂 manipulation、刚性 / 柔性物体交互等场景,让模型在真实物理反馈中学习规律,而非死记硬背视频模式。
2. SOPHIA 闭环框架:让 AI 学会 “反思优化”
创新提出 SOPHIA 自优化框架,模拟人类 “尝试 - 反馈 - 修正” 的认知过程:
- 生成器(Solver):基于扩散 Transformer(DiT)生成符合物理规律的未来视频,融合 3D 小波变换与 RoPE 位置编码,保证时空一致性;
- 评论家(Critic):由视觉语言模型(VLM)组成动态评估团队,从任务完成度、物理合理性、运动流畅度等维度打分;
- 优化器(Refiner):根据评估反馈迭代优化文本指令,引导生成器修正错误,逐步提升物理一致性。
这种 “生成 - 评估 - 优化” 的闭环,让模型不断反思改进,避免单一生成的局限性。
3. Flow-Mask 逆动力学模型:打通 “想象到行动” 最后一公里
设计 FM-IDM 模块,能将生成的视频轨迹转化为 7 自由度机械臂可执行的动作指令。通过分析相邻帧的光流变化与场景掩码,精准推断机器人末端执行器的平移、旋转及夹爪控制信号,实现 “想象场景→动作落地” 的完整闭环。在真实机器人测试中,该模块在简单任务上成功率达 94.5%,中等难度任务达 75.2%,大幅超越传统方法。
4. WoWBench 基准:量化物理与因果推理能力
构建首个聚焦物理一致性的评估基准 WoWBench,包含 606 个样本、20 个子任务,从四大维度全面测试模型:
感知理解(物体识别、空间关系等)
预测推理(碰撞动力学、物体恒存性等)
决策规划(长时任务分解、因果依赖等)
泛化执行(未见场景、机器人形态等)
采用多维度评估指标,既包括视频质量、轨迹一致性等量化指标,也涵盖人类主观评分,全面衡量模型的真实世界适配能力。
![]()
03.
性能验证:
多项指标刷新纪录,真实场景表现亮眼
WoW 在实验中展现出远超传统模型的综合能力:
- 基准测试霸榜:在 WoWBench 上实现 96.53% 的指令理解准确率和 80.16% 的物理规律符合率,人类评估与自动评估均排名第一;
- 物理一致性卓越:能准确模拟碰撞、形变、流体等复杂物理现象,在刚性物体交互、柔性材料操作等场景中无明显物理谬误;
- 泛化能力突出:无需微调即可适配 12 种不同机器人形态,在素描、油画等风格化场景,以及 “物体超重”“重力偏移” 等反事实场景中,仍能生成合理结果;
- 真实落地可行:成功控制物理机器人完成取放面包、关闭抽屉、按钮按压等任务,动作流畅且精准。
04.
适用场景:
赋能多领域智能升级
WoW 的技术特性使其在多个场景具备极高应用价值:
- 机器人操控:为工业机械臂、服务机器人提供高精度动作规划,适配多样化任务与环境;
- 物理模拟:替代传统物理引擎,高效生成复杂场景模拟视频,助力游戏开发、仿真测试;
- 多视图生成:支持从有限视角重建完整 3D 场景,生成几何一致的新颖视图;
- VLM 能力增强:作为认知沙盒,帮助视觉语言模型调试规划逻辑,将复杂任务成功率从 30% 提升至 89%。
![]()
无论是工业自动化、智能家居,还是虚拟仿真、AI 助手升级,WoW 都能凭借其强大的物理理解与行动能力提供核心支撑。
WoW 的推出,打破了传统世界模型 “只懂想象、不会行动” 的局限,证明了 “真实交互是 AI 习得物理直觉的关键”。其 200 万条真实交互数据、SOPHIA 闭环优化框架与 FM-IDM 动作转化模块的有机结合,让 AI 首次实现 “感知世界 - 想象未来 - 反思优化 - 操控物理” 的完整闭环。
随着技术的进一步迭代,未来的 AI 将具备更强的环境适应能力与自主决策能力,在工业生产、家庭服务、科研探索等领域发挥更大价值。
----- END -----
![]()
wisemodel相关:
系列模型:
关于wisemodel更多
1
欢迎持续关注和支持
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。
2
欢迎加盟wisemodel开源社区
始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn
3
欢迎投稿优质内容
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。
4
关于wisemodel开源社区
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
向上滑动查看
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.