网易首页 > 网易号 > 正文 申请入驻

物理世界模型:AGI物理智能进阶的创新范式|势乘研究

0
分享至

最近越来越多的人问世界模型是什么。随着世界模型(WMs)在AI研究和应用领域的发展,与视觉语言动作(VLA)模型等其他主流方法有何不同。在这篇文章中,将分解WMs是什么,是什么让它们变得强大,以及为什么可能是物理智能和AGI的基础支柱。

本报告由势乘资本和光锥智能联合发布

什么是物理世界模型?

世界模型是一种学习如何模拟现实世界动态的的内部表征。与静态感知模型不同,世界模型是生成和预测的——可以模拟世界如何随着时间的推移而演变,允许智能Agent在实际执行之前计划行动和推理。

一些世界前沿的物理世界模型研究组织有:

  • Meta FAIR:主张基于自监督学习的预测架构。
  • Stanford’s World Labs (Fei-Fei Li):专注于空间智能和3D场景理解。
  • NVIDIA Cosmos:构建大规模生成模型来模拟环境,如Cosmos Predict,Transfer和Reason1。
  • ZhiCheng AI World Model:专注于机器人的物理智能。

这些模型在实现上有所不同,但有一个共同的目标:为Agent提供对其环境的内化理解。

⚙️物理世界模型的核心组成和机制

多模态输入处理:它们接受视频、图像、传感器数据流(例如LiDAR、IMU),有时还包括语言,来创建统一的特征表示。

时间预测:像 “Dreamer” 或 “Cosmos Predict”这样的模型,学习从历史数据中预测未来的框架或状态。

潜在特征学习:WMs不是在原始输入上操作,而是使用通过编码器和分词器学习的抽象状态空间。

自我监督学习:训练通常通过下一步预测、对比学习或重建等目标来完成。

模拟和推理:经过训练后,WMs可以模拟各种假设场景,这对规划、安全和适应至关重要。

世界模型是如何工作的?又适用于哪里?

世界模型的运行一般分为三个阶段:

  • 数据摄取:收集多模态感官数据并将其标记为紧凑的特征表示。
  • 世界学习:模型学习从当前状态和动作到未来状态的映射(动态环境)。
  • 模拟与规划:推理包括模拟未来结果和选择最佳行动。

这些步骤允许世界模型提供以下AI应用:

  • 自动驾驶(如预测路况)
  • 机器人(如操作、移动)
  • 合成数据生成(如用于训练其他AI模型)
  • 具身推理(如物理常识)

世界模型与视觉-语言-动作(VLA)模型有何不同?

VLA模型,如RT-2或OpenVLA,擅长使用大规模的视觉和语言数据来解释指令和响应动作。然而,它们通常不会建立世界的内部模型。

具身智能流派技术概况及其差异

现在具身智能跨越了多个技术流。每个都有不同的理念和工程的权衡:

✅ 经典自动化控制

  • 基于微积分线性和非线性的物理优化
  • 精度高,但适应性差

深度强化学习(DRL)

  • 通过试验和错误学会策略
  • 功能强大但数据效率低下

物理世界模型

  • 通过内部模拟进行预测规划
  • 最理想的向前推理和环境适应

VLA模型

  • 语言和感知驱动的Agent控制
  • 高度泛化性,但物理上理解很肤浅

‍ 遥操+模仿学习(LfD)

  • 从人类演示中引导模型
  • 数据需求低,但可扩展性较差

多模态传感器融合&空间智能

  • 结合视觉、触觉和本体感觉
  • 丰富但计算量大

这些方法并不相互排斥。例如机器人可以使用物理世界模型进行规划,使用VLA跟随指示,使用传感器融合进行实时感知。

最终的想法

世界模型不仅仅是另一种AI架构——它们代表了一种向内化理解、模拟和预测的范式转变。在未来,物理AI必须不断行动、适应和学习,世界模型为通用智能体提供了所需的大脑核心。虽然还不完美,但它们构成了智能物理交互的基础,标志着向嵌入式AGI迈出了重要的一步。

References

感谢智澄AI创始人胡鲁辉以及其他科学家们对本文的主要贡献。主要参考文献如下:

What Are World Models?(Luhui Hu)

https://pub.towardsai.net/what-are-world-models-41ff394ed871

Academic Foundations

1. Ha & Schmidhuber (2018). World Modelshttps://arxiv.org/abs/1803.10122

The original paper that introduced the concept of using generative models (VAE + RNN + controller) to simulate environments for agents.

2. Hafner et al. (2019–2023). Dreamer, DreamerV2, DreamerV3

https://arxiv.org/abs/1912.01603

https://arxiv.org/abs/2005.12114

https://arxiv.org/abs/2301.04104

Progressive work from DeepMind on learning latent world models for reinforcement learning through imagination.

Industry Research

3. Meta AI (Yann LeCun). A Path Towards Autonomous Machine Intelligence

https://openreview.net/pdf?id=BZ5a1r-kVsf

A visionary blueprint for self-supervised, predictive world models as the core of intelligent agents.

4. NVIDIA Technical Blog. Scale Synthetic Data and Physical AI Reasoning with NVIDIA Cosmos World Models

https://developer.nvidia.com/blog/scale-synthetic-data-and-physical-ai-reasoning-with-nvidia-cosmos-world-foundation-models/

Overview of the NVIDIA Cosmos WFM platform for physics-aware simulation and AI reasoning.

5. Fei-Fei Li’s World Labs — Coverage from:

Reuters:https://www.reuters.com/technology/artificial-intelligence/ai-godmother-fei-fei-li-raises-230-million-launch-ai-startup-2024-09-13/

Axios:https://www.axios.com/2024/12/03/fei-fei-li-startup-photos-3d-worlds

Focused on spatial intelligence and grounding perception in 3D environments.

Related AI Architectures

6. Google DeepMind (RT-2). RT-2: Vision-Language-Action Models

https://robotics-transformer2.github.io

Demonstrates how large VLA models operate and how they differ from simulation-centric world models.

7. OpenVLA: An Open Vision-Language-Action Benchmark

https://openvla.org

Useful for contrasting policy-driven multimodal AI with simulation-centric approaches.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴基斯坦出局?伊朗战术变了,特朗普拒绝停火,美国最大敌人浮现

巴基斯坦出局?伊朗战术变了,特朗普拒绝停火,美国最大敌人浮现

小兰聊历史
2026-05-01 00:15:34
山东省立医院有多厉害?十大王牌科室揭晓,每一个都有过硬口碑

山东省立医院有多厉害?十大王牌科室揭晓,每一个都有过硬口碑

白宸侃片
2026-04-30 17:54:15
14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

阿讯说天下
2026-04-18 11:52:55
当你老了有存款,一定要记得,优先买下这三样东西

当你老了有存款,一定要记得,优先买下这三样东西

蝉吟槐蕊
2026-05-01 02:40:24
再写赵心童神话?22岁吴宜泽领跑世锦赛夺冠赔率榜 墨菲紧随其后

再写赵心童神话?22岁吴宜泽领跑世锦赛夺冠赔率榜 墨菲紧随其后

风过乡
2026-04-30 12:03:55
罗马诺:巴萨坚持要求曼联重新谈拉什福德转会费,也愿再租借一年

罗马诺:巴萨坚持要求曼联重新谈拉什福德转会费,也愿再租借一年

砚底沉香
2026-05-01 02:11:28
金银直拉,原油跳水!美以伊,最新消息!特朗普考虑重启对伊朗大规模军事行动……

金银直拉,原油跳水!美以伊,最新消息!特朗普考虑重启对伊朗大规模军事行动……

证券时报e公司
2026-04-30 19:49:49
出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

霹雳炮
2026-03-14 22:49:47
1985年硬汉陈永贵临终为何连声认错?邓小平紧急派人传去的这句真实定论太扎心!

1985年硬汉陈永贵临终为何连声认错?邓小平紧急派人传去的这句真实定论太扎心!

历史回忆室
2026-04-30 17:26:14
同一天两位体坛冠军翻车!一个违纪被查,一个绯闻缠身太唏嘘

同一天两位体坛冠军翻车!一个违纪被查,一个绯闻缠身太唏嘘

小娱乐悠悠
2026-04-30 09:52:27
在北京存款超过100万的家庭有多少?晒一下北漂十几年的真实存款

在北京存款超过100万的家庭有多少?晒一下北漂十几年的真实存款

知籽小屋
2026-04-28 13:33:09
奥运金牌不是免死金牌!羽协张军被查更多细节曝光,乒乓球干净吗

奥运金牌不是免死金牌!羽协张军被查更多细节曝光,乒乓球干净吗

曹说体育
2026-04-30 15:43:18
有野心!杨子27岁新欢生子,保姆抱婴儿篮被拍,和黄圣依还是好友

有野心!杨子27岁新欢生子,保姆抱婴儿篮被拍,和黄圣依还是好友

做一个合格的吃瓜群众
2026-04-29 22:16:24
网红白冰成名史:曾是发廊小哥,一条广告66万,奢侈到无法想象

网红白冰成名史:曾是发廊小哥,一条广告66万,奢侈到无法想象

叶公子
2026-04-29 14:19:53
晚年有钱没病“五个生肖”,特别是最后一个,看你家有吗?了解下

晚年有钱没病“五个生肖”,特别是最后一个,看你家有吗?了解下

小谈食刻美食
2026-04-29 07:42:51
无锡地铁集团总裁发生变动

无锡地铁集团总裁发生变动

轨道世界
2026-04-30 22:39:34
果不其然!张雪峰公司内斗开始了!最大赢家是付幸武亮只是打工仔

果不其然!张雪峰公司内斗开始了!最大赢家是付幸武亮只是打工仔

小娱乐悠悠
2026-04-30 09:13:35
澳外长黄英贤访华宣布:中国同意协助澳洲解决航空燃料供应

澳外长黄英贤访华宣布:中国同意协助澳洲解决航空燃料供应

澳洲红领巾
2026-04-30 15:33:17
进京履新后,他们升任正部

进京履新后,他们升任正部

新浪财经
2026-04-30 11:28:56
清纯女偶像接演「成人19禁漫改剧」!大尺度露骨剧情曝光

清纯女偶像接演「成人19禁漫改剧」!大尺度露骨剧情曝光

TVB的四小花
2026-04-30 10:58:44
2026-05-01 05:19:00
光锥智能 incentive-icons
光锥智能
来这里,看千行百业的数字化、智能化。
968文章数 139关注度
往期回顾 全部

科技要闻

9000亿美元估值,Anthropic即将反超OpenAI

头条要闻

英国国王给特朗普送了口钟 还贴脸开大"有需要尽管敲"

头条要闻

英国国王给特朗普送了口钟 还贴脸开大"有需要尽管敲"

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

易会满被“双开”!

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

家居
数码
本地
手机
健康

家居要闻

灵动实用 生活艺术场

数码要闻

机械革命耀世18 Pro游戏本270HX Plus + 5070 12GB,10499元

本地新闻

用青花瓷的方式,打开西溪湿地

手机要闻

华硕创X 2026骁龙X2 Elite二合一创作本上架,12999元

干细胞治烧烫伤面临这些“瓶颈”

无障碍浏览 进入关怀版