谷歌在物理AI上的两大突破意味着什么？|模态|机器人|物理ai|知名企业

谷歌在物理AI上的两大突破意味着什么？

2026-05-21 14:27:48　来源: 物理AI大观

北京举报

分享至

5月20日凌晨，谷歌2026年I/O发布会上，CEO Sundar Pichai公布了谷歌在世界模型上的最新进展——Gemini Omni和Project Genie。

Gemini Omni被谷歌定义为一款能够实现“从任意输入到任意输出”的新一代多模态世界模型，它不再局限于生成逼真的视觉画面，而是让AI真正具备了理解重力、流体动力学、动能等基础物理定律的能力。开发者只需在一张白纸上手绘一个圆圈并搭配文字描述，Gemini Omni就能直接输出一段符合物理碰撞规则的特效视频。用户可以通过自然语言指令（如“把玻璃建筑替换为肥皂泡”）对视频进行对话式编辑，生成的肥皂泡会展现出真实的形变与交互效果。

这种对空间关系、时序协调以及物体运动逻辑的精准把控，解决了早期AI视频中常见的物体交互失真问题。首款模型Gemini Omni Flash已正式上线，并集成到Gemini应用、Google Flow和YouTube Shorts等平台。

除了基础物理规则的模拟，谷歌还展示了通用世界模型Project Genie与谷歌街景（Street View）服务的深度结合。‌

Project Genie 是谷歌研发的通用世界模型‌，核心能力是根据文本或图像输入生成具备物理规则、可交互的动态 3D 环境，不仅限于静态图像。

用户可在地图上选择美国境内任意地点（如金门大桥），指定风格（如“石器时代”“海洋世界”）并描述角色（如“科幻机械师”），系统即以真实街景为基底生成融合想象的互动 3D 场景。

这项技术为AI智能体或机器人提供了一个逼真的训练场，使其能在复杂的真实世界映射中学习导航、移动和互动，大幅降低了在现实世界中试错的成本与风险。

不过，该功能目前仍为‌实验性原型‌，仅支持美国地区，需通过街景图钉入口访问，暂未开放全球或 API 接入。

谷歌这两大世界模型产品的发布，倒逼国内以文本、图像为主的大模型企业要在AIGC、具身智能或数字孪生领域需突破单一模态局限，向统一多模态推理与世界建模演进，否则会存在代差。

当然，中国已有一批物理AI赛道的企业在世界模型上做了大量的探索。

上市公司商汤科技发布的绝影开悟世界模型，聚焦‌智能驾驶2.0到3.0的转型‌，支持多视角（最高11路）、分钟级、1080p 高保真可控仿真，用于智驾数据生成与强化学习。

物理AI第一股、占国内高阶智驾仿真市场53.5%份额的五一视界2025年底发布了全球首款“物理直觉世界模型”51World Model，将大规模应用于智能驾驶、具身机器人、数字工厂等领域。

清华背景的生数科技为“世界-动作统一建模”（WAM）的代表，支持多机器人本体、长程任务（如插花+浇水）一镜到底执行，强调泛化性与实时闭环控制，已适配主流人形/机械臂硬件，估值超120亿元。

也是清华背景的极佳视界，其‌GigaWorld-1模型已实现在汽车、3C、仓储等工业场景落地，估值超100亿元。

当红辣子鸡追觅旗下的魔法原子发布了 ‌Magic-Mix 世界模型（含 WAM 与 Creator 数据引擎）‌，强调“在线理解+离线生成”解耦架构，兼顾推理效率与数据闭环，配套 MagicBot X1 人形机器人实现全栈验证。

另一个创新企业流形空间的WorldScape 系列以 MoE 架构实现高空间智能密度与低推理成本，强调物理规律建模能力，在机械臂操作等长程具身任务中表现优异。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.