5月20日凌晨,谷歌2026年I/O发布会上,CEO Sundar Pichai公布了谷歌在世界模型上的最新进展——Gemini Omni和Project Genie。
![]()
Gemini Omni被谷歌定义为一款能够实现“从任意输入到任意输出”的新一代多模态世界模型,它不再局限于生成逼真的视觉画面,而是让AI真正具备了理解重力、流体动力学、动能等基础物理定律的能力。开发者只需在一张白纸上手绘一个圆圈并搭配文字描述,Gemini Omni就能直接输出一段符合物理碰撞规则的特效视频。用户可以通过自然语言指令(如“把玻璃建筑替换为肥皂泡”)对视频进行对话式编辑,生成的肥皂泡会展现出真实的形变与交互效果。
![]()
这种对空间关系、时序协调以及物体运动逻辑的精准把控,解决了早期AI视频中常见的物体交互失真问题。首款模型Gemini Omni Flash已正式上线,并集成到Gemini应用、Google Flow和YouTube Shorts等平台。
除了基础物理规则的模拟,谷歌还展示了通用世界模型Project Genie与谷歌街景(Street View)服务的深度结合。
Project Genie 是谷歌研发的通用世界模型,核心能力是根据文本或图像输入生成具备物理规则、可交互的动态 3D 环境,不仅限于静态图像。
![]()
用户可在地图上选择美国境内任意地点(如金门大桥),指定风格(如“石器时代”“海洋世界”)并描述角色(如“科幻机械师”),系统即以真实街景为基底生成融合想象的互动 3D 场景。
这项技术为AI智能体或机器人提供了一个逼真的训练场,使其能在复杂的真实世界映射中学习导航、移动和互动,大幅降低了在现实世界中试错的成本与风险。
不过,该功能目前仍为实验性原型,仅支持美国地区,需通过街景图钉入口访问,暂未开放全球或 API 接入。
谷歌这两大世界模型产品的发布,倒逼国内以文本、图像为主的大模型企业要在AIGC、具身智能或数字孪生领域需突破单一模态局限,向统一多模态推理与世界建模演进,否则会存在代差。
当然,中国已有一批物理AI赛道的企业在世界模型上做了大量的探索。
上市公司商汤科技发布的绝影开悟世界模型,聚焦智能驾驶2.0到3.0的转型,支持多视角(最高11路)、分钟级、1080p 高保真可控仿真,用于智驾数据生成与强化学习。
![]()
物理AI第一股、占国内高阶智驾仿真市场53.5%份额的五一视界2025年底发布了全球首款“物理直觉世界模型”51World Model,将大规模应用于智能驾驶、具身机器人、数字工厂等领域。
清华背景的生数科技为“世界-动作统一建模”(WAM)的代表,支持多机器人本体、长程任务(如插花+浇水)一镜到底执行,强调泛化性与实时闭环控制,已适配主流人形/机械臂硬件,估值超120亿元。
也是清华背景的极佳视界,其GigaWorld-1模型已实现在汽车、3C、仓储等工业场景落地,估值超100亿元。
当红辣子鸡追觅旗下的魔法原子发布了 Magic-Mix 世界模型(含 WAM 与 Creator 数据引擎),强调“在线理解+离线生成”解耦架构,兼顾推理效率与数据闭环,配套 MagicBot X1 人形机器人实现全栈验证。
另一个创新企业流形空间的WorldScape 系列以 MoE 架构实现高空间智能密度与低推理成本,强调物理规律建模能力,在机械臂操作等长程具身任务中表现优异。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.