网易首页 > 网易号 > 正文 申请入驻

世界模型元年启示录:动机、乱战与暗礁

0
分享至



出品 | 智械岛

作者 | 霍如筠(北京)

4月16日,阿里巴巴发布了开放式世界模型Happy Oyster,腾讯开源了3D世界模型HY-World 2.0。

同一天,两家中国互联网巨头宣示了自己在世界模型赛道上的存在感。

此前不到一个月,李飞飞的World Labs刚完成10亿美元融资,Yann LeCun的AMI Labs更是以10.3亿美元的种子轮震惊硅谷。

资本、巨头、创业者蜂拥而入,一个响亮的口号迅速传遍行业:世界模型是大语言模型之后最重要的赛道。

但如果你真的去问这些玩家“世界模型到底是什么”,很可能会得到一堆彼此矛盾的回答。

有人说是“可交互的3D世界”,有人说是“理解物理规律的因果模型”,有人说是“机器人训练的数字仿真器”,还有人干脆说“就是更高级的视频生成”。

这不是学术讨论的分歧,而是整个赛道正在经历的认知混乱。

这篇文章试图理清这场混乱。我们会从三个层层递进的问题入手:为什么所有大厂突然都在押注世界模型?他们的产品到底在做什么,哪些是实、哪些是虚?以及,那些被光环掩盖的困境和模糊地带,究竟有多深?

一、为什么突然All in世界模型?

要理解世界模型为何突然爆火,得先回到大语言模型的一个尴尬事实。

过去两年,ChatGPT们展示了惊人的语言能力,也暴露了一个致命短板:它们不懂物理世界。

你问一个LLM“把杯子从桌子边缘推下去会怎样”,它能回答“杯子会掉到地上”,却并不能真正理解重力、加速度、碰撞,它只是从训练数据中记住了类似的句子。

2026年初的一项研究指出,幻觉不是数据问题,不是训练问题,而是LLM架构的内在缺陷。

这个缺陷在纯文本任务中或许可以忍受,但当AI要进入真实世界:操控机器人、驾驶汽车、在工厂里作业,它就变成了一个无法绕过的坎,你不能让一个自动驾驶模型“大概正确”地判断前方障碍物,也不能让一个工业机器人“差不多”地预测零件运动轨迹。

于是,一个更根本的需求浮出水面:我们需要一个能理解物理世界因果律的AI。

它不只要能说,还要能做;不只要看见,还要能预判。这就是世界模型被推到聚光灯下的根本原因。

大语言模型改变了人和信息的关系,而世界模型要改变的,是人和现实的关系。

过去两年AI的商业化主要停留在信息处理,写文案、做翻译、生成代码,但下一波增长引擎显然在物理世界:具身智能、自动驾驶、智能制造。

这些场景的共同要求是:AI必须理解空间、预测动态、规划动作。

所以,大厂押注世界模型,本质上是在争夺“后LLM时代”的技术制高点。谁先让AI真正理解物理世界,谁就能在下一轮产业周期中占据主导。

国内外玩家的打法截然不同。

美国那边,DeepMind、World Labs、AMI Labs更像是在做基础科学。

他们关心的是如何让AI拥有像人类一样的物理直觉和因果推理能力,商业化是远期目标。Yann LeCun自己都承认,AMI的产品可能要几年后才能看到。

中国则是另一番景象。阿里和腾讯几乎在发布模型的同时就绑定了商业场景:Happy Oyster瞄准影视制作和游戏开发的付费用户,HY-World 2.0直接输出可导入Unity/UE的3D资产,做起了AI造世界的生意。

还有Sand.ai的VidMuse,围绕音乐生成视频这个细分场景,上线几个月就做到了千万美元级别的年收入。

中国团队的逻辑很务实:世界模型首先得是一个能赚钱的产品。

这两种路线没有高下之分,但决定了各自的节奏和风险。美国团队敢于押注十年后的突破,中国团队则必须在一年内看到回报。

问题是,当所有人都挤在同一个热词下喊口号时,局外人很难分清谁在做什么。

二、关于技术标准的拷问

花时间看完各家产品的介绍,你很可能会陷入更大的困惑。因为每个世界模型长得都不一样,它们的底层逻辑甚至彼此矛盾。

先来看最反直觉的一派。Yann LeCun的AMI Labs走了一条很少有人敢跟的路,他们不认为AI需要生成逼真的画面。

LeCun的JEPA架构刻意丢弃像素细节,只在抽象的隐空间里做预测。最新发布的LeWorldModel只有1500万参数,单GPU几小时就能训练完,但规划速度比传统方法快了48倍。

缺点是,它的输出人类看不懂,你不能“看到”它预测的未来,只能相信它算对了。

这是一个纯粹的学术路线,离普通用户很远,但LeCun赌的是:真正的智能不需要模拟每一片树叶的飘落,只需要理解“风会吹落树叶”这个因果。

另一条路来自李飞飞的World Labs。李飞飞相信,智能必须建立在三维空间的显式理解之上。她的Marble模型能从一张照片或一段文字生成一个可编辑、可导航的3D世界,用户可以在里面自由移动视角。

World Labs还开源了渲染引擎Spark 2.0,让普通浏览器都能流畅加载上亿个3D点。

一个坦诚的评价是:Marble擅长重建空间的样子,但对空间中会发生什么的理解还比较薄弱。

你可以走进它生成的房间,但你推不动里面的椅子,也打不翻桌上的杯子。它是一个静态世界的复刻者,而不是动态物理的模拟器。

最热闹的阵营当属生成派。谷歌的Genie 3、阿里的Happy Oyster、腾讯的HY-World 2.0都属于这一类。

他们的逻辑是:只要生成的画面足够逼真、交互足够流畅,物理规律自然会被学出来。

阿里在Happy Oyster里做了一个很有意思的功能叫导演模式,用户可以在视频播放的过程中随时输入文字指令,改变剧情走向、切换镜头角度。腾讯更务实,直接输出可二次编辑的3D资产,让游戏开发者可以导入Unity或UE引擎里直接用。

但这类产品有一个共同的软肋:长时序一致性和物理准确性仍然不稳定。

Genie 3的演示很惊艳,但几分钟后画面就开始走样。阿里的漫游模式目前只能支持1分钟的连续位移,超过这个时间会发生什么?官方没说。

腾讯的3D资产在单一场景下看起来不错,但它的优势主要体现在场景完整度和对输入图片的遵循程度,这些都是“看起来像”的指标,而不是“物理上对”的指标。

最后还有一个特殊的玩家:英伟达。Cosmos平台不生产世界模型,它生产“生产世界模型的工具”。

数据处理管线、视频分词器、预训练基础模型,全部免费开放下载。黄仁勋的算盘很清楚:无论哪条路线最终胜出,训练和推理都需要英伟达的GPU。

这是最聪明的生意,不赌方向,只赌算力。

那么,这些世界模型哪些是名副其实的?一个关键的技术标准是:真正的世界模型必须是“动作条件化”的,也就是说,输入一个动作,模型要能输出世界状态的变化。

你用键盘按“W”,画面里的视角应该向前移动;你给机器人一个抓取指令,模型应该预测物体的位置变化。

按照这个标准,李飞飞的Marble就不太合格,用户只能看,不能做。它更像一个3D重建工具,而不是世界模拟器。

谷歌的Genie 3和阿里的Happy Oyster虽然支持交互,但物理准确性存疑。腾讯的HY-World 2.0输出的是静态资产,本身就不涉及动态预测。

换句话说,目前市场上几乎没有一家达到了“完美物理世界模拟器”的标准。每家都在自己的能力范围内,选择了一个可展示、可商业化的切入点。

这本身没有错,错的是大家都在用“世界模型”这个模糊的大词来包装自己,让外界误以为他们已经解决了所有问题。

三、那些被刻意回避的模糊地带

只读各家公司的新闻稿,会觉得世界模型已经进入了规模化落地的前夜,但一些被忽略的细节拼出了一幅截然不同的图景。

数据问题首当其冲。训练一个真正的世界模型,需要海量的“观察、动作、结果”三元组,但现实中没有这样的现成数据集。

有人用游戏数据,动作标签完美,但游戏里的物理是引擎模拟的,不是真实物理。

有人用人类第一人称视频,最接近真实世界,但视频里没有动作标签,而且人的头部运动和手部动作纠缠在一起,模型根本分不清是谁在动。

还有人用真实机器人遥操作数据,保真度最高,但采集一小时数据可能要花费数万美元,根本跑不起来规模。

这意味着每个世界模型都有天生的“能力边界”。

评估真空是另一个麻烦。你打开任何一家世界模型公司的官网,几乎都能看到“登顶全球权威评测榜第一”的标语。

问题是,这些评测榜单本身就不成熟。有的侧重视觉逼真度,有的侧重物理准确性,有的侧重任务完成率。一个在视觉榜单上拿第一的模型,可能在物理榜单上垫底。

这种标准的不统一,让各家可以各说各话。普通人根本搞不清这到底是同一个榜单的不同类别,还是营销话术的巧妙编排。

还有一个被刻意回避的“不可能三角”。

世界模型面临三个相互制约的指标:空间尺度、视觉保真度、实时交互性。

你不可能同时做到“世界很大、画面很清晰、交互很流畅”。李飞飞的Marble就是最好的例子:1.1版本画质好但空间范围有限,1.1-Plus版本能生成大场景但画质发糊。

昆仑万维的Matrix-Game 3.0能做到720P下40FPS的实时生成,但演示场景的风格和复杂度都很有限。

几乎没有产品会主动承认自己的短板,它们更倾向于展示最优工况下的演示视频,而把极限条件下的失败藏起来。这种选择性展示正在制造一个危险的泡沫。

最后,资本的狂欢也带来了新的投机风险。

一个值得注意的现象是,资本从追捧“大厂老兵”转向押注顶尖高校的年轻学者。逆矩阵科技的两位创始人,一个98年、一个04年,来自北大,首轮融资超千万美元。

他们的技术路线是“强化学习+世界模型”,目前只有论文,没有产品。这不是说年轻人不行,而是说在范式混沌期,资本愿意为“定义下一代技术”的可能性支付极高的溢价。

但大多数这样的实验室项目,最终无法跨越“论文→产品”的鸿沟。Yann LeCun这样的图灵奖得主都承认商业化要等几年,更何况是刚毕业的博士生?

四、结语

世界模型的目标,是让AI能够预测甚至干预物理世界。那么,如果AI的预测错了,谁来承担责任?

设想一个场景:一辆自动驾驶汽车的世界模型在仿真中“想象”出一个不存在的障碍物,导致车辆紧急刹车,被后车追尾。

这个锅应该甩给算法工程师,还是仿真数据的提供方?

再设想:一个工业机器人的世界模型错误预测了零件的运动轨迹,撞坏了整条生产线。保险公司的理赔标准是什么?

更极端的场景:有人用世界模型生成了一个逼真的虚假3D灾难视频,在社交媒体上引发恐慌。平台有没有审核义务?法律如何界定这种“虚拟与现实混淆”的伤害?

这些问题,目前没有任何一家公司、任何一个国家给出了清晰的答案。世界模型的伦理框架和法律边界,远远落后于技术的发展速度。

当资本和媒体聚焦于“谁能造出最逼真的虚拟世界”时,一个更根本的问题被搁置了:我们真的准备好了吗?

这或许才是世界模型赛道最被低估的变量。不是算力,不是数据,不是算法,而是责任。



智械岛版权所有,未经授权,禁止转载

联系邮箱:Cogtopia@163.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
周恩来想调兵却调不动?毛主席当年定下的规矩,让他晚年说出这番话

周恩来想调兵却调不动?毛主席当年定下的规矩,让他晚年说出这番话

文史明鉴
2026-03-23 16:47:14
穷能让一个女人卑微到什么地步?网友:10块钱让她打破了底线

穷能让一个女人卑微到什么地步?网友:10块钱让她打破了底线

另子维爱读史
2026-04-16 20:13:20
负债百万、装疯卖傻、流浪街头,星光大道的草根歌手现状太落魄

负债百万、装疯卖傻、流浪街头,星光大道的草根歌手现状太落魄

乐天闲聊
2026-04-17 02:30:36
智己LS8上市 增程动力 纯电续航430公里 权益价24.98万起

智己LS8上市 增程动力 纯电续航430公里 权益价24.98万起

刘哥谈体育
2026-04-17 02:37:21
英国、日本、加拿大、巴西、瑞士、约旦、澳大利亚、哥伦比亚、印度尼西亚、塞拉利昂,发表联合声明

英国、日本、加拿大、巴西、瑞士、约旦、澳大利亚、哥伦比亚、印度尼西亚、塞拉利昂,发表联合声明

新京报政事儿
2026-04-15 11:41:04
美投票结果47-52,特朗普态度转变,希拉里评美弱势

美投票结果47-52,特朗普态度转变,希拉里评美弱势

猪小艳吖
2026-04-17 00:36:57
当年咄咄逼人,如今满是遗憾!头部男主播深夜道歉!后悔切割退鱼前一姐!女方现身开通年钻!

当年咄咄逼人,如今满是遗憾!头部男主播深夜道歉!后悔切割退鱼前一姐!女方现身开通年钻!

新浪财经
2026-04-17 00:40:08
珠海楼市:反向换房的人越来越多

珠海楼市:反向换房的人越来越多

科学发掘
2026-04-16 18:20:08
马未都:香港宁愿要20万菲佣,也不接受内地保姆,原因很简单

马未都:香港宁愿要20万菲佣,也不接受内地保姆,原因很简单

谈史论天地
2026-02-19 12:44:34
卡马文加社媒被喷6万多条,老佛爷点名放弃,年薪1250万去英超?

卡马文加社媒被喷6万多条,老佛爷点名放弃,年薪1250万去英超?

夏侯看英超
2026-04-16 23:35:09
2026年4月17日十二星座运势

2026年4月17日十二星座运势

星座不求人
2026-04-16 21:12:09
南波明花(熟女的魅力挡不住)

南波明花(熟女的魅力挡不住)

蓝色海洋009
2026-04-05 10:36:35
拉克塞维奇正式加盟广东队,交易完成,全力冲击12冠

拉克塞维奇正式加盟广东队,交易完成,全力冲击12冠

逗比演员说体育
2026-04-15 22:28:37
测量319位中国女性外阴,他们发表全球首例研究

测量319位中国女性外阴,他们发表全球首例研究

医学界
2026-02-18 17:56:22
大连将来富得流油的区域,这3个地方呼声最高,

大连将来富得流油的区域,这3个地方呼声最高,

趣味萌宠的日常
2026-04-15 03:28:51
鸿蒙PC正式官宣4月20日发布,Windows迎来强劲对手

鸿蒙PC正式官宣4月20日发布,Windows迎来强劲对手

时尚的弄潮
2026-04-16 20:06:45
这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

蜉蝣说
2026-01-29 14:46:50
A股:收盘后,牛市传来2个重要信息,明天,周五或将这样走!

A股:收盘后,牛市传来2个重要信息,明天,周五或将这样走!

夜深爱杂谈
2026-04-16 16:39:41
甘肃天水一佳人好漂亮, 身高168cm,体重48kg 美的让人移不开眼

甘肃天水一佳人好漂亮, 身高168cm,体重48kg 美的让人移不开眼

乡野小珥
2026-04-08 00:48:57
她曾是上海著名主持,如今自爆仨月没洗澡,住进月租1.2万养老院

她曾是上海著名主持,如今自爆仨月没洗澡,住进月租1.2万养老院

揽星河的笔记
2026-04-01 18:33:03
2026-04-17 04:07:00
智械岛 incentive-icons
智械岛
在这里,人类和AI是岛民。
22文章数 4关注度
往期回顾 全部

游戏要闻

魔兽世界:时光服争议不断,DPS要求大锅饭,团长选择发放补贴

头条要闻

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

头条要闻

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

体育要闻

皇马拜仁踢出名局,但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

海尔与医美女王互撕 换血抗衰谁的生意?

科技要闻

赵明:智驾之战,看谁在大模型上更高效

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

健康
教育
房产
时尚
本地

干细胞抗衰4大误区,90%的人都中招

教育要闻

网传建邺区即将迎来大动作?多校学区要变?

房产要闻

人人人人!封关后首届消博会,挤爆了!

爆火的前额叶梗,让多少年轻人主动确诊「脑残」?

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

无障碍浏览 进入关怀版