网易首页 > 网易号 > 正文 申请入驻

世界模型到底在建模什么?

0
分享至

2025到2026年,具身智能圈子里最热的词是“世界模型”,也是语义最混乱的词。这种混乱不是学术上的分歧,而是整个行业在概念都没对齐的情况下,已经开始大规模投入算力、资金和研究资源。



世界模型到底在建模什么?这个问题目前没有统一答案。 有人在建模视觉序列的统计规律,有人在建模抽象特征空间的物理常识,有人在建模动作和状态的联合分布。

2026年6月,李飞飞把世界模型拆成三类:渲染器(生成画面)、仿真器(模拟物理状态)、规划器(输出动作)。这个拆分揭示了一个关键问题,不同技术路线在解决完全不同的问题,但可以包装成同一个故事对外讲。

01.

三条路线各自在做什么?

Open AI的Sora是渲染器路线的代表。核心思路是:把几百亿小时的互联网视频作为训练数据,让模型通过逐帧预测像素来学习物理规律。问题在于,像素预测本质上是学习视觉序列的统计规律,而不是物理因果结构。



LeCun反复强调的现象确实存在:Sora生成的玻璃杯碰地不碎、人的手臂穿过椅背,这类“物理幻觉”反复出现。NVIDIA的Cosmos3用两千万小时视频做预训练,规模是Sora的数倍,但物理一致性问题依然没有根本解决。值得注意的是,Cosmos也开始向世界状态预测方向转,这说明纯渲染路线的局限已经被NVIDIA自己意识到了。



LeCun团队的V-JEPA系列走了不同方向:放弃像素重建,在抽象特征空间里学习物理常识。V-JEPA 2用百万小时视频做自监督预训练,只用62小时机器人数据微调就让机械臂实现了零样本抓取陌生物体。数据效率确实高,但代价是空间细节的丢失,抽象特征空间很难保留毫米级的精细操作所需的空间信息。



NVIDIA的DreamZero是动作驱动路线,140亿参数的视频扩散骨干联合预测未来状态和动作序列,零样本泛化比纯VLA模型高出2倍。工程难点在推理效率,7Hz的实时闭环控制在实验室里勉强可用,在机器人本体等边缘设备上还需要大幅优化。

RWTH亚琛和代尔夫特理工大学2026年3月的综述指出了一个核心矛盾:视觉保真度的提升和开环精度的改善,并不等于更安全的闭环行为。画面越来越像,不代表理解越来越深,Sora的画面质量在进步,但物理世界理解能力的进步速度远远跟不上。

02.

数据困局比技术路线更致命

技术路线的差异是表象,数据问题才是更深层的死结。

世界模型面临一个三角困局:真实交互数据稀缺且昂贵,仿真数据有sim-to-real域差距,合成数据会导致模型崩溃。Nature发表的“模型崩溃”研究给出了明确结论:用模型生成的合成数据训练下一代模型,性能会不可逆地退化。



具身智能场景的数据问题有其特殊性。全球真实工作场景运行的机器人数量仍然很少,这是一个难以快速扩展的数据基础。机器人预训练需要的第一人称视角操作视频,这类数据在互联网上几乎爬不到。泛化性是另一个难题:在100个家庭采集的数据能否泛化到10000个家庭?如果不能,采集规模需要达到什么量级?这些问题目前没有明确答案,只能靠大量投入试错。



智元机器人2026年6月开源的AGIBOT WORLD2026数据集有个值得注意的细节:GE 2.0在训练中主动利用了大量“失败数据”,抓取空手、物体滑落、动作偏差等非理想轨迹。这个思路指向一个根本问题:完美的仿真数据教不会机器人应对失败,而真实世界充满了失败。智元选择正视失败数据而不是只用成功案例训练,是在数据策略上的务实转变。

NVIDIA的“计算即数据”范式可以用11小时生成78万条轨迹,效率惊人,但这些仿真轨迹和真实物理世界的差距有多大,目前缺乏公开的系统性评估。数量不等于质量。

03.

长时序预测:架构层面的局限

长时序预测的误差累积问题至今没有实质突破。DeepMind的Genie 2号称可以生成长时间连贯的3D交互环境,但实际运行超过几分钟场景就开始漂移,体悬浮、重力方向偏转、物体凭空出现又消失。这个问题从2018年Ha和Schmidhuber提出世界模型经典架构至今,一直是核心痛点。



这不是算力问题,是架构的内在局限。对于需要长时间稳定运行的具身智能任务,比如一个机器人完成20分钟的家务流程,或者在工厂产线上持续作业,误差累积意味着模型预测会逐渐偏离真实物理状态,最终导致动作规划失效。目前的主流做法是用频繁的真实观测来校正预测偏差,但这又回到了对感知系统的依赖,世界模型的“预测未来”能力被大打折扣。

04.

参数规模不是关键

2026年5月CVPR的WorldArena评测出了一个让很多人意外的结果:智元的GE 2.0仅用20亿参数,以68.26分的综合得分在Track 1赛道力压谷歌、英伟达等14支顶尖团队拿了第一,而且没有针对赛题做任何特殊优化。20亿参数打赢140亿参数,七分之一的规模胜出。

在具身智能的具体场景里,仿真精度和规划效率比参数规模重要得多。参数堆量不是万能药,这件事在大语言模型领域已经被验证过了,在世界模型上会再次被验证。更小的模型意味着更低的推理延迟、更少的能耗、更容易的边缘部署,这些在实际应用中的价值,远超benchmark上几个点的提升。

05.

即便如此,市场仍在加速

技术路线有局限,数据困局无简单解,长时序预测有架构瓶颈,但这些并没有阻止行业的大规模投入。因为在具身智能这个赛道上,先发优势依然决定性。

世界模型创业公司真正的护城河有三样:

垂直场景的数据飞轮。 机器人有遥操作数据,工业装配有产线数据。这些数据天然具有排他性,互联网上爬不到。谁先在一个垂直场景里把数据闭环跑通,后来者的追赶难度就会指数级上升。数据飞轮一旦转起来,技术上的小幅领先会被数据优势放大成巨大的壁垒。



仿真到真实的域迁移工程能力。 这不是论文里刷榜的指标,而是真机部署后的实际成功率。谁能在sim-to-real gap上做出实质突破,谁就掌握了工业界最稀缺的能力。智元用“失败数据”的思路值得关注:不是追求更逼真的仿真,而是追求更真实的失败场景覆盖。这种务实的思路,比追求视觉保真度更接近工业落地的真实需求。



端侧部署的工程能力。 世界模型最终要在机器人本体上运行。20亿参数跑在边缘设备和140亿参数跑在云服务器,是完全不同的工程挑战。轻量化不是简单剪枝,而是从架构设计阶段就把边缘部署约束考虑进去。能把模型塞进功耗受限、算力有限的机器人本体,这本身就是护城河。

06.

评测标准:谁定义规则,谁就有话语权

还有一个被很多人忽略的点:评测标准。目前世界模型没有公认的benchmark,视频质量用PSNR和SSIM,物理一致性用人类评分,机器人操作成功率每家用不同任务集,论文里的数字互相不可比。

CVPR 2026上的WorldArena是一次有意义的尝试,但覆盖面和权威性还远不够。谁先定义出行业认可的评测标准,谁就掌握了话语权,这和当年ImageNet之于计算机视觉的意义类似。标准的制定权,本身就是一种护城河。

07.

突破会来自哪里?

各条技术路线的收敛时间,业内大致预计在2027年到2028年之间。李飞飞的判断是,渲染器、仿真器、规划器三者底层知识同源(几何、物理、动力学),终极形态是能灵活切换输出形式的统一世界基础模型。这个判断有其逻辑,但“知识同源”不等于“同一套架构能把所有事情做好”,大语言模型的演进已经教过我们这个道理。

2026年上半年的世界模型论文,争论越来越细,框架越来越像。这是技术成熟前的典型状态,也可能是重大突破前的平静期。突破更可能来自对基础问题的重新思考,比如“机器怎么理解物理世界”这个根问题,而不是在现有路线上的渐进优化。

这个人什么时候出现、会不会出现,现在还说不准。但可以确定的是,在那之前,数据飞轮、域迁移能力和端侧部署工程,依然是决定胜负的关键。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
冯小刚新片彻底扑街!袁立犀利发文不留情面:你的时代已经结束了

冯小刚新片彻底扑街!袁立犀利发文不留情面:你的时代已经结束了

白面书誏
2026-06-28 23:15:33
替董事长坐12年牢,出来后他转我600万,他女儿:我爸要我嫁给你

替董事长坐12年牢,出来后他转我600万,他女儿:我爸要我嫁给你

千秋文化
2026-06-27 19:44:16
终于弄明白了为什么开空调蚊子就不咬了——不是蚊子被冻着了,也不是蚊子不想咬,而是蚊子的“导航系统”失灵了

终于弄明白了为什么开空调蚊子就不咬了——不是蚊子被冻着了,也不是蚊子不想咬,而是蚊子的“导航系统”失灵了

二胡的岁月如歌
2026-06-27 15:11:11
库明加成为自由球员!老鹰拒绝执行2430万选项 国王骑士有意签他

库明加成为自由球员!老鹰拒绝执行2430万选项 国王骑士有意签他

罗说NBA
2026-06-30 05:30:56
韩红道歉!发文时已泣不成声,会退出公益事业,多位名人发声挽留

韩红道歉!发文时已泣不成声,会退出公益事业,多位名人发声挽留

青梅侃史啊
2026-06-29 14:25:49
吴建豪宣布再婚,圈外妻子正面照疑似曝光,长相甜美很漂亮

吴建豪宣布再婚,圈外妻子正面照疑似曝光,长相甜美很漂亮

素素娱乐
2026-06-29 15:26:38
基本上可以确定,只要伊朗轰炸美国本土,伊朗战争就会立刻结束

基本上可以确定,只要伊朗轰炸美国本土,伊朗战争就会立刻结束

揭秘历史的真相
2026-06-14 20:35:29
日本饮料之王:用汉字伪装身份,年收入超60亿,一度被误认是国货

日本饮料之王:用汉字伪装身份,年收入超60亿,一度被误认是国货

小兰聊历史
2026-06-29 12:13:29
男女的性压抑已经恐怖如斯了?

男女的性压抑已经恐怖如斯了?

灯锦年
2026-06-29 17:15:19
温网首轮大冷门!法网亚军赛点崴脚遭逆转,成首位出局种子选手

温网首轮大冷门!法网亚军赛点崴脚遭逆转,成首位出局种子选手

全景体育V
2026-06-29 21:10:26
2年3380万!正式签约!维金斯联手字母哥

2年3380万!正式签约!维金斯联手字母哥

篮球教学论坛
2026-06-30 02:11:12
白酒再次成为关注对象!多名院士发现:常喝白酒的人,有6个变化

白酒再次成为关注对象!多名院士发现:常喝白酒的人,有6个变化

任医生聊健康
2026-06-29 13:27:27
没有预告,卢卡申科突然访华,普京有心无力,白俄只有中国能救?

没有预告,卢卡申科突然访华,普京有心无力,白俄只有中国能救?

徐竦解说
2026-06-29 21:48:00
三伏将至,每天吃几颗,胜5只老母鸡!眼不花、精神足,人长寿!

三伏将至,每天吃几颗,胜5只老母鸡!眼不花、精神足,人长寿!

宝哥精彩赛事
2026-06-29 12:00:50
WTT美国大满贯: 0-2到11-5!王曼昱首局反败为胜,逆转15岁小将

WTT美国大满贯: 0-2到11-5!王曼昱首局反败为胜,逆转15岁小将

刘姚尧的文字城堡
2026-06-29 10:33:43
局势突变!伊朗,最新表态!美股三大期指集体拉升

局势突变!伊朗,最新表态!美股三大期指集体拉升

数据宝
2026-06-30 00:27:03
瞒不住了!台海都是假象,美国真正的恶仗,已经打到中国家门口

瞒不住了!台海都是假象,美国真正的恶仗,已经打到中国家门口

小樾说历史
2026-06-28 12:04:30
亚足联彻底慌了!世界杯全线崩盘,亚洲足球红利或将彻底终结

亚足联彻底慌了!世界杯全线崩盘,亚洲足球红利或将彻底终结

体育见习官
2026-06-29 07:27:04
连续4年一轮游!23岁郑钦文温网0-2出局:挥霍7个破发点 尴尬4连败

连续4年一轮游!23岁郑钦文温网0-2出局:挥霍7个破发点 尴尬4连败

风过乡
2026-06-30 04:43:01
Shams:维金斯3年6400万美元续约热火,第三年附带球员选项

Shams:维金斯3年6400万美元续约热火,第三年附带球员选项

懂球帝
2026-06-30 02:17:41
2026-06-30 05:39:00
机器人大讲堂 incentive-icons
机器人大讲堂
立德机器人平台,是一个集媒体品牌、智库咨询、投资孵化、引智招商为一体的机器人垂直领域服务平台
6757文章数 4592关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

巴西2-1逆转日本 卡塞米罗头槌马丁内利96分钟绝杀

头条要闻

巴西2-1逆转日本 卡塞米罗头槌马丁内利96分钟绝杀

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

万达广场批量易主 多位投资人正式入局

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

家居
本地
健康
数码
公开课

家居要闻

传奇筑 日常诗

本地新闻

贵州小城的新目标:举办“村超”世界杯!

狂吃“糯叽叽”小心肠梗阻!

数码要闻

小米澎湃OS六月迎来功能更新 超级小爱新增赛事服务

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版