网易首页 > 网易号 > 正文 申请入驻

当LeCun还在「画饼」,中国AI大牛领先李飞飞一步把世界模型开源了

0
分享至


新智元报道

编辑:艾伦 定慧

【新智元导读】具身智能如何突破「遥操作」的数据桎梏?商汤联合创始人王晓刚领衔的大晓机器人,交出颠覆性答卷——发布全球首个开源商业落地世界模型「开悟3.0」。

在通往AGI的狂欢中,图灵奖得主Yann LeCun却一直像个执着的「反叛者」。

他不止一次给大语言模型(LLM)泼冷水,直言靠预测下一个字符的概率游戏,永远无法触及真正的智能。

他眼中的未来,属于「世界模型」

直到李飞飞团队World Labs发布的Marble,当大家亲眼看到那个可以生成、互动且符合逻辑的3D虚拟世界时,LeCun描绘的图景才终于具象化了。

为什么实现AGI需要世界模型

为什么我们如此迫切地需要世界模型

因为基于大语言模型的AI在物理世界里,是个严重的「偏科生」。

现实数据的采集太苦、太慢了!

教会机器人认识一件红衣服,换成绿色的它可能就「懵」了;

更别提那些极端场景——我们总不能为了训练自动驾驶,真去撞毁一千辆车吧?(还有更多低概率的corner case)


于是,一场围绕物理世界的「数字重构」悄然打响,并分化出三大战场:


  • 游戏VR虚拟世界生成:以李飞飞的Marble为代表;
  • 自动驾驶:以特斯拉FSD为代表;
  • 具身智能:这是当下最火的方向,也是下个十年的AI的重心。

而第三个战场——具身智能,则是目前最难啃的「硬骨头」。

这个领域正撞上一堵看似不可逾越的「数据墙」。

长期以来,行业被迫依赖「遥操作」——让人类穿戴设备手把手教机器人。


这种方式不仅效率低、成本高,更致命的是泛化性极差

而在尝试用AI生成数据时,又会掉进另一个深坑:物理因果一致性

以往的模型生成的视频,往往只是「看起来像」。

但在机器人眼里,杯子凭空悬浮、水流违背重力,这些缺乏物理常识的画面不仅无用,甚至是毒药。

如何让AI生成的世界既逼真又符合物理定律?

这成了阻挡AGI降临现实的最大路障。

家刚刚成立的公司大晓机器人率先突围,交出了一份颠覆性的答卷——开悟世界模型3.0。

开悟3.0是一种全新范式的确立:多模态理解-生成-预测一体化

与传统大模型「看图说话」的浅层逻辑不同,开悟3.0拥有极强的物理感知力

它不仅能输入文字、图片、视频,更能直接输入力学信息3D轨迹

大晓的破局

我们有幸直接采访到了商汤联合创始人、执行董事,大晓机器人董事长王晓刚先生。

他毕业于中科大少年班,接着取得香港中文大学的硕士学位和MIT的计算机博士学位。


大晓机器人董事长 王晓刚

他的论文被引数已超过14万,是中国的AI学术领军人物之一。


能力越大,责任越大。目前,王晓刚同时担任香港中文大学教授、商汤科技联合创始人、执行董事,以及最新也是最重要的身份:大晓机器人董事长

具身智能不能依赖「遥操作」

在我们与王晓刚的深度对谈中,他抛出了一个令行业深思的观点:

如果具身智能继续依赖「遥操作」,那我们实际上是倒退回了AI1.0时代。

目前的机器人训练场上,最常见的画面是:一个穿戴着VR设备和动作捕捉服的人类,「附身」在机器人身上,笨拙地教它叠衣服、拿苹果。

这种被称为「遥操作」的方法,本质上还是「有多少人工,就有多少智能」。

它是线性的、昂贵的,且极度缺乏泛化能力。

王晓刚在采访中一针见血地指出:

你不可能为了教机器人做饭,让几百万人都穿上动捕服去炒菜。

大晓的核心竞争力,在于它率先试图终结这种「提线木偶」式的训练逻辑。

他们提出了一套名为「环境式数据采集」的新范式

大晓不强求「手把手」教机器人,而是让AI像人类婴儿一样,通过「观察」来学习。

利用第一视角(如AR眼镜)和第三视角(环境摄像头)采集的数据同时生成海量的运动轨迹,配合他们引以为傲的视觉算法,直接从人类的日常行为中提取「操作逻辑」。

这意味着,当AI看了一万遍人类厨师颠勺的各个角度视频后,它学到的不再只是像素的移动,而是手腕发力的角度、锅铲与锅底摩擦的力反馈,以及火焰与食材互动的物理节奏。


开悟3.0:世界第一梯队的世界模型

如果说环境式数采解决了「看」的问题,那么大晓即将发布的开悟3.0,则解决了「想」的问题。

在采访中,王晓刚并没有使用晦涩的术语堆砌,而是用一种近乎哲学的视角,拆解了这个被其称为「全球首个开源且商业落地的世界模型」背后的技术野心。

Puffin:当AI学会「与相机共思」

「传统的视频生成模型,其实是“盲”的。」王晓刚拿起桌上的矿泉水瓶,向我们演示,「AI看到这个瓶子,但它不知道自己是站着看、蹲着看,还是倒立着看。它只是在机械地预测下一帧的像素。」

这种视角的缺失,导致了一个致命问题:空间感的崩塌。

为了解决这个痛点,大晓联合南洋理工大学等机构,祭出了一项名为Puffin的杀手锏技术。

这项技术的核心理念极其浪漫——「与相机共思」


论文地址:https://arxiv.org/abs/2510.08673

Puffin把「相机的位姿」变成了一种语言。

在它的眼里,光圈、焦距、拍摄角度,和「一只猫」、「一个苹果」一样,都是可以被理解和生成的Token。

「当你给Puffin一张照片,它不仅能看懂照片里有什么,还能像福尔摩斯一样,反推出拍摄者当时站在哪里、相机是怎么运动的。」王晓刚解释道,「这意味着,机器人不再是被动地接收画面,而是能主动“脑补”出——如果我往左走一步,我会看到什么。」

这种能力让具身智能第一次拥有了「预演」的能力。

在真正伸出机械臂去抓那个易碎的玻璃杯之前,机器人已经在脑海中不仅模拟了抓取的动作,还模拟了摄像头在移动过程中看到的光影变化。

WorldMEM:打破「金鱼记忆」的魔咒

除了空间感,具身智能面临的另一大梦魇是「时间」。

现有的视频生成模型,往往有着严重的「健忘症」。

生成的视频超过几秒钟,画面就会开始崩坏:背景里的房子突然消失,或是人物的衣服颜色变来变去。

「想象一下,机器人要帮你整理房间。」王晓刚举了一个非常生活化的例子,「它把一本书放进书架的第二层,然后转身去收拾桌子。十分钟后,当它再转回来时,那本书必须还在那里,不能凭空消失,也不能变成一只猫。」

这看似简单的「物体恒常性」,对AI来说却是巨大的挑战。

因为随着时间的推移,计算量会呈指数级爆炸,AI只能被迫「遗忘」。

为了打破这个魔咒,大晓引入了WorldMEM架构,并采用了创新的线性注意力机制。


论文地址:https://arxiv.org/abs/2504.12369

这就像是给机器人装上了一个「无限容量」的记事本。

通过线性复杂度算法,大晓将计算成本从Transformer架构的指数级降到了线性级。

「我们不仅让机器人“记得住”,还让它知道“记什么”。」王晓刚补充道,这种基于任务导向的长时记忆,让开悟3.0能够生成长达数分钟、甚至更长时间的连贯交互视频。

这一能力被具象化为一组震撼的参数:支持生成1080P高清视频、支持长时交互、甚至可以在动/静态场景下实现精细可控的自由编辑

大晓生成的不仅仅是视频,而是一个可以被反复推演、试错的平行时空。

对标全球:除了造景,更需要交互

当被问及与李飞飞团队的World Labs有何不同时,王晓刚展现出了技术派特有的自信。

「World Labs发布的Marble,更多是在生成一个静态的、唯美的3D场景,像是一个精美的游戏建模。」王晓刚分析道,「但世界是动态的。你推一下椅子,椅子会倒;你打开冰箱,灯会亮。这种动态的物理交互,才是具身智能的刚需。」


开悟3.0采用了一种独特的「多模态理解-生成-预测」一体化架构。

它不仅把静态的物体(如桌子)和动态的物体(如行人)分离开来,还能直接输入力学信息。

「未来的机器人,要有直觉。」王晓刚说道,「它看到一个玻璃杯,不需要摸就知道它是滑的、易碎的;看到一个哑铃,就知道它是重的。这种物理常识的涌现,只能来自于对真实物理世界的深度模拟。」

在这个意义上,开悟3.0不仅是一个造梦机器,更是一个严谨的物理模拟器。

它让机器人在虚拟世界中经历了成千上万次的「摔打」,从而换来现实世界中的一次精准操作。

软硬一体的「阳谋」

为什么王晓刚要做「大晓机器人」这样一家独立的实体?

这背后藏着王晓刚对AI未来的终极判断:当互联网数据枯竭时,物理世界是唯一的矿藏。

纯粹的软件公司(如OpenAI)就像「缸中之脑」,虽然智商超群,但没有触觉,不懂轻重;

纯粹的硬件公司虽然四肢发达,但缺乏通用的认知能力,往往沦为昂贵的玩具。

大晓的成立,就是为了打破这层次元壁。

他们不仅仅是在做算法,更是在通过自研的「具身超级大脑模组」四足/通用机器人,去亲自丈量物理世界的摩擦力、重力和反作用力。

这种「软硬一体」并非简单的堆砌,而是一种深度的数据闭环


  • 环境数据引擎:负责「看」(采集);
  • 开悟3.0:负责「想」(模拟);
  • 机器人本体:负责「做」(验证)。

这一闭环一旦跑通,大晓就拥有了类似特斯拉那样的「飞轮效应」——机器人用得越多,物理常识越丰富;物理常识越丰富,机器人越好用。

正如王晓刚所言:

未来的机器人,不仅要有聪明的大脑,还要有有趣的灵魂

而这个灵魂,只能诞生于真实世界泥泞的道路上,而不是凉爽的机房里。

世界模型的「DeepSeek」

在通往具身智能终极形态的征途上,大晓选择了一条更为艰难、但也更为宽广的道路。

当全球科技巨头倾向于构筑技术壁垒时,大晓坚定地高举起开源的旗帜,做出了最具魄力的回应。

开悟3.0的开源,不仅仅是大晓技术自信的体现,更是一场构筑全球具身智能生态的「阳谋」。

正如DeepSeek在大语言模型领域掀起的开源风暴,大晓正立志成为世界模型领域的DeepSeek,打破闭源神话,将最顶尖的物理智能能力赋予全球开发者。

在这场物理世界的智慧革命中,大晓不仅是破局者,更是连接者,与全行业共创具身智能落地的辉煌未来。

大千世界,晓识万象

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李亚鹏找到医院新址,直播眼里泛泪,房东心态崩了,只求过个好年

李亚鹏找到医院新址,直播眼里泛泪,房东心态崩了,只求过个好年

子芫伴你成长
2026-01-25 08:10:03
“合法”的冻饿而死:为什么斩杀线只存在于美国?

“合法”的冻饿而死:为什么斩杀线只存在于美国?

匹夫来搞笑
2026-01-20 13:55:01
龚读纶:中共成都市委原副书记、四川省人民检察院原检察长

龚读纶:中共成都市委原副书记、四川省人民检察院原检察长

爱意随风起呀
2026-01-25 14:56:04
特朗普为何要夺取格陵兰岛?因重启“冰虫”计划!中国如何应对?

特朗普为何要夺取格陵兰岛?因重启“冰虫”计划!中国如何应对?

阿胡
2026-01-24 16:41:52
抖音商城羽绒服品牌销售额TOP10大排行

抖音商城羽绒服品牌销售额TOP10大排行

让生活充满温暖
2026-01-12 10:14:56
勇士比赛因枪击案延迟!一周两起,巴克利:库里是闹剧的最大输家

勇士比赛因枪击案延迟!一周两起,巴克利:库里是闹剧的最大输家

你的篮球频道
2026-01-25 07:56:43
前女篮队长宋晓波:退役后爱上风流主帅,共患难10年却被队友绿

前女篮队长宋晓波:退役后爱上风流主帅,共患难10年却被队友绿

胡一舸南游y
2026-01-05 13:21:24
欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

我是盲流
2026-01-22 11:37:44
一个可怕预感:将来50后60后不在了,独生子女彻底没有亲戚来往

一个可怕预感:将来50后60后不在了,独生子女彻底没有亲戚来往

夜深爱杂谈
2026-01-18 21:04:14
美国吃华人绝户财富已经成为一个公开的密码了!

美国吃华人绝户财富已经成为一个公开的密码了!

达文西看世界
2026-01-24 15:32:33
选择:一道关于暴露的伪命题

选择:一道关于暴露的伪命题

疾跑的小蜗牛
2026-01-24 21:20:44
回国后我才敢说:越南是我去过的所有国家中,最被低估的

回国后我才敢说:越南是我去过的所有国家中,最被低估的

阿纂看事
2025-12-29 09:43:52
2026年赤马红羊大劫难!人类遭遇有史以来最大危机!

2026年赤马红羊大劫难!人类遭遇有史以来最大危机!

水木然
2026-01-25 23:36:52
月子里婆婆逼我喝中药,我偷偷倒进门口花坛,半年后花坛被挖开

月子里婆婆逼我喝中药,我偷偷倒进门口花坛,半年后花坛被挖开

罪案洞察者
2026-01-21 11:42:40
北京日报一针见血指出预制菜的主要矛盾,相较于某日报,高下立判

北京日报一针见血指出预制菜的主要矛盾,相较于某日报,高下立判

一拙见
2026-01-24 16:51:53
拉莫斯认命了?没钱!河南队“卖血求生”,主帅宏伟蓝图终成泡影

拉莫斯认命了?没钱!河南队“卖血求生”,主帅宏伟蓝图终成泡影

野渡舟山人
2026-01-26 00:23:05
确认了!是知名演员张嘉益

确认了!是知名演员张嘉益

看尽落尘花q
2026-01-04 11:55:44
一夜3大惨败!辽宁输新疆19分,同曦惨败深圳23分,2夺冠热门输球

一夜3大惨败!辽宁输新疆19分,同曦惨败深圳23分,2夺冠热门输球

老吴说体育
2026-01-26 00:53:53
黄磊女儿黄多多有意进圈,脸是真的小,身材也是真的好,应该会爆

黄磊女儿黄多多有意进圈,脸是真的小,身材也是真的好,应该会爆

民间平哥
2026-01-18 21:36:22
以防你没有见过出生2天的长颈鹿

以防你没有见过出生2天的长颈鹿

今日日本
2026-01-24 08:32:11
2026-01-26 02:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14411文章数 66530关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

本地
数码
时尚
公开课
军事航空

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

数码要闻

AMD最强APU更新!锐龙AI Max+ 400详细规格曝光:5.2GHz CPU、3.0GHz GPU

看了鲁豫对章小蕙的采访,最大感触是这一点

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版