网易首页 > 网易号 > 正文 申请入驻

对话大晓机器人王晓刚:从数字世界到物理世界,探索机器人新范式

0
分享至



十一年前,王晓刚和汤晓鸥一起,让计算机视觉的识别率第一次超越了人类肉眼。那是 2014 年,人工智能 1.0 时代的开端,视觉技术从实验室走向了安防、手机和汽车。

十一年后,当所有人都还在为大语言模型狂欢,或者忙着在发布会上展示机器人“叠衣服”、“做咖啡”的 Demo 时,王晓刚嗅到了一丝危险的气息。互联网上的语料快被榨干了,纯粹的数字世界正在逼近天花板。


2025 年,具身智能被视为继大语言模型后的下一块人工智能高地,玩家们都在赌谁能先造出通用的“机器管家”。但现实是残酷的:大多数机器人依然只能在视频里闪烁高光,一旦走进真实的杂乱环境,就会因为缺乏常识而寸步难行。


图|大晓机器人核心科学家团队(来源:大晓机器人)

在 12 月 18 日举行的新品发布会前夕,我们与王晓刚进行了一场深度对话。此时此刻,具身智能赛道正处于一种“冰火两重天”的状态:一方面是资本的狂热追捧,另一方面是技术落地中遭遇的“数据荒”与“物理幻觉”瓶颈。

现有的机器人研究范式是否走错了方向?为什么说互联网语料快被“榨干”了?Sora 等生成式模型在物理世界中存在什么致命缺陷?以及,为什么要在这个时间点选择开源,并押注国产芯片生态?

在这个时间节点,大晓机器人不仅要发布一个新的世界模型,更要开源一套全新的生存法则。“现在的研究范式走错了,”王晓刚直言不讳。他抛出了一个判断:如果继续以“机器”为中心去训练大脑,具身智能将永远困在 Demo 里;唯有回到以“人”为中心,用世界模型重构物理规律,才能撞开 AI 3.0 的大门。


图|大晓机器人首席科学家陶大程(来源:大晓机器人)

以下是对话全文。

AI2.0 到 AI3.0:从数字世界到物理世界

“互联网语料快被榨干了,我们必须打破数字与物理的墙”

DeepTech:你现在的新身份是大晓机器人董事长。和之前在商汤负责研发、汽车、芯片等业务的角色相比,现在侧重的目标有什么不同?

王晓刚:其实我在商汤是从 2014 年开始的,当时和汤老师一起创立商汤。那时候我们是第一个做到人脸识别超越肉眼识别率的。在过去十年里,我在商汤负责过研发,也包括手机、互联网、汽车、芯片等很多不同的业务方向。今天我们面临的,是从人工智能 1.0 到 3.0 的跃迁。

所谓人工智能 1.0 时代,就是 2014 年那个时候。我们有了视觉技术,靠的是大量人工标注和小模型来实现人工智能的应用。到了 2.0 时代,也就是大模型,特别是大语言模型带来的通用化能力。因为人类历史上几千年积累了海量的语言文字数据,记录了人类的行为,大模型把这些沉淀的智能提取出来,赋能各个行业。

DeepTech:所谓的 3.0 是什么?

王晓刚:今天我们也看到,大语言模型依赖的这些互联网语料、数字世界的沉淀和积累,也到了一个瓶颈。未来两三年,这些语料的价值也会逐渐被“榨干”。

所以人们想打破数字世界和物理世界的限制,通过具身智能,通过跟物理世界的交互去产生新的智能,这就是我们说的人工智能 3.0 时代。

这里面一个很重要的任务,就是通过技术的创新,让商汤从原来的 2.0 时代进入 3.0 时代。

DeepTech:大晓机器人和商汤是什么关系?

王晓刚:大晓在商汤“1+X”战略布局。我们希望完成一个软硬结合的产业链垂直整合。之前商汤做得比较多的是软件和 ToB 的赋能角色,但在具身智能这个领域,我们有机会做软硬一体,把业务做得更大。

所以我这边的目标总结下来就是三点:第一,实现从 AI 2.0 到 3.0 的跨越;第二,把商汤历史上积累的经验沉淀带到物理世界;第三,完成软硬结合的垂直整合。

DeepTech:既然是生态企业,大晓和商汤具体怎么分工?哪些是共享的,哪些是大晓独立研发的?

王晓刚:这是一种非常紧密的合作关系。大晓提供具身智能的软件平台和硬件平台。但机器人要进入千行百业,需要了解行业的痛点和渠道,这正是商汤过往积累的优势。

商汤的业务团队可以基于大晓提供的软硬件具身平台,去开发具体的行业应用,解决具体的痛点。这能解决目前具身智能落地的一个大问题——很多公司演示的 Demo 很好,但对场景理解不深,难以落地。

举个例子,我们会推出一个“具身超级大脑模组 A1”。现在这个模组加装在四足机器人(机器狗)上,有了它,机器狗就能在室外不依赖高精度地图实现点到点的自主导航。

这个过程中,机器狗采集到的视频数据,会跟商汤后台的“方舟平台”打通。方舟平台上有超过 150 个 AI 相关的应用。通过这种结合,机器人的应用价值就被极大地放大了。

范式革命:以人为中心的具身智能

“以机器为中心的范式走不通,必须转向以人为中心”

DeepTech:2025 年是你所说的 AI 3.0 时代的一个关键节点吗?会有什么标志性事件?

王晓刚:我觉得 2025 年一个非常重要的代表性突破,或者说改变,是研究范式的改变。

大家对具身智能的期待源自于互联网时代的经验。在 2.0 时代,大模型让我们以为,只要有一个强大的大模型,机器人就能在物理世界里通用了。但在过去两年里,大家在执行过程中遇到了巨大的阻力。

DeepTech:阻力具体体现在哪里?

王晓刚:之前大家的做法是:先有了各种不同形态的机器人,结构各不相同。人们通过遥操作(Teleoperation)控制这些机器人去采集数据,然后把数据聚合在一起,试图训练一个通用的机器人大脑。

但大家发现,这种模式是不成功的。

首先,训练出来的所谓“大脑”很难用到不同的本体上,数据不能共享。其次,通过人操作机器采集数据的效率非常低,而且往往不是在真实的生产生活环境中采集的。

我们把这种旧的研究范式叫做 Machine-centric(以机器为中心)。它的核心逻辑是 VLA(Vision-Language-Action),通过视觉和语言指令,直接让机器去完成特定任务。这种范式训练出来的大脑不需要理解物理世界到底是什么样,只是为了完成任务。

DeepTech:2025 年的新范式是什么?

王晓刚:2025 年一个非常大的转变,就是从 Machine-centric 转变为 Human-centric(以人为中心)。

这个起点大概在 2025 年年初。当时我们团队在南洋理工大学的刘子纬教授带领下,提出了“环境式采集”。

所谓环境式采集,就是利用第一视角的眼镜、穿戴式设备,以及第三视角的传感器,在人真实的生产生活环境中去记录人的行为。通过这些记录,训练出一个“世界模型”。这个世界模型要理解人跟物理世界交互的规律是什么,因果关系是什么。

今年,刘子纬教授发布了 Egolife,记录了 300 小时人类行为时,像 Meta 的 Yann LeCun 团队就基于这个数据集完成了具身世界模型的训练。到了 8、9 月份,特斯拉和 Figure AI 也宣布转向视觉路线,通过摄像头记录人的行为来快速积累数据。

DeepTech:这种新范式带来的最直接的好处是什么?

王晓刚:数据量级的跃升。

在以机器为中心的时代,大家积累的数据大概是十万小时这个量级。要知道,特斯拉 FSD 做自动驾驶用到了大概 400 万小时的高质量数据。具身智能的场景复杂度更高,需要的数据更多。

通过以人为中心的研究范式,我们能积累的数据可以达到千万小时这个级别。这才是让具身智能具备通用化能力、拥有强大大脑的正确路径。

所以,2025 年发生了非常重要的变化,给具身智能的发展打开了一条新的思路。

解密:环境式采集与数据壁垒

“一天采集效率提升 100 倍,解决上万种物品的抓取难题”

DeepTech:你提到的“环境式采集”技术听起来很有意思,在实际落地中具体是怎么做的?一天能产出多少数据?

王晓刚:我们这套采集方案,需要人佩戴第一视角的摄像头,同时还会带上全景相机,这样能看到人周围的环境和自己的身体。手上和胸口也会带摄像头,特别是手上会带一些触觉传感器,能感受到接触物品时的材质和力。周围环境里也会部署深度摄像头等。

所有的设备都是同步的。人不需要操作机器人,只需要正常做工作,数据自然就被采集下来了。

DeepTech:可以举一个具体的落地场景吗?

王晓刚:比如我们在杭州的一个闪购仓(前置仓)试点。

现在的零售行业,大家在网上下单,城市里有很多这样的前置仓。仓库里有大量货品,需要工作人员进行分拣、打包,交给外卖小哥。这个工作需要 7x24 小时进行。

这个场景最难的地方在于,物品类别特别多,有上万个 SKU。以前大家做具身智能,用真机采集数据,基本只能覆盖几十个或者上百个类别。面对上万个类别,真机采集根本做不过来。

DeepTech:用环境式采集能解决这个问题吗?

王晓刚:对。有了这套设备,工作人员可以一边工作,一边采集数据。

一个人一天工作 10 个小时,就能采集 10 个小时的数据。而且因为人手的灵活度远高于遥操作机器人,单一采集效率可能有 10 倍的增长。

更重要的是部署方便。以前得在实验室里雇人操作机器人,现在我可以有几百人、上千人都带着这些设备,在正常工作中采集。这样数据积累的速度可能是原来的 100 倍,也就是两个数量级的增加。成本更低,效率更高。

DeepTech:采集上来的数据质量如何把控?有没有具体的标准?

王晓刚:我们有一套自动化的流程来提取关键信息。

比如人的肢体 3D 姿态、手部的 3D 手势、接触物品的种类和姿态、物品的 3D 形状等。还会提取人与环境交互的信息,比如我坐在椅子上、趴在桌子上、爬梯子,这些 3D 交互关系都会被建模。

还有材质信息,比如一个瓶子,人通常抓哪里?抓的时候摩擦力如何?受力情况如何?这些都会通过自动化流程提取出来。

核心:开悟 3.0 世界模型

“解决‘水倒进槽里杯子却满了’的物理幻觉”

DeepTech:采集了数据之后,如何解决跨本体复用的问题?毕竟人的手和机器人的手不一样。

王晓刚:这就体现了世界模型的重要性。

我们把采集的数据输入到世界模型里。世界模型有三个部分:第一是多模态理解,理解世界是什么样子;第二是生成,大脑可以想象场景;第三是预测,预测动作和结果。

我们即将发布的“开悟 3.0”世界模型平台,既包含了人类数据,也包含了一些不同类型机器人的本体数据。

在平台上,你可以选择场景和任务,然后选择机器人本体(比如宇树、智元等)。因为我们有这些机器人的物理参数,世界模型就会根据任务生成针对该本体的视频和 3D 轨迹数据,用来训练这个本体。

这就是我们说的“一脑多形”——一个世界模型大脑,适配不同的机器人形态。

DeepTech:“开悟 3.0”和市面上其他的世界模型(比如 Sora、Gen-2 等)有什么技术上的不同?

王晓刚:市面上的模型,比如李飞飞团队的 World Labs,很多只能生成静态的世界,做漫游,无法把物体和环境分离开。

我们的模型可以做到物体与环境的解耦。比如桌子上的电脑、水杯,我可以把它们分离开,甚至进行编辑——把桌子换个形状,把电脑换个牌子,把房型换掉。这极大地拓展了数据的泛化性。

另一点非常重要的是对物理规律的表达。

DeepTech:物理规律是现在生成式视频的一个大痛点。

王晓刚:对。像 Sora、Gemini、Cosmos 这些模型,本质上是生成式网络,缺乏对多模态世界的深刻理解和物理预测。

举个例子,我们让机器人拿杯子去水龙头接水。这需要符合流体力学。但在 Sora 生成的视频里,有时候你会发现,水明明倒在了水槽里,杯子里的水却莫名其妙涨起来了;或者水倒进杯子,周围水槽却有水溅出来。这都是不符合物理规律的。

如果不解决这个问题,机器人就会学到错误的逻辑。我们在构建世界模型时,底层加入了很多物理常识和规律的约束。

DeepTech:你们内部怎么量化这个“物理规律”的准确性?

王晓刚:我们有一个指标叫“成片率”。

生成视频后,我们会检查它是否符合物理规律。早期可能 100 个视频里只有个位数是可用的,现在我们的成片率已经越来越高,能达到 50% 以上。

更精细的度量还包括相机位姿的反推准确性、生成图像与真实图像的差异等。

战略:开源与国产芯片适配

“在具身智能领域,我们希望成为开源的标杆”

DeepTech:我听说大晓这次会开源开悟 3.0,具体会开源到什么程度?

王晓刚:我们的模型、工具链、以及部署方法都会开源。

特别值得一提的是,这次我们把开源模型适配到了国产芯片上,包括沐曦、海光、壁仞等。


在国产芯片时代,模型需要和芯片做深度适配,我们做完软硬协同优化后,极大提升了芯片性能,能达到 A 卡(英伟达)的效果。有了模型和算力基础,我们就能构建物理世界的“DeepSeek 时刻”,实现“算力—模型—应用”的全方位迭代。

DeepTech:开源对大晓的商业化有什么影响?

王晓刚: 开源和平台是相辅相成的。开源能让大家熟悉我们的模型。同时,世界模型的训练和推理需要大量算力,我们把 API 部署在云上(商汤大装置、腾讯云等)。用户使用云服务时,我们和云厂商都能获得收益。

DeepTech:从长期看,开源对初创公司的护城河有什么意义?

王晓刚:在大模型领域,DeepSeek 是一个很好的例子。它通过开源产生了巨大的行业影响力。

我们希望在物理世界、在具身智能领域,让“开悟 3.0”成为对标 DeepSeek 的存在。这个行业需要先发优势。当我们先把高质量的开源项目做出来,用的人多了,就会形成聚集效应。芯片公司也会主动来适配我们,生态就建立起来了。

落地:产品与未来

“机器狗,前置仓,到家庭机器人”

DeepTech:这次发布会有哪些交付形态的产品?

王晓刚:我们会发布几样东西:ACE 研发范式:环境式采集(Ambient Capture Engine);开悟 3.0 平台,并且开源;以及具身超级大脑模组 A1,这是一个软硬结合的产品,目前最先搭载在四足机器人上。

有了这个模组,机器狗在户外就具备了自主空间能力,不需要人遥控,可以通过语音控制它去目的地执行任务。我们的机管平台还和商汤的方舟平台打通,直接调用 150 多种 AI 应用。

此外,我们在模组硬件上也有创新,引入了 Insta360 的全景相机。现有的机器人摄像头视野窄、不稳。全景相机能做到 360 度无死角,画质和稳定性大幅提升,这对夜间作业和 AI 识别非常有帮助。

DeepTech:大晓目前最优先落地的场景是哪些?

王晓刚:我们有近期、中期、远期的规划。

近期(现在),重点是户外四足机器人。虽然提供情绪价值(表演)的市场比较成熟,但规模有限。我们看重的是生产力提升,比如电力巡检、文旅、智慧城市。加上我们的模组,机器狗就能具备空间自主能力,实现规模化应用。

中期(2 年左右),我们希望把前置仓(闪购仓)这个场景做下来。明年大概会有十几万个这样的仓库,场景非常类似。一旦做好,规模化落地速度会很快。

远期(5 年后),就是家庭场景。这目前还属于预研性质,也是像 Figure AI 这样的公司的长远目标。

DeepTech:最后一个我比较好奇的问题,“大晓”这个名字是怎么来的?是你和大程(商汤联合创始人)老师的名字合在一起的吗?

王晓刚:(笑)是这样。我和大晓机器人首席科学家陶大程是中科大的师兄弟,在汤老师那边读硕士时还是寝室室友,关系非常好,有很深的信任。在具身智能这个机会点上,我们觉得能一起合作做些事情。

但“大晓”这个名字还有衍生的含义。我们在发布会上给出的解释是:“大千世界,晓识万象”。

“大千世界”讲的是我们的世界模型,要理解这个世界;“晓识万象”讲的是我们的环境式采集,通过感知去理解人和环境的交互。这正好契合了我们未来具身智能的两个核心方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
31年前,娶了德国女明星的北京出租车司机王宏业,如今怎么样了?

31年前,娶了德国女明星的北京出租车司机王宏业,如今怎么样了?

东方不败然多多
2026-02-07 11:27:04
农村怪现象,很多父母宁愿儿子打光棍,也不出10万彩礼,不是抠门

农村怪现象,很多父母宁愿儿子打光棍,也不出10万彩礼,不是抠门

三农雷哥
2026-02-05 20:52:54
43岁彭于晏香港街头惊现!肌肉炸裂气场全开,岁月只给帅加buff

43岁彭于晏香港街头惊现!肌肉炸裂气场全开,岁月只给帅加buff

八星人
2026-02-06 11:08:14
年薪5470万,降薪却换来一场空!走到哪都出问题,但这次真不怪你

年薪5470万,降薪却换来一场空!走到哪都出问题,但这次真不怪你

老梁体育漫谈
2026-02-06 23:30:04
中方批准稀土出口?高市撒下弥天大谎忽悠日本民众,小泉也不装了

中方批准稀土出口?高市撒下弥天大谎忽悠日本民众,小泉也不装了

老嘪科普
2026-02-07 16:42:35
何捷张馨予高调撒糖,送花篮庆祝妻子首演,以两种口吻鼓励张馨予

何捷张馨予高调撒糖,送花篮庆祝妻子首演,以两种口吻鼓励张馨予

扒虾侃娱
2026-02-07 16:34:19
热点聚焦:日本舆论担心,高市如赢得大选必将带来更大的隐患!

热点聚焦:日本舆论担心,高市如赢得大选必将带来更大的隐患!

爱看剧的阿峰
2026-02-07 20:26:33
官方:足球中国官方账号转播明日U17国少vs印尼U17的友谊赛

官方:足球中国官方账号转播明日U17国少vs印尼U17的友谊赛

懂球帝
2026-02-07 12:53:03
海口警方深夜通报:某小区发生3死1伤刑事案件,嫌犯在抓捕过程中畏罪自杀身亡

海口警方深夜通报:某小区发生3死1伤刑事案件,嫌犯在抓捕过程中畏罪自杀身亡

新京报政事儿
2026-02-07 07:02:32
蔚来跃过“斩杀线”

蔚来跃过“斩杀线”

光子星球
2026-02-06 21:07:14
孩子跟爸爸睡和跟妈妈睡的区别,浓浓的反差感,笑死了

孩子跟爸爸睡和跟妈妈睡的区别,浓浓的反差感,笑死了

浩源的妈妈
2026-02-05 05:48:47
中方数十亿反制未至,巴拿马港口先冷清,拉美小国彻底陷入两难!

中方数十亿反制未至,巴拿马港口先冷清,拉美小国彻底陷入两难!

匹夫来搞笑
2026-02-07 06:03:35
韩国两周内5位明星因逃税塌房!网友点名张娜拉:低调捐款1亿元

韩国两周内5位明星因逃税塌房!网友点名张娜拉:低调捐款1亿元

春天来了啊
2026-02-07 21:27:37
6年败光千亿家底,潮汕大佬被围堵追债!

6年败光千亿家底,潮汕大佬被围堵追债!

趣味萌宠的日常
2026-02-07 11:15:22
库里全家福:37岁全明星首发,5960万年薪NBA第一,4个娃都像他

库里全家福:37岁全明星首发,5960万年薪NBA第一,4个娃都像他

大西体育
2026-02-07 11:03:01
你什么状元我什么状元!华子胖虎关键时刻表现根本不在一个级别!

你什么状元我什么状元!华子胖虎关键时刻表现根本不在一个级别!

田先生篮球
2026-02-07 12:25:57
办百日宴摆了28桌,只来15个客人!家长:礼钱都没看到,亏大了!

办百日宴摆了28桌,只来15个客人!家长:礼钱都没看到,亏大了!

磊子讲史
2025-09-24 14:17:06
女生主动起来有多主动?网友:东北雨姐式才叫真主动

女生主动起来有多主动?网友:东北雨姐式才叫真主动

夜深爱杂谈
2026-02-06 20:23:42
“对儿子太失望了!”家长半夜偷拍大学儿子,评论区家长感同身受

“对儿子太失望了!”家长半夜偷拍大学儿子,评论区家长感同身受

妍妍教育日记
2026-02-07 16:26:32
伊斯兰堡清真寺爆炸已致32人死亡!使馆称暂无中国公民伤亡

伊斯兰堡清真寺爆炸已致32人死亡!使馆称暂无中国公民伤亡

南方都市报
2026-02-07 09:50:09
2026-02-07 23:39:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16235文章数 514593关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

旅游
手机
艺术
亲子
军事航空

旅游要闻

“甜”度拉满!金湾区70项活动点亮农文商旅融合年味

手机要闻

华为苹果领衔 TOP5厂商入场,阔折叠方向对了吗?

艺术要闻

301米,15年!印度在贫民窟上建成第一高楼

亲子要闻

韩网热帖:男性如果能怀孕分娩会愿意生孩子吗?

军事要闻

重大转变 特朗普签令调整军售排序

无障碍浏览 进入关怀版