网易首页 > 网易号 > 正文 申请入驻

“伯克利四子”罕见同台,我们整理了WAIC最豪华具身论坛

0
分享至

文|富充

编辑|苏建勋

2025年世界人工智能大会(WAIC)期间最“耀眼”的具身智能论坛,莫过于上海期智研究院举办的“人工智能交叉科学论坛”的主题活动。

这场论坛难得聚齐了当下国内具身智能领域的“伯克利四子”——吴翼、高阳、许华哲和陈建宇,这四位学者均毕业自加州大学伯克利分校,目前都从事具身机器人相关工作。

其中陈建宇创立了星动纪元,高阳为千寻智能联合创始人、许华哲为星海图联合创始人。吴翼则任蚂蚁集团强化学习实验室首席科学家。

(点击“星动纪元”、“千寻智能”,可查看我们之前的报道。)

这四位的罕见同台,分享内容自然离不开具身智能领域几大核心问题:

具身智能的瓶颈——“获取数据”,这个难题怎么解?

从简单任务(拿、放),到复杂任务(收拾屋子),机器人从大脑到本体该如何提升?

已经形成共识的“VLA算法”,里面又有哪些非共识的方法论?

除了创业者/大厂科学家的身份以外,吴翼、高阳、许华哲和陈建宇四位均担任上海期智研究院PI(Principal Investigator,首席研究员)。

姚期智为图灵奖得主、清华大学交叉信息研究院院长。2005年,姚期智创立“清华学堂计算机科学实验班”(姚班),以培养世界顶尖的计算机科学人才著名。上海期智研究院于2020年成立,姚期智担任院长。


上海期智研究院院长、清华大学交叉信息研究院院长姚期智致辞;图片:上海期智研究院

以下观点来自陈建宇、高阳、吴翼、许华哲在“人工智能交叉科学论坛”的发言,由《智能涌现》总结、整理编辑:

陈建宇:获取质量最好的数据,需要具身智能学习人类

畅想中会迎来一个与机器人有关的未来世界,我觉得达到这一愿景会有三个阶段。

第一个阶段,机器人将进入我们的生产力系统,生产手机、汽车等现在生活中所需物品。这个可能贡献超过目前一半的GDP。

第二阶段,机器人会成为最大的终端,也能够自己制造自己。

第三阶段,机器人可以帮助人类去拓展能力边界,比如马斯克说的火星移民。在长远的未来,机器人甚至能布满整个宇宙。

要实现这样的结果,我认为最短的路径是直接去学习人类的经验和数据,毕竟人类是现在世界上唯一的通用智能体。

具身智能的瓶颈,主要在于如何使数据和模型更高效。构建人形机器人,可以更方便机器人从人类的学习范式里学习。


陈建宇和他分享的“具身智能数据金字塔” ;图片:上海期智研究院

具身智能有一个数据金字塔模型,显示了具身智能训练数据的来源。

金字塔的塔尖是遥操作采集的数据,数据量大概在1万小时以内。但是我们训练语言模型的数据,如果换算成小时的话,大概是10的九次方小时,所以仅使用遥操作收集数据达不到具身智能需要的数据量。

而真正训练具身智能的数据量比语言模型所需数据量还要大一些,所以我们必须要用到人类行为的数据,这就是具身智能训练数据金字塔中间的一层。

我们可以通过VR眼镜、智能眼镜等终端采集到人类第一视角的数据。

金字塔的最底端是我们称为“一切发生在人类世界”的数据,也就是互联网上的广泛数据,比如视频网站。目前统计出Youtube上所有视频时长大概是10的十一次方小时。这类数据是现成的,而且非常非常多样化。

确实,在很多情况下我们可以用仿真,但仿真有一个致命问题,就是仿真里面没有人类这样的具身智能体去产生数据。

几乎所有的智能代码和行为数据都是由人类去产生的,而如果仿真能构建出这样一个智能体的话,实际上我们已经把这个“真”做出来了。所以这是一个鸡生蛋、蛋生鸡的问题。仿真基本上只能构建比较Passive的物理交互数据。

所以要构建人形机器人,直接去对标人类机体性能。比如星动纪元最新发布的星动L7,高度为1.7米,接近人类身高,同时它也有类人的胳膊、腰、头部以及腿部,能更好收集人类的多样性数据。

有人会关心双足机器人的成本是不是会更高,我认为不用特别担心这个问题。因为对通用机器人来说,降低价格最重要的因素在于规模化,而不是仅仅降低它的自由度。

通用人形机器人应用场景更多,随着规模起量,成本也将大幅下降;但专用或简易形态的机器人,由于可扩展的场景有限,所以也会限制规模化,所以成本的下降反而有限。

接下来,说说模型如何构建。当前主流的VLA(Vision-Language-Action,视觉语言动作模型)模型会存在一些问题,因为本质上来说它是在做纯粹的克隆。

问题一是模型只能从大量人类行为数据里克隆,缺乏举一反三能力;这也造成了第二个问题,机器人很难超越人类表现。

所以具身智能要参考人类的学习方式。

第一就是,建模整个世界,先形成物理世界的认知,类似我们说的“世界模型”。就像我们开车到十字路口会减速,即使没有经过大量的数据教学,人类也知道要防止撞到路口突然冲出来的人。

第二点就是,向人类学“强化学习”。比如学乒乓球,教练手把手教学是一个“模仿学习”的范式。但是这还不足以让人学会这么高难度的技巧,所以需要在自己训练中根据击球情况调整姿势,达到想要的效果,这就是“强化学习”。

所以我们的方法是,把VLM擅长的理解和世界模型擅长的生成进行结合,做成统一的模型,放到具身智能上。

这是我们做的融合世界模型的第一个探索PID模型,同一个模型不光做预测,同时也是做行为的生成。要找到相应的工具,最接近的工具就是类似sora基于diffusion视频生成的模型,因为它能生成非常细致的物理世界的行为环境动作。

基于Diffusion Policy,我们也有工具去很好地生成模型的行为。这样一来,具身智能就可以对视觉、以及其他模态做出预测。接下来我们提出了“Video Addiction Policy”,进一步扩大了我们的数据,运用大量的互联网和视频数据进行预训练,使得泛化性得到进一步提升。

最终,我们希望能真正把模型技术、数据通过我们不同形态的机器人,应用到现实生活中。通过一系列技术,机器人可以做出高动态全身运动,例如跳舞;除此之外可以完成操作,比如物流分拣

高阳:让机器人的思考融合“快与慢”


千寻智能联合创始人高阳;图片:上海期智研究院

ChatGPT等模型取得今天的成功是基于拥有海量数据,但目前机器人的数据是非常匮乏的。当前公开最大的数据集,也才有不到100万条轨迹。相对互联网上文本、图文数据,相差好几个量级。

核心的问题是,我们到底该如何解决具身智能中的数据瓶颈,我认为最重要的方式就是“数据金字塔”。就是说我们要利用不同质量、不同来源的数据,把数据量去堆上去。

刚才陈建宇老师也提到了具身智能数据金字塔。我将具身智能数据分为上中下三层,下层是海量的互联网视频;中间层是人类操作数据;最上层是强化学习数据,也就是让机器人在会某个技能之后,与环境进行进一步交互来修正它的能力使成功率达到99%以上,所使用的数据。

我今天想说的是,在具身智能的金字塔再往后一步,就是硬件的感知层面和获取数据后的模型结构方面再做提升。

从感知层面而言,现在VLA只有视觉,但是对人类来说触觉是一个非常重要的模态,比如插U盘的动作,人并不一定需要眼睛盯着USB口。但如果机器人要盯着才能完成这个工作,姿势会非常奇怪。

现在提出的“TactileVLA”概念,就是在VLA基础上加上触觉。再举一个例子,比如机器人擦黑板,一遍没擦干净,它会用VLM尝试思考,是不是因为黑板上的字迹特别顽固,要再用更大力气再擦一遍。

通过带触觉输入,带触觉输出,以及带触觉反馈的过程,就可以把触觉非常好的融合到VLA的模型里。

有了触觉,让具身智能去拿不同的物体,可以通过预训练知识让它拿得更好。比如说拿水果和拿铁块的力不一样。

就可以结合触觉具有摩擦力等功能对擦黑板工作进行更准确判断。

在通过数字金字塔获取到丰富数据量之后,还需要一个好的数据结构,让机器人从目前的数据里面学到正确知识。就像大语言模型有Transformer架构。

当我们想让机器人做伏特加调酒的时候,面对面前巨多的瓶瓶罐罐,具身智能要把动作分解成若干可以去执行的原子动作。但如果只用VLA做反思性思考,或者我们常说的System1思考模式(一种大脑处理信息做决策的方式,更偏直觉、速度快)成功率会非常低。

我们提出了OneTwoVLA,是一种把System1和System2(大脑的系统性思考,速度更慢),做结合的模型。这个模型在接到任务之后会自主判断,当前的任务是需要进行分析还是只完成当前的动作路径。

具体而言,比如一个涮火锅机器人机器人面前有很多食材。你让它涮牛肉,它就涮牛肉;你让它涮蔬菜,它会发现面前有很多种类蔬菜,于是停下来问用户涮哪一种。通过这个模型,可以把任务在结构的层面上进行分解,达到更好的效果。

吴翼:具身智能未来不只有一个智能体,而是Multi-Agent


蚂蚁集团强化学习实验室首席科学家吴翼;图片:上海期智研究院

我们的终极目标是要让机器人走进千家万户,做很复杂的任务。

但是即使我们实现了当前所有的技术,可能还是未必达到这个愿景。那这个过程中我们是不是漏掉了什么?

从2022年ChatGPT开始,当时大模型可以基于人类指令,被动回答问题;到2025年退出Agent智能体,可以回答非常复杂的、宏观且抽象的问题,主动做很多工作。三年间,大语言模型的发展非常迅速。

机器人领域,我想也会有这样一个过程。比如有一天我告诉“它把屋子进行打扫”这样一个抽象的任务,它会自己调用工具完成。所以这就是一个具身智能体(Embodied Agent),像Agent一样工作,但有物理的身体。

我们也可以从Agent的构建上,去寻找具身智能体的启发。

一个AGI智能体需要有三个能力:规划、记忆调整、使用工具。我们希望具身智能体也有这样的三种能力。

Agent是Function Call(工具调用)智能体,同理,具身智能体也可以调用不同的Function。具体而言,具身智能体会先做逻辑推理,然后写代码,然后具身智能体会做代码执行。

我们可以想象家里有一条四足机器狗,现在想让它关灯,但是它的高度距离开关有一定差距,需要踩着一个箱子,完成这个动作。

在和物理世界交互时机器狗发现,踩着一开始的箱子仍然达不到灯开关的高度,那从这个出错的地方往后的代码都没有用了。大模型会从这里开始重新思考,写一段新代码去换一个高度合适的箱子,然后机器狗去执行新的代码。

这个过程中,有一个软件智能体在执行,还有一个硬件和现实世界做交互。

总结一下,就像大模型可以从ChatGPT可以进化成Agent,希望具身智能也可以从机器人进化成具身智能体。

再往后展望一下,我们希望未来不只是一个具身智能体,而是很多具身智能体交互,也就是所说的Multi-agent的概念。比如一个机器狗足球队,多个机器狗一起踢球,会有竞争和合作;人和机器狗之间也可以有类似的人机交互。

最后对未来做一个展望,我觉得未来世界会是一个具身智能体的世界,有很多聪明机器人,做很复杂的任务;人也可以和机器狗交互,牵机器狗着上街。

最后推荐一下我的AReaL开源项目,希望通过这个开源框架帮助大家做更好的智能体。

许华哲:多的数据不好,好的数据不多,但不能“放弃治疗”


星海图联合创始人许华哲;图片:上海期智研究院

一个机器人,从它看一张图,做一件事开始,最后它的行为形成了规模定律。这中间有怎样的故事线呢?

我和一些观点倾向认为,具身智能在小规模数据的情况下,是一场背诵的游戏。

比如模型看到一个图片,是桌面上有多个工具,它可以背下来这几个工具的使用方法、在不同方向放置的情况下如何进行最好的拿取。但很显然,这样的模型是很难有好的泛化性。

所以,真正的挑战,如果这个图片里的空间非常巨大,模型就不能靠纯背诵做好工作。这就产生了对泛化和规模化的需求。

所以还是要有足够多的训练数据,覆盖范围足够广,这样机器在非常大量的数据中可以学到一些本质的东西。比如说在世界各地的人都能看到不同的物体从高处落下,最后总结出了本质“牛顿定律”。

但是现在采集数据的技术路线或多或少都有一定的问题。我个人怀疑,现在的数据采集永远都到不了我们想要的规模。

目前我们有人类数据,也有仿真数据,他们虽然很便宜、也可以大量提供,但是如果数据里是一些与现实世界有冲突的内容,那就未必能学到本质的东西。

如何把有偏移的“牛顿定律”挪回正确“牛顿定律”的位置,这是一个未解之谜。这也是为什么具身智能现在不能像大模型一样立刻很好地干活,简而言之问题就是数据不够好。

多的数据不好,好的数据不多。但不能“放弃治疗”,我有一个解决方法。


许华哲提出的具身智能数据Scaling坐标包括横轴Path Sampling,和纵轴World Sampling,单边提升也可以对Scaling形成促进;图片:作者拍摄

就是我们在谈具身智能数据Scaling的时候,有横轴、纵轴两个坐标可以影响它,一个叫World Sampling,另一个叫Path Sampling。

举一个例子,就像是让具身智能学习倒水这个动作,World Sampling是它在不同的“世界”里倒水的案例。比如在办公室倒水、在家里倒水、在酒吧倒水;而Path Sampling是说先不用管它的位置,可以在家里这一个场景用不同动作路径实现倒水。

现在我的组里也在沿着Coodinate(坐标)这一方向去做研究。

所以我的非常粗糙的猜想是,具身智能很难在这个坐标里,沿着一个理想的上升斜线往右上角行进。因为它需要的数据量太大,而我们现在拿不到。

所以我们或许可以先沿着其中一个轴做得好一些,再沿着另一个轴做突破。而不是一开始就在World Sampling这条轴上采集很多很多数据,这样所需要覆盖的空间就会太大了,工作量也会太大。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
印度开始停止进口俄罗斯石油,中国也有动作,俄罗斯的腰包紧张了

印度开始停止进口俄罗斯石油,中国也有动作,俄罗斯的腰包紧张了

老谢谈史
2025-10-04 12:59:06
邻居家出门旅游后卫生间灯却一直没关,我连忙报警,警方破门后傻眼

邻居家出门旅游后卫生间灯却一直没关,我连忙报警,警方破门后傻眼

悬案解密档案
2025-11-04 10:42:34
商务部新闻发言人就调整不可靠实体清单措施答记者问

商务部新闻发言人就调整不可靠实体清单措施答记者问

界面新闻
2025-11-05 17:01:19
京东1号车下线,价格或低于10万,刘强东开出百万年薪抢人

京东1号车下线,价格或低于10万,刘强东开出百万年薪抢人

21世纪经济报道
2025-11-05 13:58:37
蔡文静参加活动全程黑脸,因为不仅跟蓝盈莹撞衫,还没比过蓝盈莹

蔡文静参加活动全程黑脸,因为不仅跟蓝盈莹撞衫,还没比过蓝盈莹

银河史记
2025-11-05 20:48:37
因妻子出轨等争吵后,男子与堂哥合谋车祸撞死7岁儿子骗保 死刑!

因妻子出轨等争吵后,男子与堂哥合谋车祸撞死7岁儿子骗保 死刑!

红星新闻
2025-11-05 18:37:51
跟队:阿什拉夫伤缺6-8周,他的目标是尽快恢复赶上非洲杯

跟队:阿什拉夫伤缺6-8周,他的目标是尽快恢复赶上非洲杯

懂球帝
2025-11-05 23:01:40
张海迪罕发声:别去踩一个坐在轮椅上的人,那不是勇敢,而是卑鄙

张海迪罕发声:别去踩一个坐在轮椅上的人,那不是勇敢,而是卑鄙

公子麦少
2025-10-18 13:35:17
普通人抵抗通缩最好的方法就是把钱放在那里,一动也不动。

普通人抵抗通缩最好的方法就是把钱放在那里,一动也不动。

流苏晚晴
2025-11-05 18:18:00
苏丹打得那么惨,同样也是伊教国家,环保少女为何对此一言不发

苏丹打得那么惨,同样也是伊教国家,环保少女为何对此一言不发

历史摆渡
2025-11-04 13:00:03
11月吃一根,冬天站稳后脚跟。立冬常吃它,一健脾、二养胃、三止咳

11月吃一根,冬天站稳后脚跟。立冬常吃它,一健脾、二养胃、三止咳

普陀动物世界
2025-11-05 14:17:56
中央宣讲团成员,已赴多个省份

中央宣讲团成员,已赴多个省份

政知新媒体
2025-11-05 22:42:32
作家可以无耻,但不能无耻到这个地步

作家可以无耻,但不能无耻到这个地步

亚哥谈古论今
2025-09-29 18:58:49
特斯拉撞死突闯国道的野猪,修车费超2万元、车主全责,交警:野猪不属于交通参与者

特斯拉撞死突闯国道的野猪,修车费超2万元、车主全责,交警:野猪不属于交通参与者

极目新闻
2025-11-05 16:19:29
拔出萝卜带出泥!释永信被抓后,实名举报的释延鲁也被抓到小辫

拔出萝卜带出泥!释永信被抓后,实名举报的释延鲁也被抓到小辫

冒泡泡的鱼儿
2025-11-05 11:56:29
央视撤档《爱情没有神话》,编剧秦雯沉默不语,王家卫又会如何回应?

央视撤档《爱情没有神话》,编剧秦雯沉默不语,王家卫又会如何回应?

动物奇奇怪怪
2025-11-05 18:01:16
郑丽文:尊重2300万台湾人意愿,绝不能武统!洪秀柱:当然可以打

郑丽文:尊重2300万台湾人意愿,绝不能武统!洪秀柱:当然可以打

刚哥说法365
2025-11-01 17:15:20
25岁小伙贷款100万买迈巴赫跑婚车,每月还贷款近2万,小伙:每单挣一千多元,每个月油钱一两千元左右

25岁小伙贷款100万买迈巴赫跑婚车,每月还贷款近2万,小伙:每单挣一千多元,每个月油钱一两千元左右

观威海
2025-11-05 10:42:03
山姆翻车再上热搜!商品头图全是假的,网友刷屏“辞退高管”

山姆翻车再上热搜!商品头图全是假的,网友刷屏“辞退高管”

雷科技
2025-11-04 14:50:05
风水师:旧物不可乱丢,旧衣不送人,3个处理方法,守护自己财气

风水师:旧物不可乱丢,旧衣不送人,3个处理方法,守护自己财气

诡谲怪谈
2025-10-24 15:22:17
2025-11-06 05:19:00
36氪 incentive-icons
36氪
让一部分人先看到未来
149749文章数 2847176关注度
往期回顾 全部

科技要闻

大转弯!特朗普再提名马斯克盟友任NASA局长

头条要闻

俄士兵连遭乌军7架无人机袭击奇迹生还 视频披露

头条要闻

俄士兵连遭乌军7架无人机袭击奇迹生还 视频披露

体育要闻

赢下皇马,会是利物浦的转折点吗?

娱乐要闻

港星林尚武突发心脏病去世

财经要闻

事关加快建设金融强国 中央金融办发声

汽车要闻

智己LS9入局"9系"混战 全尺寸SUV市场迎来新变量

态度原创

教育
家居
时尚
游戏
手机

教育要闻

最新:2026年南京中考体育考试内容及评分标准曝光!

家居要闻

别样府院 畅享诗意生活

今年一定要拥有这件大衣,复古又时髦!

一份游戏双平台玩!PS5/PC跨平台购买标志新发现

手机要闻

苹果Shazam更新26.0版:液态玻璃界面焕新登场

无障碍浏览 进入关怀版