网易首页 > 网易号 > 正文 申请入驻

对话上交大穆尧:具身智能是年轻人改写世界的机会

0
分享至



在人工智能的众多赛道中,具身智能(Embodied AI)正处于爆发的前夜。它被视为连接数字世界与物理世界的“最后一公里”,也是人类文明向前迈进的重要里程碑。

从清华大学的强化学习,到香港大学的机器人控制,再到如今在上海交通大学带领团队攻坚通用具身智能系统,他站在了计算机视觉(CV)、自然语言处理(NLP)和机器人学(Robotics)的十字路口。

几年前,这还是一个冷门、艰难的领域,没有标准数据集,没有 Benchmark(基准测试),甚至被视为一个费力不讨好的领域。如今,随着大模型技术的溢出,具身智能迎来了日新月异的变革。穆尧也在这个时候成为了上海交通大学的一名年轻的助理教授。他的主页上写着一句话:“Shape the intelligence and spirit the machine”(为智慧塑形,为机器注灵)。他相信,真正的创新往往来自那些不设限的年轻人,来自那些敢于在未知中寻找“北极星”的时刻。

在这次对话中,我们试图还原一位青年学者眼中的具身智能全景图。从微观的技术路线选择,到宏观的中外产业对比,再到对年轻一代科研者的期许。

以下是对话全文。

图 | 穆尧课题组(来源:受访者提供)



这是一个得天独厚的交汇点

DeepTech:回看你的经历,从清华到港大,再到如今的上交大,你似乎很早就锁定了具身智能这个方向。当初是如何在众多 AI 领域中选中这条路并长期投入的?

穆尧:我认为具身智能对我来说是一个特别合适的领域:它其实是 CV、NLP 和 Robotics 的一个完美交汇点,这与我的经历和知识储备非常吻合。我的本科背景涵盖了跟机器人硬件相关的知识,博士期间在香港大学罗平老师门下,又接触了比较高端的视觉算法。而具身智能为了理解人类意图,还会融入 NLP(自然语言处理)的部分。尽管在 2021 年、2022 年这还是一个比较冷门的方向。当时更火的是纯 CV 和 NLP,具身智能连标准的数据集和 Benchmark 都没有。那是一段比较艰难的时期,我们只能一点点去打地基,自己造数据集,自己造 Benchmark,自己去探索方法。

DeepTech:在它还不是风口的时候,你有动摇过吗?有没有想过换个更容易出成果的方向?

穆尧:我是比较坚定的。当然,很多同辈的同学会迷茫、会有困惑,我也经常给他们做疏导。具身这条路确实难。它发文章的难度比正常做视觉要大很多,因为你需要在物理世界里做各种硬件的调整,真机实验可能就得比别人多做半个月。

但我认为它的 ROI(投资回报率)是非常高的。因为这是一个蓝海领域,你做的工作其实更具影响力。这是人工智能真正走进物理世界、与物理世界交互、进而改变物理世界的最后一个里程碑式的进程。当它被攻克时,整个人类文明、社会结构都会被重构。这是一个非常伟大的事业,所以我自己义无反顾。

DeepTech:你在主页上写着一句话:“Shape the intelligence and spirit the machine”。这背后蕴含着怎样的研究理念?

穆尧:这两句话是对我对具身智能核心的解释。

前半句“为智慧塑形”(Shape the intelligence)指的是我们希望从物理交互的层面给大模型一个身体。现在如 ChatGPT 一样的大语言模型在虚拟世界中非常发达,但它们欠缺一个物理的身体。它可以帮你写一封邮件,但不可能给你端来一杯水。我们希望教会它如何控制身体,如何拧开瓶盖,如何施力。

后半句“为机器注灵”(Spirit the machine),则是具身智能与传统机器人的区别。传统机器人面向单一场景、单一任务,追求百分之百的精准。而具身智能是大模型赋予了机器人“灵魂”,让它能理解人类的意图,甚至观察人类的状态。比如觉得你疲惫了,主动为你做些什么。

简单来说,前面是相对于互联网 AI,后面是相对于传统机器人。具身智能正好是那个完美的交叉点,拥有强大的泛化性、与人沟通的能力,以及一个能走进物理世界的身体。

VLA 已进决赛圈,核心战役在数据

DeepTech:你在多篇论文中涉及将 Diffusion Model(扩散模型)应用于机器人规划。为什么选择这条技术路线?

穆尧:Diffusion Model是一个非常强大的生成器。既然它能生成复杂的视频,生成机器人轨迹自然不在话下。

更重要的是,具身数据源于人类示教,而人类行为具有极高的多样性。因此,在同样观测下,动作分布会有多个峰值,Diffusion Model 在拟合这种多峰分布上表现极佳。此外,它逐步去噪的过程,允许对整条轨迹进行迭代式优化,“这修修,那补补”,这成为了目前学术界对 Action 建模的主流方式。

DeepTech:现在大家经常讨论具身智能的“不可能三角”——通用性、性能和自主性很难兼得。在你的工作中,如何平衡泛化能力和精确性?

穆尧:我觉得随着技术的演进,“不可能三角”正在被逐渐淡化和模糊。比如最新的 Pi0 等成果,泛化性很好,效果也很好。之前之所以存在“不可能三角”,本质是因为数据不够。这就像之前的 NLP 模型,针对单一对话做得好,但通用不行。现在 ChatGPT 证明了,只要 Scale up(规模化)上来,这些问题都能解决。目前像国外的谷歌 Generalist. AI 等和国内各大数采场都在快速积累数据,大家也逐渐意识到收集多样化数据的重要性,随着真机数据、人类数据、仿真数据的不断“力大砖飞”,“不可能三角”会被不断稀释

DeepTech:既然提到 Scale up,你认为在具身智能中,数据、模型、算力的 Scaling 优先级是怎样的?

穆尧:优先级最高的绝对是数据。

其实数据的 Scaling 一直做得不够好。数据分为四个维度:场景、物体、任务、行为。目前场景和物体的多样性,通过仿真合成数据已经做得相对较好。但任务多样性很欠缺,不管是真机还是仿真,大多是一帮人拍脑袋定的任务清单,跟人类日常生活的丰富度有巨大鸿沟。

最难的是人类行为的多样性。即使是真机遥操作采集数据,操作员为了赚快钱,往往倾向于用最快、最单一的方式完成任务。随着疲劳,他们的行为会越来越单一。而模型训练恰恰需要多样化的行为数据。相对而言,模型结构的 Scaling 已经很成熟了,改改结构涨一两个点意义不大,核心还是数据的 Scaling。

DeepTech:面对数据难题,你们团队目前具体在推行什么样的技术方案?

穆尧:我们正在推进一套“人-数字人-机器人”三元融合驱动的数据和模型Scaling up 方案。核心还是以人为本。我们不能只靠死板的仿真,而是要先学一个人类的 Foundation Model,把它作为先验嵌入到我们仿真合成数据的管线中,把人的行为多样性迁移过去。

具体而言,整个流程是:第一步,直接从海量的人类视频数据中进行大规模预训练,解决数据量的问题;第二步,利用我们构建的管线生成高质量的机器人仿真数据,将人类的行为域迁移到机器人上,进行第二阶段的预训练;第三步,再加入机器人的真机数据进行微调。这可能是目前解决数据瓶颈最有效的路径。

DeepTech:除了数据,Benchmark(基准测试)也是行业痛点。你认为目前的测评体系存在什么问题?

穆尧:目前缺乏统一的 Benchmark,大家各做各的,没有一个能让所有人信服。

比如常用的 LIEBRO,大部分算法都能刷到 90 多分的成功率,再涨一两个点没什么意义,而且它用的机器人型号在中国都不卖。再比如 RoboTwin,它主打泛化性,对不同场景,不同桌面的杂乱度,目标物体的形状、初始位姿等的泛化性能要求较高,但没有和真实的物理场景做完美的对齐。还有一个最大的问题是真机评测的不可复现性。所有人的真机实验都是自己设计任务、自己搭场景、用自己的机器人,资产也不一样。

DeepTech:这有解法吗?

穆尧:我觉得未来的评价体系应该分三部分:第一,建立一套与真机完全孪生的仿真测试,保证极高的可信度;第二,像 RoboTwin 一样测策略在广泛场景下的泛化性;第三,也是目前最糟糕的,真机评测。

我们团队正在做这件事,推动真机评测的标准化。我们提供标准的硬件清单、场景布置参数,甚至每一个资产的淘宝链接,让大家能购买相应的资产,搭建出一模一样的平台。

国内有得天独厚的优势,也有不敢冒险的差距

DeepTech:毕业后你选择了进入高校,而不是去业界一线的研发团队。这个选择的缘由是什么?

穆尧:进入产业界,总是容易“受制于人”。企业的安全阈值比较低,它一定要做短期内有收益的事情。但具身智能目前还不是一个特别成熟的产业,它需要我们有更冒险的想法、更年轻的思路。而学术界则相对自由,而且上交大提供了非常好的平台。在高校,我们是连接各个企业的桥梁,而如果加入某一家企业,可能就很难与其他企业深度合作了。

DeepTech:对比 Stanford 或 MIT等顶尖实验室,你认为国内在具身智能赛道上有哪些优势和差距?

穆尧:国内最核心的优势是硬件本体。我们的机器人产业太发达了,实验室机器人坏了,厂家第二天就能来修好,这在国外是不可想象的,他们可能得漂洋过海去返修。

差距方面,总体没有质的技术代差。但国外在冒险精神上确实走在前面。比如 UMI 方案收集了 27 万小时数据,我们很震惊这是怎么做到的,这需要非常大的 Infrastructure 和资本投入。国内在这方面往往是“不见兔子不撒鹰”,看到别人路跑通了再去 Follow。这很大程度上是因为我们不敢冒险。

DeepTech:在你的观察中,具身智能是初创公司更有机会,还是会被大厂主导?

穆尧:目前来看,除了 Google、Meta 这种巨头,国内大部分最前沿的技术发布、开源贡献,其实都是由初创公司完成的。无论是算法、数据集还是硬件,初创公司展现出了更强的活力。

DeepTech:你对未来 5 到 10 年的技术演进有什么判断?

穆尧:商业闭环会先在 B 端实现。我看到一些公司的方案在工业端已经具备了 80% 的落地能力,比如物流场景、叠衣服场景。

特别是一些具体场景,比如商超零售,或者家庭中“扫地机器人+机械臂”的组合,去处理吸尘器处理不了的纸团、脏袜子。这些在 1-2 年内会很快落地。但如果你说“通用具身智能”,像保姆一样什么都能干,那可能还需要 5 到 10 年。

不要被单一的投稿周期束缚

DeepTech:你今年的科研产出非常高效。能否分享一下你的科研时间管理经验?

穆尧:我认为文章产出是整个团队的努力。不过关于管理,我觉得第一点是不要只盯着自己的“一亩三分地”。要时刻关注 CV、NLP 领域最前沿的技术。比如 Meta 发布的 SAM 3D,直接颠覆了我们之前仿真合成数据的管线。如果不看那个圈子,你还在用传统方法死磕,效率就很低。

第二,不要以文章投稿周期来管理时间,而应该采用项目管理的方式。我们不应该只盯着投稿,而是要规划这个工作什么时候开源、什么时候宣传、什么时候修复 Bug。这会给之前的布局带来更大的紧迫感,也能倒逼时间管理。

DeepTech:作为导师,你在带学生和团队管理上有什么心得?

穆尧:我最看重学生的主人翁意识。我告诉学生,这个课题分给你,你就是第一负责人,甚至不需要跟我汇报就可以做决策。通过一两个项目的历练,他们会形成很强的责任心。我只需要在最开始的构想阶段,以及他们遇到真正解决不了的困难时,帮他们捋顺关键节点。

DeepTech:你的实验室招生说明中提到“人工智能是年轻人的事业”。为什么这么强调“年轻”这个特质?

穆尧:这和我在回答中美差距时提到过,资深的人往往安全阈值过高,不愿意去尝试那些“不一定带来巨大增益”的想法——之前有一些学生提出的我觉得“不靠谱”的想法,最初本想毙掉,但后来想想,实验室刚建,让他们试试错也没关系。结果反而是一些我没太看好的项目,做出了很好的效果。这给了我很大的改观。

我也参加了深圳的具身智能机器人大会,给我的感觉是“天下英雄,如过江之鲫”。新一代博士生蓬勃的生命力和最新想法都非常好。所以,雷军的那句话说得特别好:“不要听别人这个建议、那个建议,敢想敢干就完了。” 现在,我也在努力改变自己。

DeepTech:如果给行业里的年轻研究者一个建议,你会说什么?

穆尧:首先要找到自己心目中的“北极星”——那个你愿意投入巨大精力去做的目标。

找到北极星之后,就坚定的往前走。不要因为别人发了一篇 Blog 说仿真数据不如真机数据,你就犹豫仿真的意义;也不要因为别人发了 Simulation 的大工作,你做真机数据的就动摇。只要你的北极星不是特别离谱,在解决问题的过程中,一定能形成一系列成果。

从工具到伙伴

DeepTech:现在资本市场对具身智能的态度,你觉得是过热还是合理?

穆尧:有一段时间确实过热,但现在的资本已经很理性了。有些投资人对行业的理解甚至比我还深刻(笑)。

大家觉得过热,往往是因为宣传上的过热。但我们看到,仅仅从 2024 年到 2025 年,技术就发生了翻天覆地的变化。24 年初,很多机器人走路都不利索,我们还无法想象机器人能够叠衣服,能够端到端 24 小时连轴转,但现在正在被逐渐攻克。技术的演进非常快,所以资本多一些投入是合理的,只是行业里确实存在借噱头过度营销的现象。

DeepTech:最后,请描述一下你心中理想的具身智能系统,它是什么状态?

穆尧:最理想的状态,是成为人类的“伙伴”。

它不仅是有应用价值的工具,比如在养老场景中发挥作用;更会在社会心理学层面带来改变。随着具身智能的急速发展,社会结构会发生快速变化。终极形态下,机器人将成为我们非常好的朋友。

结语

具身智能从“冷门赛道”到“风口前夜”,其发展轨迹印证了技术演进的非线性特征。数据瓶颈、评测标准的缺失、真机实验的高成本,这些问题至今悬而未决,但资本与人才的涌入正在加速寻找答案的进程。

至于这场“为机器注灵”的冒险最终将通向何处,答案仍在时间的另一端。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
工作室拒绝加入LGBT内容 外网相关群体炸锅了!

工作室拒绝加入LGBT内容 外网相关群体炸锅了!

游民星空
2026-01-23 11:23:22
输得好,火箭不敌76人,赛后还有6个坏消息,管理层赶紧找个后卫

输得好,火箭不敌76人,赛后还有6个坏消息,管理层赶紧找个后卫

邹维体育
2026-01-23 10:49:03
拳王邹市明创业失败后,妻子自曝家庭节俭开支:水费每月100元,儿子午饭39.5元

拳王邹市明创业失败后,妻子自曝家庭节俭开支:水费每月100元,儿子午饭39.5元

红星新闻
2026-01-21 17:10:09
苹果正式官宣:1月24日,全面降价!

苹果正式官宣:1月24日,全面降价!

科技堡垒
2026-01-23 11:56:13
新股上市6天下跌4天,从80跌到46,进场的股民全部被套,无一幸免

新股上市6天下跌4天,从80跌到46,进场的股民全部被套,无一幸免

财经智多星
2026-01-22 20:44:24
吴石遗孀王碧奎 1950 年夫牺牲,台颠沛 30 年拒返赴美吐隐情

吴石遗孀王碧奎 1950 年夫牺牲,台颠沛 30 年拒返赴美吐隐情

磊子讲史
2026-01-06 11:48:34
科比81分20周年!猛龙前主帅回忆神迹:把战术试了个遍也没防住他

科比81分20周年!猛龙前主帅回忆神迹:把战术试了个遍也没防住他

罗说NBA
2026-01-23 06:45:35
人民日报,救西贝一命!

人民日报,救西贝一命!

钧言堂
2026-01-22 09:38:41
案件:北京一女教授在家养病长达10年,民警进门后,当场愣在原地

案件:北京一女教授在家养病长达10年,民警进门后,当场愣在原地

五元讲堂
2024-12-24 16:57:49
60岁于东来跳入冰水施救被困车辆

60岁于东来跳入冰水施救被困车辆

界面新闻
2026-01-23 10:28:21
北京一男子在超市购买的排骨中吃出注射针头,涉事商家回应:食药监部门已介入

北京一男子在超市购买的排骨中吃出注射针头,涉事商家回应:食药监部门已介入

黄河新闻网吕梁频道
2026-01-22 10:29:14
徒弟曾骂聂卫平看不懂棋,葬礼都不来参加,背后恩怨超过50年

徒弟曾骂聂卫平看不懂棋,葬礼都不来参加,背后恩怨超过50年

老土历史
2026-01-22 17:21:52
问政江苏|镇江丹徒一处3600平违建存续8年?属地政府:违建人患病,不能强拆

问政江苏|镇江丹徒一处3600平违建存续8年?属地政府:违建人患病,不能强拆

扬子晚报
2026-01-22 14:32:57
女子违停竖中指挑衅被撞:正脸被扒已社死,内情流出,司机疑发声

女子违停竖中指挑衅被撞:正脸被扒已社死,内情流出,司机疑发声

社会日日鲜
2026-01-22 00:48:44
向来以稳重、克制著称的中国外交部,这次居然直接“掀了桌子”。

向来以稳重、克制著称的中国外交部,这次居然直接“掀了桌子”。

安安说
2026-01-23 09:11:40
“塔斯汀”打假“塔诗汀”,获赔500万元;山寨方签约门店数量上千,不少消费者踩坑:难以分辨!

“塔斯汀”打假“塔诗汀”,获赔500万元;山寨方签约门店数量上千,不少消费者踩坑:难以分辨!

每日经济新闻
2026-01-22 15:35:19
中国队决战日本!532阵型冲冠,首发11人基本定9人,王钰栋或替补

中国队决战日本!532阵型冲冠,首发11人基本定9人,王钰栋或替补

小火箭爱体育
2026-01-23 10:38:08
约旦、阿联酋等国发表联合声明 决定加入所谓“和平委员会”

约旦、阿联酋等国发表联合声明 决定加入所谓“和平委员会”

每日经济新闻
2026-01-22 17:07:22
滚出去!中国不是“捡破烂”的:日本混不下去,就想回中方捞金?

滚出去!中国不是“捡破烂”的:日本混不下去,就想回中方捞金?

趣文说娱
2026-01-21 18:20:43
叶文斌已经穿上囚服,称自己是想赚钱,但也是被骗进园区的

叶文斌已经穿上囚服,称自己是想赚钱,但也是被骗进园区的

映射生活的身影
2026-01-22 17:50:07
2026-01-23 12:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16166文章数 514523关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

“四十不惑”的吉利 信力不信命

态度原创

数码
旅游
本地
时尚
公开课

数码要闻

GL.iNet安全网关GL-MT5000发售:支持OpenWRT,569元

旅游要闻

迎春茶会路线攻略!清照泉城·泉韵茶香,邀您明天共赴~

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

章小姐罕见谈婚姻,这个词用得太妙了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版