网易首页 > 网易号 > 正文 申请入驻

对话王潜:具身模型不是语言模型的延伸,机器人ChatGPT时刻需3-5年

0
分享至

作者 |金旺

栏目 |机器人新纪元

8月8日,2025世界机器人大会(WRC 2025)在京召开。

相较往年,今年大会已经完全转向了具身机器人,即便是在传统工业机器人展台上,也不乏各种形态的具身机器人,乃至人形机器人。

这样的改变源自于三年前由大模型掀起的人工智能热潮,也是在这波热潮中,一家名为自变量机器人的具身智能团队在2023年年底成立。

这家公司成立之初就聚焦研发端到端通用具身大模型,自变量机器人创始人兼CEO王潜认为,通用具身大模型是独立于于数字世界的基础模型。

“它不是大语言模型的延伸,而是平行于大语言模型的物理世界中的基础模型。”

秉持着这样的理念,自变量机器人团队随后训练出了WALL-A模型,与此同时,2025年,他们也不再只是一家具身智能模型公司,随着自研本体整机的面世,公司重新被定位到了软硬一体具身智能公司。

在这次展会上,自变量机器人的量子2号具身机器人正式亮相,这成了自变量机器人迈入真实世界的一个全新载体。

更多关于具身智能的技术难题、发展瓶颈,以及自变量机器人的未来发展计划,我们在大会上与王潜进行了一场对话,王潜给出了他眼中的答案。

01 人形机器人的ChatGPT时刻,仍需3-5年

问:人形机器人的“ChatGPT时刻”何时到来?其中技术难点是什么?

王潜:预计需要3-5年时间周期,才会达到类似ChatGPT的水平。

机器人模型与语言模型不同,应用场景复杂,会有一个比较平滑的过渡过程,它不会像自动驾驶技术发展一样有一个突变的过程,因此也不会有因此带来的大的商业上的波折。

要达到ChatGPT水平,关键首先是Scaling Law可以持续发挥作用,这也是我们已经确定的,然后需要足够多的数据、足够大的具身模型,同时模型架构和训练方法等方面还需要持续向前演进。

我认为这条路径已经相对清晰,与大语言模型走的是类似的路径。

问:您认为硬件是否仍是机器人发展的障碍?

王潜:我个人认为,两三年前,具身机器人或人形机器人赛道兴起时,硬件就已经不是障碍,因为那时技术路线已经相对成熟,大家能做的机器人硬件也已经达到了相当水准,只是还需要产品化、商业化。

从模型来看,大家已经做了几十年,但除了抓取、放置,依然没有做到让机器人执行更复杂的任务,这是机器人现在无法更像人一样的关键。

问:现阶段限制机器人产业化应用的因素有哪些?

王潜:主要限制因素是机器人的“大脑”。

大家在展馆中看到了大量运动能力做得很不错的机器人,但与此同时,他们能够提供的“实用价值”有限,更多提供的还是“形式价值”。

这个并不是硬件问题,核心在于人工智能水平还未达到,所以本身模型能力是其中的关键。

当然,就机器人整个产业链而言,包括零部件、成本等也都尚未完全成熟,但是我们已经走在了正确的路上。

问:过去一两年机器人领域的技术突破是什么?

王潜:过去一两年,行业有两个重要变化:

第一,行业逐渐形成了共识,我们确实需要一个完全端到端的模型;

第二,这样的模型一定是一个基础通用模型。

2023年大模型浪潮刚刚兴起时,还没什么人相信机器人端到端技术路径,我们在那时率先走上了这条技术路线,但如今这已经成为行业趋势,我觉得这是整个行业统一思想、向一个正确方向前进的标志。

未来两三年,具身机器人领域预计会出现类似语言模型的Scaling Law带来的重大技术突破,我对此非常乐观。

02 复杂交互不用仿真数据,数据质量是技术难题

问:如何解决数据稀缺问题?在数据筛选和应用方面有何策略?

王潜:我们现在一个大的策略是,所有涉及到复杂物理交互(如接触丰富的手部操作)完全不使用仿真数据。

我们在这个方面探索了十几年,基本结论是,手部复杂操作无法通过仿真数据来进化。

不过,导航、走路、高级任务推理和规划更适合用仿真数据,很多团队的机器人走路都是在虚拟世界中训练出来,然后迁移到真实世界中。

此外,手部pick and place这样的操作用仿真数据训练也是完全没问题的。

关于仿真数据我们的态度一向比较明确,当然我们也在广泛使用互联网视频数据进行预训练,但最核心是现实生活中收集到的真实数据,包括机器人和人工采集的数据。

问:数据收集的途径有哪些?是否考虑与地方数据中心合作?

王潜:我们有集中式的数据采集场地,此外也有在现实环境中分散式收集数据的渠道,以及机器人实际部署后的回流数据和其他来源数据。

对于地方共建数据中心,我们持开放态度,愿意参与进去。

值得注意的是,数据收集的质量控制是非常困难的事情,整体采集管理和收集上来的数据是否有用,是一个有待验证的问题。

与之相对的是,我们自有场地采集的数据是经过充分验证的,质量更有保障。

问:如何判断数据质量?

王潜:这是一个非常复杂的问题,也是整个具身模型研发最核心的问题。

以语言模型为例,DeepSeek开源了模型和infra,但唯独没有开源数据,所以大家今天都可以复制一个DeepSeek,但是没人能达到DeepSeek-r1的水平,其中最核心的know-how来自数据。

03 具身模型不是语言模型的延伸

问:团队是否有做过跨本体泛化?

王潜:我们有做过,跨本体泛化需微调,肯定可以泛化过去,通过已经训练好的进行迁移也肯定没有从头做预训练那么困难。

但是里面需要注入多少资源、做多少事情、ROI是否算得过来、商业是否能走通,是一个比较大的问题,本质上是一个比较“重”的事情。

问:自变量的具身模型已经能做怎样的长序列任务?

王潜:复杂性上,我们可处理目前已知的最复杂的任务,如拉上散开衣服的拉链或扣扣子、然后挂起来。

长程上来讲,只要模型推理能力足够,中间不出现幻觉,且环境允许,理论上我们可以做任意长的任务。这是因为我们在模型中引入了思维链(CoT)方法。

大家之前做具身模型更多是调用一个r1这样的模型做高级推理和规划,当需要执行动作时,再调用一个安全的模型执行动作,这理论上还是有很多情况无法处理,是走不通的。

我们具身模型输出的内容包含语言、视觉、动作,输出的语言和视觉可以再输回去,所以在一个模型里可以构建无限长的思维链,这已经属于后训练,其中的一些动作可能训练过,但整个动作序列放到一起没训练过。

这样的任务我们依然能做,因为它本身有很好的零样本推理能力。

问:现在机器人只能做pick and place,复杂任务、长序列任务执行瓶颈在哪里?

王潜:瓶颈在模型训练本身。

类似GPT-3出现前,翻译任务很困难,但通用模型出现后,所有这样的任务都可以做得很好,对此我们还是非常期待。

这里特别要说明的是,我们认为这样的具身基础模型是独立于数字世界的基础模型,它不是语言模型的延伸,是平行于大语言模型的物理世界中的基础模型,因为物理世界和数字世界相比有大量的物理规律、随机性是不同的。

04 家庭是机器人最大市场,3-4年会出现早期产品

问:您觉得未来家庭对机器人有怎样的需求?

王潜:我认为在所有机器人应用场景中,家庭和生活相关场景(如养老)的需求是最大的单一市场。

经济学有过测算,人类家务劳动未计入GDP,但占比高达四分之一,因此家庭机器人市场潜力巨大,甚至可能比工业场景,以及所有其他场景都要更大。

问:决定机器人从展台走进家庭的关键是什么?

王潜:关键在于模型能力,目前硬件已基本满足需求,但还需要一个足够好的“大脑”,使其有具像人一样有操作、思考和判断能力。

时间上来看,预计3到4年我们就能够看到有这样的C端早期产品出现。

问:消费市场价格能下探到多少?

王潜:消费者能接受、产业链能够提供的一个价格,可能在1-2万美元之间,也就是10万元上下,但是现在大家还是做不到这一点,这需要产业链成本进一步优化。

问:公司未来是专注于本体,还是模型?

王潜:我们现在走的是软硬一体的路径,直接面向终端提供完整的产品或解决方案,而非单独出售模型。

机器人相对特殊,无法形成像Windows或Android这样的商业模式,机器人需软硬件高度耦合,软硬一体是最合理的商业模式。

问:有无研发双足人形机器人计划。

王潜:我们暂时没有研发双足机器人计划,未来较长时间,尤其是在室内场景将以轮式机器人为主。

问:有怎样的商业化思考?

王潜:第一个很明显的是,我们开始有硬件,硬件本身是一个很好的产品。

其次我们从简单到复杂,先进入科研市场,再逐步扩展到复杂的、传统机器人做不了的场景,再到最复杂的场景,这个过程中我们会一直持续在所有领域收集数据、探索市场。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
看看伊朗东北方都是哪些国家,就知道伊朗为何如此淡定了

看看伊朗东北方都是哪些国家,就知道伊朗为何如此淡定了

孤云朗境
2026-03-06 20:43:36
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
留几手谈张雪峰去世:死者又不是我爹,凭啥为大

留几手谈张雪峰去世:死者又不是我爹,凭啥为大

三言科技
2026-03-25 19:03:05
对越反击战牺牲最高级别将领:开战首日牺牲一个,撤军时牺牲一个

对越反击战牺牲最高级别将领:开战首日牺牲一个,撤军时牺牲一个

芳芳历史烩
2026-03-25 23:16:23
张雪峰去世后续!办公室内景曝光,门口堆满鲜花,写真照前放香炉

张雪峰去世后续!办公室内景曝光,门口堆满鲜花,写真照前放香炉

潮鹿逐梦
2026-03-26 11:53:28
俞灏明现身广州永庆坊,生图疤痕明显脸肿涨,手上戒指甜翻网友

俞灏明现身广州永庆坊,生图疤痕明显脸肿涨,手上戒指甜翻网友

洲洲影视娱评
2026-03-26 19:05:28
315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

现代小青青慕慕
2026-03-24 08:13:54
中央红军御林军,长征中戴钢盔配冲锋枪,一个团2名大将3名上将

中央红军御林军,长征中戴钢盔配冲锋枪,一个团2名大将3名上将

云霄纪史观
2026-03-26 17:16:00
14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

红星新闻
2026-03-24 23:25:19
如果马刺反超雷霆,文班亚马能否拿下MVP?

如果马刺反超雷霆,文班亚马能否拿下MVP?

篮球实录
2026-03-26 18:34:07
上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

黄河新闻网吕梁
2026-03-26 15:14:06
长征谜案揭开,白崇禧在湘江边网开一面,李宗仁晚年一句话说破

长征谜案揭开,白崇禧在湘江边网开一面,李宗仁晚年一句话说破

云端小院
2026-03-24 09:05:49
个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

中国能源网
2026-03-25 13:53:05
一刀两断!朝鲜官宣 “头号敌国”,东北亚大地震,中国稳得住吗

一刀两断!朝鲜官宣 “头号敌国”,东北亚大地震,中国稳得住吗

徐徐道史
2026-03-25 18:07:56
想不明白!当年李小冉两次怀上鄢颇的孩子,为何鄢颇仍是不娶她?

想不明白!当年李小冉两次怀上鄢颇的孩子,为何鄢颇仍是不娶她?

春之寞陌
2026-03-19 05:58:30
眼睛是“脑梗”的放大镜?医生说:眼睛若有这6个异常,及时就医

眼睛是“脑梗”的放大镜?医生说:眼睛若有这6个异常,及时就医

健康之光
2026-03-23 22:15:04
《雍正王朝》演员现状:有人住千万豪宅,有人晚节不保,有人离世

《雍正王朝》演员现状:有人住千万豪宅,有人晚节不保,有人离世

小徐讲八卦
2026-03-24 17:10:05
退役体操冠军,直播“擦边”之后

退役体操冠军,直播“擦边”之后

中国新闻周刊
2026-03-25 21:34:08
韩国首架量产KF-21下线,李在明称这象征该国“自主国防的雄心”

韩国首架量产KF-21下线,李在明称这象征该国“自主国防的雄心”

止戈军是我
2026-03-26 21:20:48
张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

天山箴言录
2026-03-26 16:45:50
2026-03-26 22:03:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7765文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
旅游
本地
亲子
公开课

转头就晕的耳石症,能开车上班吗?

旅游要闻

别再人挤人,泰州的这条老街,传承1200年!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

你好,我是馒头,快开门!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版