网易首页 > 网易号 > 正文 申请入驻

对话王潜:具身模型不是语言模型的延伸,机器人ChatGPT时刻需3-5年

0
分享至

作者 |金旺

栏目 |机器人新纪元

8月8日,2025世界机器人大会(WRC 2025)在京召开。

相较往年,今年大会已经完全转向了具身机器人,即便是在传统工业机器人展台上,也不乏各种形态的具身机器人,乃至人形机器人。

这样的改变源自于三年前由大模型掀起的人工智能热潮,也是在这波热潮中,一家名为自变量机器人的具身智能团队在2023年年底成立。

这家公司成立之初就聚焦研发端到端通用具身大模型,自变量机器人创始人兼CEO王潜认为,通用具身大模型是独立于于数字世界的基础模型。

“它不是大语言模型的延伸,而是平行于大语言模型的物理世界中的基础模型。”

秉持着这样的理念,自变量机器人团队随后训练出了WALL-A模型,与此同时,2025年,他们也不再只是一家具身智能模型公司,随着自研本体整机的面世,公司重新被定位到了软硬一体具身智能公司。

在这次展会上,自变量机器人的量子2号具身机器人正式亮相,这成了自变量机器人迈入真实世界的一个全新载体。

更多关于具身智能的技术难题、发展瓶颈,以及自变量机器人的未来发展计划,我们在大会上与王潜进行了一场对话,王潜给出了他眼中的答案。

01 人形机器人的ChatGPT时刻,仍需3-5年

问:人形机器人的“ChatGPT时刻”何时到来?其中技术难点是什么?

王潜:预计需要3-5年时间周期,才会达到类似ChatGPT的水平。

机器人模型与语言模型不同,应用场景复杂,会有一个比较平滑的过渡过程,它不会像自动驾驶技术发展一样有一个突变的过程,因此也不会有因此带来的大的商业上的波折。

要达到ChatGPT水平,关键首先是Scaling Law可以持续发挥作用,这也是我们已经确定的,然后需要足够多的数据、足够大的具身模型,同时模型架构和训练方法等方面还需要持续向前演进。

我认为这条路径已经相对清晰,与大语言模型走的是类似的路径。

问:您认为硬件是否仍是机器人发展的障碍?

王潜:我个人认为,两三年前,具身机器人或人形机器人赛道兴起时,硬件就已经不是障碍,因为那时技术路线已经相对成熟,大家能做的机器人硬件也已经达到了相当水准,只是还需要产品化、商业化。

从模型来看,大家已经做了几十年,但除了抓取、放置,依然没有做到让机器人执行更复杂的任务,这是机器人现在无法更像人一样的关键。

问:现阶段限制机器人产业化应用的因素有哪些?

王潜:主要限制因素是机器人的“大脑”。

大家在展馆中看到了大量运动能力做得很不错的机器人,但与此同时,他们能够提供的“实用价值”有限,更多提供的还是“形式价值”。

这个并不是硬件问题,核心在于人工智能水平还未达到,所以本身模型能力是其中的关键。

当然,就机器人整个产业链而言,包括零部件、成本等也都尚未完全成熟,但是我们已经走在了正确的路上。

问:过去一两年机器人领域的技术突破是什么?

王潜:过去一两年,行业有两个重要变化:

第一,行业逐渐形成了共识,我们确实需要一个完全端到端的模型;

第二,这样的模型一定是一个基础通用模型。

2023年大模型浪潮刚刚兴起时,还没什么人相信机器人端到端技术路径,我们在那时率先走上了这条技术路线,但如今这已经成为行业趋势,我觉得这是整个行业统一思想、向一个正确方向前进的标志。

未来两三年,具身机器人领域预计会出现类似语言模型的Scaling Law带来的重大技术突破,我对此非常乐观。

02 复杂交互不用仿真数据,数据质量是技术难题

问:如何解决数据稀缺问题?在数据筛选和应用方面有何策略?

王潜:我们现在一个大的策略是,所有涉及到复杂物理交互(如接触丰富的手部操作)完全不使用仿真数据。

我们在这个方面探索了十几年,基本结论是,手部复杂操作无法通过仿真数据来进化。

不过,导航、走路、高级任务推理和规划更适合用仿真数据,很多团队的机器人走路都是在虚拟世界中训练出来,然后迁移到真实世界中。

此外,手部pick and place这样的操作用仿真数据训练也是完全没问题的。

关于仿真数据我们的态度一向比较明确,当然我们也在广泛使用互联网视频数据进行预训练,但最核心是现实生活中收集到的真实数据,包括机器人和人工采集的数据。

问:数据收集的途径有哪些?是否考虑与地方数据中心合作?

王潜:我们有集中式的数据采集场地,此外也有在现实环境中分散式收集数据的渠道,以及机器人实际部署后的回流数据和其他来源数据。

对于地方共建数据中心,我们持开放态度,愿意参与进去。

值得注意的是,数据收集的质量控制是非常困难的事情,整体采集管理和收集上来的数据是否有用,是一个有待验证的问题。

与之相对的是,我们自有场地采集的数据是经过充分验证的,质量更有保障。

问:如何判断数据质量?

王潜:这是一个非常复杂的问题,也是整个具身模型研发最核心的问题。

以语言模型为例,DeepSeek开源了模型和infra,但唯独没有开源数据,所以大家今天都可以复制一个DeepSeek,但是没人能达到DeepSeek-r1的水平,其中最核心的know-how来自数据。

03 具身模型不是语言模型的延伸

问:团队是否有做过跨本体泛化?

王潜:我们有做过,跨本体泛化需微调,肯定可以泛化过去,通过已经训练好的进行迁移也肯定没有从头做预训练那么困难。

但是里面需要注入多少资源、做多少事情、ROI是否算得过来、商业是否能走通,是一个比较大的问题,本质上是一个比较“重”的事情。

问:自变量的具身模型已经能做怎样的长序列任务?

王潜:复杂性上,我们可处理目前已知的最复杂的任务,如拉上散开衣服的拉链或扣扣子、然后挂起来。

长程上来讲,只要模型推理能力足够,中间不出现幻觉,且环境允许,理论上我们可以做任意长的任务。这是因为我们在模型中引入了思维链(CoT)方法。

大家之前做具身模型更多是调用一个r1这样的模型做高级推理和规划,当需要执行动作时,再调用一个安全的模型执行动作,这理论上还是有很多情况无法处理,是走不通的。

我们具身模型输出的内容包含语言、视觉、动作,输出的语言和视觉可以再输回去,所以在一个模型里可以构建无限长的思维链,这已经属于后训练,其中的一些动作可能训练过,但整个动作序列放到一起没训练过。

这样的任务我们依然能做,因为它本身有很好的零样本推理能力。

问:现在机器人只能做pick and place,复杂任务、长序列任务执行瓶颈在哪里?

王潜:瓶颈在模型训练本身。

类似GPT-3出现前,翻译任务很困难,但通用模型出现后,所有这样的任务都可以做得很好,对此我们还是非常期待。

这里特别要说明的是,我们认为这样的具身基础模型是独立于数字世界的基础模型,它不是语言模型的延伸,是平行于大语言模型的物理世界中的基础模型,因为物理世界和数字世界相比有大量的物理规律、随机性是不同的。

04 家庭是机器人最大市场,3-4年会出现早期产品

问:您觉得未来家庭对机器人有怎样的需求?

王潜:我认为在所有机器人应用场景中,家庭和生活相关场景(如养老)的需求是最大的单一市场。

经济学有过测算,人类家务劳动未计入GDP,但占比高达四分之一,因此家庭机器人市场潜力巨大,甚至可能比工业场景,以及所有其他场景都要更大。

问:决定机器人从展台走进家庭的关键是什么?

王潜:关键在于模型能力,目前硬件已基本满足需求,但还需要一个足够好的“大脑”,使其有具像人一样有操作、思考和判断能力。

时间上来看,预计3到4年我们就能够看到有这样的C端早期产品出现。

问:消费市场价格能下探到多少?

王潜:消费者能接受、产业链能够提供的一个价格,可能在1-2万美元之间,也就是10万元上下,但是现在大家还是做不到这一点,这需要产业链成本进一步优化。

问:公司未来是专注于本体,还是模型?

王潜:我们现在走的是软硬一体的路径,直接面向终端提供完整的产品或解决方案,而非单独出售模型。

机器人相对特殊,无法形成像Windows或Android这样的商业模式,机器人需软硬件高度耦合,软硬一体是最合理的商业模式。

问:有无研发双足人形机器人计划。

王潜:我们暂时没有研发双足机器人计划,未来较长时间,尤其是在室内场景将以轮式机器人为主。

问:有怎样的商业化思考?

王潜:第一个很明显的是,我们开始有硬件,硬件本身是一个很好的产品。

其次我们从简单到复杂,先进入科研市场,再逐步扩展到复杂的、传统机器人做不了的场景,再到最复杂的场景,这个过程中我们会一直持续在所有领域收集数据、探索市场。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视拒付天价转播费仅1天!令人担忧的事发生,中国球迷"一边倒"

央视拒付天价转播费仅1天!令人担忧的事发生,中国球迷"一边倒"

探源历史
2026-05-10 05:14:44
女子称凌晨在出租屋疑遭陌生人闯入 床上出现不明液体 警方已立案

女子称凌晨在出租屋疑遭陌生人闯入 床上出现不明液体 警方已立案

红星新闻
2026-05-09 19:45:20
尴尬!王石公开脱衣秀身材“翻车”,网友:像是一副被榨干的躯体

尴尬!王石公开脱衣秀身材“翻车”,网友:像是一副被榨干的躯体

火山詩话
2026-05-08 21:39:02
滴滴司机讲述东北萧条:一家三口一年挣两三万,很多老人翻垃圾桶

滴滴司机讲述东北萧条:一家三口一年挣两三万,很多老人翻垃圾桶

互联网大观
2026-05-09 13:07:25
台积电的美国亚利桑那厂已悄然失败,400亿美元烧完,良率不到日本厂一半

台积电的美国亚利桑那厂已悄然失败,400亿美元烧完,良率不到日本厂一半

风向观察
2026-05-09 13:29:53
续约两年!科尔继续担任勇士主帅 仍会是NBA现役最高薪主教练

续约两年!科尔继续担任勇士主帅 仍会是NBA现役最高薪主教练

醉卧浮生
2026-05-10 08:30:28
皮皮虾事件博主陈女士相关信息被扒,网友又开始网暴她了

皮皮虾事件博主陈女士相关信息被扒,网友又开始网暴她了

映射生活的身影
2026-05-09 10:45:43
南宁一群众到法院申请立案被法警群殴断两根肋骨!警方:不予立案

南宁一群众到法院申请立案被法警群殴断两根肋骨!警方:不予立案

兵叔评说
2026-05-09 13:21:06
法拉奇横空出世,英国政治正式进入“川普化”新时代

法拉奇横空出世,英国政治正式进入“川普化”新时代

壹家言
2026-05-09 16:03:04
苹果AI吊坠曝光:AirTag大小,摄像头永远开着

苹果AI吊坠曝光:AirTag大小,摄像头永远开着

碳基打工人
2026-05-09 07:37:08
伦敦世乒赛今晚落幕!5月10日赛程公布:中日巅峰对决争夺2项冠军

伦敦世乒赛今晚落幕!5月10日赛程公布:中日巅峰对决争夺2项冠军

全言作品
2026-05-10 06:21:22
尴尬!网红神裤成审美灾难,网友称市场有需求,有些人恨不得裸奔

尴尬!网红神裤成审美灾难,网友称市场有需求,有些人恨不得裸奔

火山詩话
2026-05-09 19:50:52
这出黑色幽默,没人笑得出来

这出黑色幽默,没人笑得出来

梳子姐
2026-05-09 09:23:35
仅退款榴莲后续,商家向误伤女孩道歉,店铺销量爆增,涨粉近5万

仅退款榴莲后续,商家向误伤女孩道歉,店铺销量爆增,涨粉近5万

夜深爱杂谈
2026-05-09 23:33:25
外卖小哥冒死冲进火场救火 被物业收取50元“灭火器使用费”

外卖小哥冒死冲进火场救火 被物业收取50元“灭火器使用费”

闪电新闻
2026-05-09 09:31:06
上海绿捷,串标行为情节特别严重!涉金额约3.23亿元、9.6万多名中小学生餐食供应

上海绿捷,串标行为情节特别严重!涉金额约3.23亿元、9.6万多名中小学生餐食供应

野渡商业评论
2026-05-09 18:23:36
37死51伤!浏阳烟花厂爆炸原因查明,公司实际控制人被扒,后续!

37死51伤!浏阳烟花厂爆炸原因查明,公司实际控制人被扒,后续!

眼光很亮
2026-05-10 05:50:27
摊牌!!除了球队老大!全部都卖!!!

摊牌!!除了球队老大!全部都卖!!!

柚子说球
2026-05-09 22:44:07
倪萍母亲节广告翻车!国民妈妈变惊悚画风,脸部畸形,太恐怖了

倪萍母亲节广告翻车!国民妈妈变惊悚画风,脸部畸形,太恐怖了

魔都姐姐杂谈
2026-05-09 20:34:59
0-2落后!王皓:“老梁相信自己,就当输了” 梁靖崑随后连赢3局

0-2落后!王皓:“老梁相信自己,就当输了” 梁靖崑随后连赢3局

风过乡
2026-05-10 06:03:46
2026-05-10 09:19:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8282文章数 563关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

美军对伊朗多个目标发动打击 伊朗革命卫队深夜警告

头条要闻

美军对伊朗多个目标发动打击 伊朗革命卫队深夜警告

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

旅游
本地
时尚
公开课
军事航空

旅游要闻

早安!花开好市火热进行,周末来赴一场花漾约会吧

本地新闻

用苏绣的方式,打开江西婺源

越减越胖的人 ,被“0糖0脂”做局了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版