网易首页 > 网易号 > 正文 申请入驻

模型:变形的拉链,能测出机器人的“智商”——自变量王潜:改造“精密的废物”,须从“头”开始

0
分享至

  新华社北京9月15日电 9月15日,《新华每日电讯》发表题为《模型:变形的拉链,能测出机器人的“智商”——自变量王潜:改造“精密的废物”,须从“头”开始》的报道。

  2025世界机器人大会上,自变量机器人公司的轮式双臂机器人“小量”用一双巧手灵活制作香囊,“量子2号”仿人形机器人以7自由度手臂设计实现捏薯片不碎、360°清洁等高难度操作。支撑其复杂灵巧操作的是自变量自研的机器人“大脑”——通用具身大模型WALL-A。“一脑多用”的端到端技术,使机器人实现零样本泛化能力。

  什么样的机器人,才不被称作“精密的废物”?

  蹒跚学步至今,人形机器人正在取得肉眼可见的进步。然而,真正制约它走进工厂、融入家庭的并非四肢,而是能深刻理解物理世界、自主决策的“更强大脑”。没有大脑驱动的机器人,就好比失去灵魂的一块铁木,只能演示、无法实干。

  超越“花拳绣腿”,机器人的再进化也许真的要从“头”开始。

  记者:过去一年,人形机器人有了怎样的进化?

  王潜:去年夏天,还有很多人形机器人“动弹不了”,到今年,多款机器人已能走路、跑步乃至打拳、踢球,并逐步开始像人一样在广泛、复杂、真实的世界中自主移动、感知、理解、决策并灵巧地操作物体,以完成多样化的任务。驱动这些进化的,是算法的进一步成熟和收敛。

  记者:机器人的大脑虽然一直在进化,但技术路线还未“大一统”——有的用的是专用模型,有的用的是通用模型;有的采用分层模型,有的用上了端到端模型。哪种模型将是机器人大脑的“终局”?

  王潜:提到大模型,普遍认知中的还是大语言模型、多模态模型,或者视觉语言大模型(VLM)+动作模块。还有一种误解,认为具身智能的基础模型是这些模型的延伸。

  事实上,这些模型都属于虚拟世界的基础模型,并不是真正作用于物理世界的基础模型。由于机器人涉及真实世界极为复杂的物理交互,处理的问题与虚拟的数字世界所要解决的问题截然不同,所以机器人真正需要的是物理世界中一个全新的基础模型。

  如果对物理世界的某个局部做一个三维重建,看上去或许已达到1:1复刻,但只要有一点点小毛刺那样的瑕疵,在现实中都会造成操作上更大更棘手的问题,也就是说0.1%的谬误也可能会带来10%-20%的差池。

  物理世界最核心的难点,是存在大量随机的不可预测事件。哪怕只是一个用手推门的动作,也会因手的接触点位置、接触时长、力的方向和大小、动摩擦因数等参数的差异,产生非常多的随机可能。

  记者:可以说,现阶段机器人的泛化能力普遍还不强,比如刚在跑道上学习过跑步,换成草地就跑不起来了。而机器人能够进厂入户干活的前提是具备举一反三的能力,那么,如何能让机器人灵活应对复杂随机甚至是陌生的环境?

  王潜:传统的解题思路类似于“搭积木”:视觉识别、推理规划、动作生成各用一个模型,然后层层叠起……看似功能齐全,但信息传递时就像一排人在玩“传话游戏”,不仅效率低下,而且前一层产生的微小差错容易在后续环节积累巨大误差,无法实现深层跨模态理解。

  理想的“大脑”,比如人脑,能够让看见、思考、行动一气呵成。因此真正的具身智能模型,应当由一个模型覆盖从信号输入到动作输出的完整过程。处理长序列任务时,机器人无需划分从看到想再到动的界限,而通过一个统一的神经网络,边想边做,还能像人一样举一反三,遇到没见过的情境也能灵活应对。

  自变量是用一个通用具身智能模型来解决物理世界的复杂问题。具体来说,是把世界模型和端到端的通用模型放进同一个模型,也就是把视觉、语言、触觉、动作等所有模态信息塞进一个架构里统一处理。这就区别于直接把自动驾驶的模型迁移过来,或给虚拟世界的视觉语言模型加上运动模块的方式。

  记者:装上这样的大脑后,机器人能够解决哪些以分层模型或专用模型作为大脑的机器人解决不了的问题?

  王潜:比如机器人要完成穿衣服这一指令,如果遇到衣服突然掉落、拉链变形这样的动态变化或陌生状况,传统分层模型需要重新编程,而自变量的端到端模型只需少量样本即可迁移学习。端到端模型能通过“实时感知决策闭环”马上调整策略,而分层系统容易因模块间延迟出现“手足无措”。

  再比如,我们让装载端到端模型的机器人“小量”削苹果,它会去厨房岛台寻找水果刀,我们又告诉它这是一个有小孩的家庭,然后看到它从更高处的抽屉开始找起——它在行动前进行了逻辑推理:为防止水果刀被小孩翻到并使其受伤,水果刀会被放进更高的抽屉。

  装上通用大脑的机器人,还能拾取地面上的废纸、饮料瓶、塑料袋等各种形状不规则的垃圾,把沙发上随意堆叠的多件衣物放进脏衣篓。

  记者:区分一个机器人大脑的强弱,与评价一个人智商的方法和维度相似吗?

  王潜:机器人大脑的强弱即模型的优劣,更出色的模型具备更强的泛化能力、推理能力,能处理更复杂的问题。就泛化能力来说,从易到难可分为光照位置的泛化、环境背景的泛化、操作对象的泛化、操作任务的泛化。就任务复杂度来说,又分为操作动作的复杂度、推理及状态估计的复杂度、被操作物体的复杂度等不同维度。

  记者:训练一个这样的大脑,关键在于算法还是数据?

  王潜:在大约10年前的AI1.0时代,大家认为做AI就是做算法。如今,决定性因素从算法变成了数据。具身智能发展到深水区,核心竞争力就在于数据。

  从成本和效率的角度考虑,目前自变量是以真实数据为主、互联网数据为辅。自变量构建了全球最大的具身智能数据集,涵盖数万小时的机器人操作视频、触觉反馈、空间定位等多模态数据。为加快数据积累,自变量自研了物理准确性最高的视频生成大模型来做数据增强,通过切换背景、环境、接触物理过程等途径,将一条真实数据扩展为成百上千的数据,用来快速提升模型的泛化性。我认为数据质量的重要程度高于数据数量,而提升数据质量的一大途径在于扩大数据的多元性。

  记者:机器人是软硬件结合的工程。现在是“强本体—弱大脑”的阶段,还是“强大脑—弱本体”的阶段?

  王潜:具身智能是显著的“软件定义硬件”的领域,硬件需按照机器人大脑的进化去定义、去适配。

  记者:有人调侃:除了跳舞、翻跟头,人形机器人还能干什么?在跑步、跳舞、踢球、格斗中习得的能力,与机器人实际落地所需的能力,有多大的匹配度?

  王潜:匹配度不大。通用的机器人能力分为运动、导航、交互、操作四个维度,操作是关系到机器人进厂入户的最关键能力。这也是为什么自动驾驶的模型无法直接迁移到机器人身上,因为自动驾驶的能力难点集中在导航与运动上,而机器人的最大难点在于复杂操作。

  但换个视角来看,人形机器人公司要发展,首先要活下来。如果机器人短期内还无法进化为实实在在的生产力,那么训练一些娱乐能力、体育能力,也能给用户提供情绪价值。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
房子是上个月挂牌的,心是这个月凉透的!150万买的,现就这价?

房子是上个月挂牌的,心是这个月凉透的!150万买的,现就这价?

世界圈
2026-04-09 00:15:08
晚清名妓杨翠喜真容:貌美如花,身价达12000金,李叔同因她出家

晚清名妓杨翠喜真容:貌美如花,身价达12000金,李叔同因她出家

阿器谈史
2026-04-08 21:17:54
只差1场:文班亚马的肋骨,与NBA最荒诞的规则

只差1场:文班亚马的肋骨,与NBA最荒诞的规则

茅塞盾开本尊
2026-04-09 12:42:15
一包中国方便面,在朝鲜为何成了普通人高攀不起的“奢侈品”?

一包中国方便面,在朝鲜为何成了普通人高攀不起的“奢侈品”?

复转这些年
2026-04-07 12:22:45
高市早苗跪也没用!日本这次,是真的被掐住命门了

高市早苗跪也没用!日本这次,是真的被掐住命门了

新浪财经
2026-04-09 00:52:07
文班亚马希望落空!ESPN公布MVP赔率榜:亚历山大断崖式领先!

文班亚马希望落空!ESPN公布MVP赔率榜:亚历山大断崖式领先!

爱体育
2026-04-09 21:17:38
难怪张兰生日没人管,建国曝汪小菲还在讨好S妈,马筱梅成"笑话"

难怪张兰生日没人管,建国曝汪小菲还在讨好S妈,马筱梅成"笑话"

观察鉴娱
2026-04-09 09:53:29
台北市长满意度近七成,国民党支持率却跌破三成。

台北市长满意度近七成,国民党支持率却跌破三成。

吃货的分享
2026-04-09 17:48:49
受贿3962万余元,贵州省人大教育科学文化卫生委员会原委员石京山一审获刑11年6个月

受贿3962万余元,贵州省人大教育科学文化卫生委员会原委员石京山一审获刑11年6个月

界面新闻
2026-04-09 21:14:40
券商一哥“中信证券” 2026 年一季度业绩快报深度解析

券商一哥“中信证券” 2026 年一季度业绩快报深度解析

立成说投资
2026-04-09 18:38:12
历史老师跌入“无人区”:某高中20人教研组,近一半无学生可教

历史老师跌入“无人区”:某高中20人教研组,近一半无学生可教

听心堂
2026-03-31 15:52:04
游戏结束,李嘉诚套现960多亿,转手增持石油,中方港口管控升级

游戏结束,李嘉诚套现960多亿,转手增持石油,中方港口管控升级

影孖看世界
2026-04-09 22:08:46
当不成首相了?高市身体出了问题,日本请求对话,伊朗泼了冷水

当不成首相了?高市身体出了问题,日本请求对话,伊朗泼了冷水

影孖看世界
2026-04-09 22:40:48
地铁员工大量辞职,直言不仅是因为工资低,3大原因太现实

地铁员工大量辞职,直言不仅是因为工资低,3大原因太现实

李橑在北漂
2026-04-09 14:02:36
中国龙江森林工业集团有限公司原党委委员、副总经理马椿平接受纪律审查和监察调查

中国龙江森林工业集团有限公司原党委委员、副总经理马椿平接受纪律审查和监察调查

证券时报
2026-04-09 17:02:05
过分谄媚会显得特别真诚!网友:看完发现,我两千的工资一点不冤

过分谄媚会显得特别真诚!网友:看完发现,我两千的工资一点不冤

夜深爱杂谈
2026-04-08 17:06:30
官方出手了!282人微信群骂全红禅三年,群成员被扒,身份不简单

官方出手了!282人微信群骂全红禅三年,群成员被扒,身份不简单

离离言几许
2026-04-09 12:20:45
逆转了!小杨阿姨成网友心中最信任之人,马筱梅人设遭遇滑铁卢

逆转了!小杨阿姨成网友心中最信任之人,马筱梅人设遭遇滑铁卢

梦回千年aa
2026-04-09 14:25:55
半个世纪后,人类终于绕回月亮背后,顺手拍了几张绝版壁纸

半个世纪后,人类终于绕回月亮背后,顺手拍了几张绝版壁纸

果壳
2026-04-08 16:12:00
伊朗发现重大惊喜,打向以色列的导弹,一颗竟然都没被拦截

伊朗发现重大惊喜,打向以色列的导弹,一颗竟然都没被拦截

小魏谈局势维度
2026-04-08 20:18:07
2026-04-09 23:15:00
新华社 incentive-icons
新华社
新华社是国家通讯社
666847文章数 2431249关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

白宫打击伊朗决策内幕披露:鲁比奥曾直言以计划乱扯

头条要闻

白宫打击伊朗决策内幕披露:鲁比奥曾直言以计划乱扯

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

停火又悬了,最糟糕的情况要来了?

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

教育
健康
数码
家居
军事航空

教育要闻

小学竞赛题:家长表示超纲了,学霸解法太妙了

干细胞抗衰4大误区,90%的人都中招

数码要闻

TP-LINK普联推出TL-7DR3600双频Wi-Fi 7路由器,169.9元

家居要闻

清新自然 复古风尚

军事要闻

黎真主党发射火箭弹 回应以违反停火协议

无障碍浏览 进入关怀版