网易首页 > 网易号 > 正文 申请入驻

中国具身大模型该怎么走?自变量找了条可复制的路

0
分享至



作者:彭堃方

编辑:吕鑫燚

出品:具身研习社

近日,在全球首个大规模、多任务的,在真实物理环境中由真实机器人执行操作任务的基准测试RoboChallenge榜单新鲜出炉。总得分排行第一为Physcial Intelligence的开源模型pi0.5,第二为自变量的开源模型WALL-OSS,第三为PI的另一开源模型pi0。其中,WALL-OSS总分数为54.69,加上成功率35.33%。



这是一份非常有意思的榜单,首先自变量的表现说明具身智能大模型领域的“中美差距“正在像LLM(大语言模型)一样,迅速填平差距。其次,所有评测模型皆为开源模型,从而让所有模型在公众的视野下接受评测,打开了具身智能神秘的黑盒。

可以说RoboChallenge为具身智能大模型找到了一条基准线,也为外界窥探具身智能大脑的真实能力进展打开了窗口。

以自变量为例,去年9月,自变量开源了其具身基础模型WALL-OSS。对于生态来说,自变量选择开源WALL-OSS,本质上是重塑了产业的协同逻辑,它将“重复造轮子”的内耗,转化为“聚沙成塔”的合力。提供了一个高可靠性的通用底座,让全球开发者可以在此基础上贡献长尾场景数据,共同喂养出一个真正理解物理法则的“超级大脑”。

对于产业来说,自变量此举让成百上千的中小机器人企业能够基于WALL-OSS快速生长出垂直领域的应用,从而让机器人用更聪明的大脑引爆整个产业的商业化临界点。

值得注意的是,WALL-OSS开源是更为稀缺的“真开源”,和其他开源为“阉割代码”不同,它开放一整套完整、可复现的具身大模型解决方案,包括预训练模型权重、训练代码、数据集接口,甚至附上详细部署文档。让开发者能更好微调或者复现能力。

可以说,在具身智能这片长坡厚雪的赛道上,开源不仅是在跑自己的马拉松,更是在为整个行业铲雪修路。因为只有当“大脑”不再成为稀缺品时,通用机器人的黄金时代才会真正到来。



RoboChallenge是由Dexmal原力灵机与Hugging Face共同发起的全球首个大规模、多任务的真机基准测试平台。它旨在为VLA在视觉-语言-动作模型在机器人上的应用提供一个开放、公正、可复现的评估标准,以解决机器人行业长期缺乏统一评测基准的痛点,推动具身智能从实验室研究走向现实世界应用。

其核心测试集Table30作为RoboChallenge平台首发的桌面操作基准测试集,构建了一个涵盖30项真实生活情境的“全科考场”。从擦桌子、折叠洗碗布等基础家务,到插花、插网线等精细操作,再到打开水龙头、制作三明治等复杂交互,细致全面的考察了模型的智能边界。

虽然RoboChallenge一定程度上打破了具身模型的“自唱自说”,但其并不是完全的“一锤定音”。毕竟,具身模型与大语言模型的测评存在本质区别,具身模型采用提前公开任务的“类开卷”考试范式,核心评价指标为视频化的实际动作执行效果,和大语言模型“裸考”有着本质区别。

在此背景下,具身模型测评的另一条信号在于,公开代码的开源模型更具技术真实性与产业价值,不仅支持全流程复现,还能赋能行业生态。

以自变量的WALL-OSS表现为例,在put_opener_in_drawer(开瓶器入抽屉)、hang_toothbrush_cup(挂牙刷杯)、move_objects_into_box(移动目标物入箱)等高难度任务上,WALL-OSS单项得分位列前茅,甚至超过总分第一的pi0.5,展现了模型顶尖的执行效率和稳定性。



在“开瓶器入抽屉”的实战中,模型需要从咖啡机、盆栽等干扰项中精准识别目标,然后依循执行逻辑,率先完成精确的“捏拉”动作打开抽屉,最后凭借对空间位置的深入理解,拿放开瓶器,实现闭环操作。

透过上述任务执行可见,WALL-OSS在复杂长指令任务中的稳定发挥,意味着其已经进化为一个具备出色逻辑推理与空间感知能力的“聪明大脑”。换句话说,WALL-OSS的出色表现,完全基于其对物理世界的本质理解与多模态指令的深度对齐,而非针对已知考题进行的特殊训练。

此外,WALL-OSS作为一款完全开源的模型,代码逻辑与模型参数均公开透明,其测评表现是真实且可复验的。(开发者最快一周就能在自有机器人上完成适配)

可见,WALL-OSS的表现,不仅仅是一个具身大模型的成绩,而是其开源后能实打实赋能开发者的真实底气。



正如开文所述,RoboChallenge榜单前七名均为开源模型,其参赛主体分别为Pi0.5Pi0WALL-OSSpi05_generalistCogACTpi0_generalistopenvla-oft。(主要模型为Pi0.5Pi0WALL-OSSCogACTopenvla)。

其中,Pi0、pi0.5背后的公司Physical Intelligence主要团队成员来自伯克利、斯坦福等高校和谷歌专家等。由‌前Google DeepMind机器人科学家,斯坦福大学兼职教授Karol Hausman‌担任CEO。联合创始人Sergey Levine‌为加州大学伯克利分校(UC Berkeley)副教授,深度强化学习领域的奠基人之一,致力于通用机器人模型开发。

WALL-OSS背后的自变量机器人,创始人王潜为南加州大学博士学位,曾于美国顶级机器人实验室从事机器人学习与人机交互研究,是全球最早在神经网络中提出Attention机制的研究者之一,其成果与谷歌同期发表于国际会议。CTO王昊为北京大学计算物理博士,曾任职于粤港澳大湾区数字经济研究院(IDEA研究院),主导开发国内首个多模态开源大模型“太乙”、百亿级大语言模型“燃灯”及千亿级模型“姜子牙”,累计下载量超百万次。

‌CogACT的研究团队来自清华大学、微软亚研院等机构;OpenVLA模型由斯坦福大学、加州大学伯克利分校、谷歌DeepMind等机构的研究团队联合开发。

开源模型齐聚榜单为具身大模型的未来发展释放了一个清晰的信号,开源模型更具有含金量,也更能赋能行业成长。这一点从不同主体基于同一个开源模型调整参赛就能看出。

时至今日,没有人会再争议“开源”和“闭源”孰优孰劣,但一定会有人好奇:开源能带来什么?

回答这个问题,可以从AI大模型找到答案。

开源不是因为“卷不过”,而是为了“赢下未来”。DeepSeek、Qwen的成功不在于它是否永远霸榜,而在于它把大模型的价格打了下来,把技术门槛拆了下来,让万千开发者能用上“握在自己手里”的模型。 如果你还记得,你会想起年初各大国企接入DeepSeek,到了年末,甚至连美国企业反倒用起了中国的AI模型。

自变量开源WALL-OSS的意义如出一辙: 国内无数本体机器人公司和中小具身厂商,原本都在各自为战、重复造轮子。

此前在《硅谷101》博客中,谈及开源的初心时,自变量曾表示主要出于两点考虑。其一,是技术成熟度,其二是行业需要的程度。从技术成熟度来讲,类似于VLA的结构,经过了很长时间的论证,大家在训练方法上有很多探索,相当于有一定的应用上的共识以及经验。所以从技术成熟来讲,此时具有这样结构的模型对产业来讲是个很需要的事情。

从需要程度来看,国内产业里(开源时间为2025年9月)没有在一个框架下的国产自研统一模型,但行业迫切需要的强大的开放基座模型,来助推行业成长。

自变量把“大脑”开源,相当于为全行业提供了一个高性能的通用底座。只有底座开源,国内的具身智能应用才会像当初的AI应用一样“百花齐放”,加速中国具身智能“聚沙成塔”的过程。

毕竟,真正的核心竞争力,不在于实验室中的参数高低,而在于真实世界中的作业能力;真正的产业价值,不在于技术的孤芳自赏,而在于通过开源与协同,推动整个行业的升级与进步。

对于产业来说,具身智能是一场马拉松,是“长坡厚雪”、“众人拾柴”的赛道。自变量机器人的开源,本质上是一种利他主义的竞争策略。而且放眼整个具身智能的竞争,最终不是比谁的实验室模型更漂亮,而是比谁能最快让千万台机器人走入现实。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全球最赚钱超模吉赛尔·邦辰,选择与一位“身无分文”的教练结婚

全球最赚钱超模吉赛尔·邦辰,选择与一位“身无分文”的教练结婚

星野娱乐天地
2026-01-11 16:16:16
夫妻性生活中的“小动作”技巧:让妻子“爽”到骨子里的四个秘诀

夫妻性生活中的“小动作”技巧:让妻子“爽”到骨子里的四个秘诀

精彩分享快乐
2025-12-04 13:26:44
中方制裁再加码,高市报复升级,不许中国开采油气田,日推迟访华

中方制裁再加码,高市报复升级,不许中国开采油气田,日推迟访华

叮当当科技
2026-01-11 15:26:32
300多守卫被20多美军特种兵全歼!委内瑞拉总统卫队幸存者崩溃讲述当晚可怕经历

300多守卫被20多美军特种兵全歼!委内瑞拉总统卫队幸存者崩溃讲述当晚可怕经历

大洛杉矶LA
2026-01-11 07:08:16
腐乳再次被关注!研究发现:糖尿病患者常吃腐乳,或出现5种变化

腐乳再次被关注!研究发现:糖尿病患者常吃腐乳,或出现5种变化

冷眼看世界728
2025-11-28 09:30:44
泪目!超万名切尔西球迷6天3次高唱阿布名字:53亿镑已被冻结3年

泪目!超万名切尔西球迷6天3次高唱阿布名字:53亿镑已被冻结3年

风过乡
2026-01-11 09:30:21
钱再多有什么用?67岁身价千万的李幼斌,给所有中老年人提了个醒

钱再多有什么用?67岁身价千万的李幼斌,给所有中老年人提了个醒

梦史
2026-01-10 14:02:41
9胜2负!快船联盟第一,泰伦卢预言成真,科林斯25+7也成全明星了

9胜2负!快船联盟第一,泰伦卢预言成真,科林斯25+7也成全明星了

巴叔GO聊体育
2026-01-11 12:49:31
“我儿子从不穿地摊货”,一张照片让网友笑了:穿龙袍也不像太子

“我儿子从不穿地摊货”,一张照片让网友笑了:穿龙袍也不像太子

夜深爱杂谈
2026-01-04 22:56:36
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
我国癌症高发,电饭煲是“帮凶”?提醒:4种省钱行为确实要不得

我国癌症高发,电饭煲是“帮凶”?提醒:4种省钱行为确实要不得

DrX说
2026-01-09 14:21:49
再抠门,也不要在网上买这6样东西,会致癌,看完真会后怕的!

再抠门,也不要在网上买这6样东西,会致癌,看完真会后怕的!

古事寻踪记
2026-01-07 07:18:22
真泪目了!于和伟新剧饰演伟人,简直像的吓人,这次该他拿奖了

真泪目了!于和伟新剧饰演伟人,简直像的吓人,这次该他拿奖了

娱乐圈笔娱君
2026-01-09 16:27:28
领导突然问你“要不要考虑去别的岗位”,千万不要说“我考虑下”,高情商这么回,反客为主!

领导突然问你“要不要考虑去别的岗位”,千万不要说“我考虑下”,高情商这么回,反客为主!

二胡的岁月如歌
2026-01-03 18:02:12
贾玲为张小斐庆生!本人没复胖目测100斤,私下没架子超级好相处

贾玲为张小斐庆生!本人没复胖目测100斤,私下没架子超级好相处

章眽八卦
2026-01-11 13:23:59
我任职副县长,县委书记看不惯我,若干年后我任省长的下手

我任职副县长,县委书记看不惯我,若干年后我任省长的下手

荔枝人物记
2024-12-19 15:24:11
金价飙升,多家银行公告提醒

金价飙升,多家银行公告提醒

澎湃新闻
2026-01-11 14:00:03
咸鱼还是太全面了,怪不得人称国内黑市

咸鱼还是太全面了,怪不得人称国内黑市

另子维爱读史
2025-12-20 17:07:20
从传统评点看金庸|《射雕》篇:金庸为何如此修改《射雕》?

从传统评点看金庸|《射雕》篇:金庸为何如此修改《射雕》?

澎湃新闻
2026-01-10 16:02:27
解放军在云南原始森林,发现一群男女,他们住草棚靠野果捕猎为生

解放军在云南原始森林,发现一群男女,他们住草棚靠野果捕猎为生

文史微鉴
2025-10-13 09:26:46
2026-01-12 03:39:00
具身研习社
具身研习社
记录具身智能浪潮迭代。
88文章数 1关注度
往期回顾 全部

科技要闻

“我们与美国的差距也许还在拉大”

头条要闻

美军突袭委内瑞拉俄制防空系统失联 俄方回应

头条要闻

美军突袭委内瑞拉俄制防空系统失联 俄方回应

体育要闻

U23国足形势:末轮不负泰国即确保晋级

娱乐要闻

留几手为闫学晶叫屈?称网友自卑敏感

财经要闻

外卖平台"烧钱抢存量市场"迎来终局?

汽车要闻

2026款宋Pro DM-i长续航补贴后9.98万起

态度原创

家居
旅游
数码
教育
手机

家居要闻

木色留白 演绎现代自由

旅游要闻

哈尔滨文旅又放大招!老街重现传统婚俗,这才是打开冬天的方式

数码要闻

科技有AI,连接全球:海信家电参展CES 2026,定义智慧生活新图景

教育要闻

90%的学校不会教,影响孩子一生的学习方法

手机要闻

曝三星Galaxy S26 Ultra支持 eSIM,新机下月见

无障碍浏览 进入关怀版