中国具身大模型该怎么走？自变量找了条可复制的路|复现|神经网络|正式版模型

中国具身大模型该怎么走？自变量找了条可复制的路

2026-01-09 14:42:33　来源: 具身研习社

北京举报

分享至

作者：彭堃方

编辑：吕鑫燚

出品：具身研习社

近日，在全球首个大规模、多任务的，在真实物理环境中由真实机器人执行操作任务的基准测试RoboChallenge榜单新鲜出炉。总得分排行第一为Physcial Intelligence的开源模型pi0.5，第二为自变量的开源模型WALL-OSS，第三为PI的另一开源模型pi0。其中，WALL-OSS总分数为54.69，加上成功率35.33%。

这是一份非常有意思的榜单，首先自变量的表现说明具身智能大模型领域的“中美差距“正在像LLM(大语言模型)一样，迅速填平差距。其次，所有评测模型皆为开源模型，从而让所有模型在公众的视野下接受评测，打开了具身智能神秘的黑盒。

可以说RoboChallenge为具身智能大模型找到了一条基准线，也为外界窥探具身智能大脑的真实能力进展打开了窗口。

以自变量为例，去年9月，自变量开源了其具身基础模型WALL-OSS。对于生态来说，自变量选择开源WALL-OSS，本质上是重塑了产业的协同逻辑，它将“重复造轮子”的内耗，转化为“聚沙成塔”的合力。提供了一个高可靠性的通用底座，让全球开发者可以在此基础上贡献长尾场景数据，共同喂养出一个真正理解物理法则的“超级大脑”。

对于产业来说，自变量此举让成百上千的中小机器人企业能够基于WALL-OSS快速生长出垂直领域的应用，从而让机器人用更聪明的大脑引爆整个产业的商业化临界点。

值得注意的是，WALL-OSS开源是更为稀缺的“真开源”，和其他开源为“阉割代码”不同，它开放一整套完整、可复现的具身大模型解决方案，包括预训练模型权重、训练代码、数据集接口，甚至附上详细部署文档。让开发者能更好微调或者复现能力。

可以说，在具身智能这片长坡厚雪的赛道上，开源不仅是在跑自己的马拉松，更是在为整个行业铲雪修路。因为只有当“大脑”不再成为稀缺品时，通用机器人的黄金时代才会真正到来。

RoboChallenge是由Dexmal原力灵机与Hugging Face共同发起的全球首个大规模、多任务的真机基准测试平台。它旨在为VLA在视觉-语言-动作模型在机器人上的应用提供一个开放、公正、可复现的评估标准，以解决机器人行业长期缺乏统一评测基准的痛点，推动具身智能从实验室研究走向现实世界应用。

其核心测试集Table30作为RoboChallenge平台首发的桌面操作基准测试集，构建了一个涵盖30项真实生活情境的“全科考场”。从擦桌子、折叠洗碗布等基础家务，到插花、插网线等精细操作，再到打开水龙头、制作三明治等复杂交互，细致全面的考察了模型的智能边界。

虽然RoboChallenge一定程度上打破了具身模型的“自唱自说”，但其并不是完全的“一锤定音”。毕竟，具身模型与大语言模型的测评存在本质区别，具身模型采用提前公开任务的“类开卷”考试范式，核心评价指标为视频化的实际动作执行效果，和大语言模型“裸考”有着本质区别。

在此背景下，具身模型测评的另一条信号在于，公开代码的开源模型更具技术真实性与产业价值，不仅支持全流程复现，还能赋能行业生态。

以自变量的WALL-OSS表现为例，在put_opener_in_drawer（开瓶器入抽屉）、hang_toothbrush_cup（挂牙刷杯）、move_objects_into_box（移动目标物入箱）等高难度任务上，WALL-OSS单项得分位列前茅，甚至超过总分第一的pi0.5，展现了模型顶尖的执行效率和稳定性。

在“开瓶器入抽屉”的实战中，模型需要从咖啡机、盆栽等干扰项中精准识别目标，然后依循执行逻辑，率先完成精确的“捏拉”动作打开抽屉，最后凭借对空间位置的深入理解，拿放开瓶器，实现闭环操作。

透过上述任务执行可见，WALL-OSS在复杂长指令任务中的稳定发挥，意味着其已经进化为一个具备出色逻辑推理与空间感知能力的“聪明大脑”。换句话说，WALL-OSS的出色表现，完全基于其对物理世界的本质理解与多模态指令的深度对齐，而非针对已知考题进行的特殊训练。

此外，WALL-OSS作为一款完全开源的模型，代码逻辑与模型参数均公开透明，其测评表现是真实且可复验的。（开发者最快一周就能在自有机器人上完成适配）

可见，WALL-OSS的表现，不仅仅是一个具身大模型的成绩，而是其开源后能实打实赋能开发者的真实底气。

正如开文所述，RoboChallenge榜单前七名均为开源模型，其参赛主体分别为Pi0.5Pi0WALL-OSSpi05_generalistCogACTpi0_generalistopenvla-oft。（主要模型为Pi0.5Pi0WALL-OSSCogACTopenvla）。

其中，Pi0、pi0.5背后的公司Physical Intelligence主要团队成员来自伯克利、斯坦福等高校和谷歌专家等。由‌前Google DeepMind机器人科学家，斯坦福大学兼职教授Karol Hausman‌担任CEO。联合创始人Sergey Levine‌为加州大学伯克利分校（UC Berkeley）副教授，深度强化学习领域的奠基人之一，致力于通用机器人模型开发。

WALL-OSS背后的自变量机器人，创始人王潜为南加州大学博士学位，曾于美国顶级机器人实验室从事机器人学习与人机交互研究，是全球最早在神经网络中提出Attention机制的研究者之一，其成果与谷歌同期发表于国际会议。CTO王昊为北京大学计算物理博士，曾任职于粤港澳大湾区数字经济研究院（IDEA研究院），主导开发国内首个多模态开源大模型“太乙”、百亿级大语言模型“燃灯”及千亿级模型“姜子牙”，累计下载量超百万次。

‌CogACT的研究团队来自清华大学、微软亚研院等机构；OpenVLA模型由斯坦福大学、加州大学伯克利分校、谷歌DeepMind等机构的研究团队联合开发。

开源模型齐聚榜单为具身大模型的未来发展释放了一个清晰的信号，开源模型更具有含金量，也更能赋能行业成长。这一点从不同主体基于同一个开源模型调整参赛就能看出。

时至今日，没有人会再争议“开源”和“闭源”孰优孰劣，但一定会有人好奇：开源能带来什么？

回答这个问题，可以从AI大模型找到答案。

开源不是因为“卷不过”，而是为了“赢下未来”。DeepSeek、Qwen的成功不在于它是否永远霸榜，而在于它把大模型的价格打了下来，把技术门槛拆了下来，让万千开发者能用上“握在自己手里”的模型。如果你还记得，你会想起年初各大国企接入DeepSeek，到了年末，甚至连美国企业反倒用起了中国的AI模型。

自变量开源WALL-OSS的意义如出一辙：国内无数本体机器人公司和中小具身厂商，原本都在各自为战、重复造轮子。

此前在《硅谷101》博客中，谈及开源的初心时，自变量曾表示主要出于两点考虑。其一，是技术成熟度，其二是行业需要的程度。从技术成熟度来讲，类似于VLA的结构，经过了很长时间的论证，大家在训练方法上有很多探索，相当于有一定的应用上的共识以及经验。所以从技术成熟来讲，此时具有这样结构的模型对产业来讲是个很需要的事情。

从需要程度来看，国内产业里（开源时间为2025年9月）没有在一个框架下的国产自研统一模型，但行业迫切需要的强大的开放基座模型，来助推行业成长。

自变量把“大脑”开源，相当于为全行业提供了一个高性能的通用底座。只有底座开源，国内的具身智能应用才会像当初的AI应用一样“百花齐放”，加速中国具身智能“聚沙成塔”的过程。

毕竟，真正的核心竞争力，不在于实验室中的参数高低，而在于真实世界中的作业能力；真正的产业价值，不在于技术的孤芳自赏，而在于通过开源与协同，推动整个行业的升级与进步。

对于产业来说，具身智能是一场马拉松，是“长坡厚雪”、“众人拾柴”的赛道。自变量机器人的开源，本质上是一种利他主义的竞争策略。而且放眼整个具身智能的竞争，最终不是比谁的实验室模型更漂亮，而是比谁能最快让千万台机器人走入现实。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.