网易首页 > 网易号 > 正文 申请入驻

具身大模型:先对齐评测,再对齐世界

0
分享至

过去两年,我们见过太多丝滑的机器人Demo,除了跳舞、打球等动作秀,还有端茶倒水、叠衣服、做饭等日常任务。

但这些视频的共同特点是,发布完论文或视频,就销声匿迹,你永远不知道,它在现实中到底是什么样。

这就是具身智能现在的核心矛盾:网上炒得火热,但还停留在“视频时代”。

最近,随着宇树科技IPO持续升温,这个问题也越来越受到重视。特别是宇树在招股书中提到,拟募资 42 亿人民币,其中半数资金砸向“智能机器人模型研发项目”,也就是俗称的具身模型。

宇树的成功,本质上是硬件工程能力的胜利。成本控制、运动控制、量产能力,这些都已经被验证。

但行业已经进入一个阶段,市场真正想要的,是另一件事:谁能做出通用的具身模型?



01.

具身模型“关公战秦琼”

如果你熟悉 AI 相关的最新研究,就会发现每隔一段时间,就会有来自公司或高校的研究团队,号称在具身模型、VLA(视觉-语言-动作模型)上取得了突破。

它们在 Isaac Gym 或 ManiSkill 等仿真环境里,在一些任务上,展现出了惊人的成功率,达到 90% 甚至是 95%。模型在虚拟实验室里动作优雅、逻辑无瑕,好像具身智能的 ChatGPT 时刻已经不远了。

这些研究当然很有价值,但它们有一个根本性问题:仿真环境与真实世界之间存在巨大的现实差距(Sim2Real Gap)。

在仿真环境中,物体材质、摩擦系数、传感器噪声、物体摆放方式等,都是可控的,而现实世界是不可控的。



这也是为什么,很多模型在论文里 SOTA,一上真机就崩。这种现象在机器人领域非常普遍,也是具身智能迟迟无法大规模落地的重要原因之一。

Demo 视频越来越多,论文越来越多,但大家很难真正比较不同模型之间的能力差异,就像是“关公战秦琼”。

问题不在模型数量,而在缺乏 Benchmark。

02.

RoboChallenge:具身智能的评测基础

行业迫切需要一个类似 ImageNet、GLUE、Arena 这样的真实世界统一评测标准,让不同模型可以在同一环境下进行横向比较。

正是在这样的背景下,RoboChallenge出现了。

RoboChallenge 由原力灵机与 Hugging Face 联合发起,被认为是全球首个大规模、多任务的真实机器人评测基准平台。



与传统机器人竞赛不同,RoboChallenge 的核心思想是建立一个类似大语言模型 LMSYS Arena 的评测体系:

  • 统一机器人硬件(UR5、Franka、ALOHA 等)
  • 统一任务
  • 统一评测指标
  • 模型远程提交
  • 在真实机器人上执行
  • 公开排行榜
  • 可复现结果

研究人员即使没有机器人,也可以通过远程调用真实机器人测试算法,这大幅降低了具身智能研究的门槛。

这解决了一个核心问题:不同模型可以横向比较,模型好不好,直接上机跑。

更关键的是,RoboChallenge不仅给分数,还给失败轨迹。这点极其重要,因为传统的机器人竞赛,通常只关注最终的成功率,但对于具身模型来说,知道怎么失败的,更有价值。开发者可以通过分析失败环节,来进行针对性的微调和优化。

RoboChallenge 的目标不是做一次比赛,而是建立一个长期的评测基础设施,推动具身智能从实验室智能,走向现实世界智能。

截至目前:RoboChallenge 已执行超过4万次真机测试,单日提交达到181次,就像是机器人的工业级测试流水线。

03.

具身智能的残酷真相

RoboChallenge 在2025年下半年才推出,但已经暴露出了当前具身模型的很多问题和真相。

RoboChallenge 包括名为 Table30 桌面操作基准测试集,其中有 30 个精心设计的日常情境任务(一般竞赛或评测的任务仅有 3-5 个),例如整理物品、抓取物体、插线、摆放物品等。

从表面上看,这些任务似乎只是简单的桌面操作,但从能力结构来看,这类任务实际上覆盖了具身智能最核心的能力组合:视觉理解、语言理解、任务规划、精细操作、长时序决策、泛化能力等等。

换句话说,Table30 是在测试具身模型是否具备通用操作能力。



RoboChallenge 前不久发布了年度报告。结论概括来说:

  • 榜首模型成功率约 50%。
  • 模型在基础抓取任务上的成功率比较高,但在精细操作和长任务链任务上,成功率明显下降,比如“制作三明治”这个任务还没有模型能完成。

这说明什么?我们距离“通用操作智能”,还差很远。

有了客观的评测体系,才能真正衡量模型的水平。

04.

具身智能不缺模型,缺排行榜

如果回顾人工智能过去十几年的发展,会发现一个非常清晰的规律:几乎所有重大技术突破,都伴随着公开基准测试与排行榜竞争。例如:

  • ImageNet 推动了深度学习视觉模型的发展
  • GLUE / SuperGLUE 推动了 NLP 模型发展
  • LMSYS Arena 推动了大语言模型竞争

公开 Benchmark 的作用不仅仅是比较模型性能,更重要的是,它能统一技术目标、提供可复现的评测方法、加速技术路线收敛、吸引更多研究者参与。

具身智能领域长期没有类似大语言模型领域的 benchmark,因此技术路线非常分散,很多团队做的是 Demo,而不是可复现系统。

RoboChallenge 的意义,可能正是在这里。

很多人讨论具身智能时,往往只关注模型本身,但实际上,具身智能是一个典型的系统工程,其进步也要依靠完整的基础设施。

除了算力、算法、数据、硬件等环节,评测体系是连接模型与应用的关键环节。如果没有统一评测体系,就无法判断模型是否真的进步,也无法形成行业共识。

从这个角度看,具身智能行业目前最缺的反而不是模型,而是一个公正的排行榜。

在今年的 AI 国际顶会 CVPR 上,还将举行 RoboChallenge CVPR 2026 机器人比赛。到时,Table30 V2 的预览版也将上线发布。



Table V2会从任务升级、评测升级到系统升级三个维度深度重构,也会对具身模型进行了全方位的极限压测。

如果你正在做具身智能、VLA、机器人控制,不要只做Demo,只做视频,应该去参与打榜比赛。

未来几年,具身智能领域真正的技术突破,很可能会首先体现在 RoboChallenge 的排行榜上。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拜仁VS巴黎前瞻:英超通关之旅是假象,卫冕冠军遇到硬茬了!

拜仁VS巴黎前瞻:英超通关之旅是假象,卫冕冠军遇到硬茬了!

兰亭墨未干
2026-04-28 11:44:43
赖清德向大陆喊话,林佳龙返台:机场大言不惭!解放军打独大动作

赖清德向大陆喊话,林佳龙返台:机场大言不惭!解放军打独大动作

史料布籍
2026-04-28 11:19:47
一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

川渝视觉
2026-04-25 20:19:24
如今定居广东的朱芳雨,大儿走篮球路,二儿优秀低调,三儿最潇洒

如今定居广东的朱芳雨,大儿走篮球路,二儿优秀低调,三儿最潇洒

翰飞观事
2026-04-22 14:42:17
每体:必要时巴萨不排除让亚马尔缺席世界杯小组赛初期的可能

每体:必要时巴萨不排除让亚马尔缺席世界杯小组赛初期的可能

懂球帝
2026-04-28 09:43:32
尼日尔撕毁4亿美元合同,并驱逐中方高管,我方暗藏后手漂亮反击

尼日尔撕毁4亿美元合同,并驱逐中方高管,我方暗藏后手漂亮反击

诡谲怪谈
2025-04-30 22:17:42
球员+ 4000 万互换!曼联狠心甩卖高价水货,瞄准英超全能巨星

球员+ 4000 万互换!曼联狠心甩卖高价水货,瞄准英超全能巨星

澜归序
2026-04-28 06:36:45
接到陌生电话先问这3个字!骗子听到马上挂断,记得转告身边人

接到陌生电话先问这3个字!骗子听到马上挂断,记得转告身边人

小谈食刻美食
2026-04-25 09:47:09
刚刚!官方点名张家界天门山、丽江古城、玉龙雪山、黄河壶口瀑布、桂林漓江、嵩山少林寺等景区,严肃批评、集中整治!

刚刚!官方点名张家界天门山、丽江古城、玉龙雪山、黄河壶口瀑布、桂林漓江、嵩山少林寺等景区,严肃批评、集中整治!

扬子晚报
2026-04-27 16:31:23
石破茂:我当过首相所以我最清楚,没有中国,日本根本不可能存在

石破茂:我当过首相所以我最清楚,没有中国,日本根本不可能存在

黑翼天使
2026-04-27 00:25:04
东风-27疑似量产,令美军如芒在背!

东风-27疑似量产,令美军如芒在背!

杨风
2026-04-26 23:04:04
始末细节曝出,女大学生被骗泰国狂欢,疑被转卖缅甸,父亲遭威胁

始末细节曝出,女大学生被骗泰国狂欢,疑被转卖缅甸,父亲遭威胁

皮皮电影
2026-04-27 11:22:48
20岁云南小伙迪拜打工遇俄罗斯单亲妈妈,跨国求婚却遭战火阻隔

20岁云南小伙迪拜打工遇俄罗斯单亲妈妈,跨国求婚却遭战火阻隔

爱写作的洋洋
2026-04-18 09:14:07
塞尔比:吴宜泽长台和安全球不错,我有太多愚蠢失误确实不配赢

塞尔比:吴宜泽长台和安全球不错,我有太多愚蠢失误确实不配赢

懂球帝
2026-04-28 00:51:06
微信紧急公告:立即挂断,不要回答!

微信紧急公告:立即挂断,不要回答!

第一财经资讯
2026-04-28 10:33:04
蓝白今确定谁选新北市长,国民党一人胜率高,郑丽文又祸从口出?

蓝白今确定谁选新北市长,国民党一人胜率高,郑丽文又祸从口出?

史料布籍
2026-04-28 11:14:26
赢球挨喷!曼联王牌全场灾难性表现,球迷怒了:赶紧甩卖!

赢球挨喷!曼联王牌全场灾难性表现,球迷怒了:赶紧甩卖!

奶盖熊本熊
2026-04-28 05:13:59
暴跌200亿的“两轮特斯拉”,再次站在悬崖边上

暴跌200亿的“两轮特斯拉”,再次站在悬崖边上

金错刀
2026-04-27 10:05:40
上海地铁32岁女子与66岁老太互殴后续:央媒发声,拘留只是开始!

上海地铁32岁女子与66岁老太互殴后续:央媒发声,拘留只是开始!

阅微札记
2026-04-27 17:06:42
曝张凌赫低血糖摔倒,同组演员林允和工作人员合力搀扶,本人连发7条语音回应

曝张凌赫低血糖摔倒,同组演员林允和工作人员合力搀扶,本人连发7条语音回应

都市快报橙柿互动
2026-04-28 11:47:57
2026-04-28 12:24:49
机器人大讲堂 incentive-icons
机器人大讲堂
立德机器人平台,是一个集媒体品牌、智库咨询、投资孵化、引智招商为一体的机器人垂直领域服务平台
6508文章数 4585关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

美军事资产被指"损失惨重" 修复费用可能高达50亿美元

头条要闻

美军事资产被指"损失惨重" 修复费用可能高达50亿美元

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

杨幂险遭蒸汽眼罩毁容!伤照曝光…

财经要闻

俞敏洪再遭重击

汽车要闻

上汽大众“攻山头” ID.ERA 9X剑指细分前三

态度原创

房产
家居
数码
手机
公开课

房产要闻

信号!海南商业版图,迎来大变局!

家居要闻

江景风格 流动的秩序

数码要闻

首款华为MatePad Pro Max平板曝光,将于5月面向全球发布

手机要闻

消息称iQOO 15T / iQOO Pad 6 Pro暂定5月发布

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版