网易首页 > 网易号 > 正文 申请入驻

具身智能测评“上海卷”宣布开源,100道题补齐国内行业短板

0
分享至



记者今日(26日)获悉,上海交通大学联合业界研发的具身智能测评集GM-100宣布开源,旨在为衡量机器人“大脑”(智能模型)与“身体”(物理执行)的协同能力,提供一个更系统、开放且可复现的评估基准。后续,国内多个具身智能大模型将引入该测评集进行“跑分”测试。

当前,具身智能技术路线尚处百家争鸣期,数据集建设缺乏统一标准。GM-100测评集相当于给具身智能出了一套上海版“统考卷”,为国内具身智能评价体系补齐短板。

不盲目追求任务量

据悉,GM-100测评集包含了100个具体任务,总计1.3万条操作轨迹数据,规模可观。项目牵头人、上海交通大学副教授李永露认为,在当前研究阶段,高质量的数据集和评测体系对科研的贡献至关重要,优化数据分布能有效推动模型能力进步。因此,与其单纯追求任务的数据量,该测评集更强调任务设计的广度与评估体系的深度。

记者从研究团队了解到,GM-100测评集在设计任务时,首先分析人类与物体交互的基本原语(不可分割的指令),再利用大语言模型生成大量候选任务,再经专家筛选优化,最终形成涵盖从日常简单操作到罕见复杂场景的100项任务。

此外,该测评集在传统的任务成功率之外,引入了两项关键指标。一是部分成功率,用于量化多步骤任务中,子步骤的完成情况,避免“非全即无”的粗暴判断;二是动作预测误差,即衡量模型在面对新情况时动作模仿的精度。

研发团队对全球主流模型测试结果显示,GM-100测评集的任务设计难度合理,在不同机器人平台上均可执行且具备区分度,评估结果在不同硬件间也表现出稳定的泛化性,为跨平台模型能力比较提供了可靠参考。

目前,测评集所有100个任务的详细说明、所需物料清单均已开源,还为每个任务上传了约130条真实机器人操作轨迹数据。“我们甚至公布了具体物料的购买链接,尽可能降低开发者的复现与参与门槛,让更多人能在同一基准上开展测试。”研究团队负责人告诉记者。

补齐评价体系短板

当前,具身智能领域评测标准分散且不统一,各团队自建标准,抓取、路径规划等侧重点也各不相同,且多局限于高频简单场景。随着技术进步,旧有基准的区分度下降,难以反映复杂环境下的核心挑战,行业缺乏公认的客观参照。


智元机器人正在展示。

“现有具身智能模型结构的泛化能力已显不足,需进行结构性创新,在数据层面,大规模、高质量数据的采集与评估仍是行业瓶颈。”宇树董事长王兴兴在外滩大会、进博会等多个场合公开表示,当前具身智能的制约因素主要是模型架构和数据质量。

为此,上海正努力通过具身数据和模型能力双维度,找到具身智能行业的破局之道。

在数据方面,智元机器人率先建成全球首个数采超级工厂,还开源了包含百万条真机数据的AgiBot World数据集。智元具身业务部总裁姚卯青表示,该数据集提供了工业级高质量数据支撑,包含百万条机器人数轨迹,每条数据都经过多轮审核,确保场景贴近现实、任务复杂多样。

此外,国地中心和浦江实验室联合团队计划完成2500万组整机数据积累,数据规模达到谷歌同类数据集的10倍。1月24日,上海库帕思科技与它石智航宣布共建“具身数据星火计划”,推动实现亿小时级别的数据流通规模。

在模型方面,2025年3月,智元发布全球首个通用具身基座大模型智元GO-1,融合多模态大模型(VLM)与混合专家系统(MoE),支持不同本体平台数据采集和部署。上海具识智能还自主研发了全国首个具身智能操作系统InsightOS,在智能制造产线部署、智慧农业作业等产业场景得到应用。

在此基础上,GM-100测评集的出现,则为上海乃至国内的具身智能评价体系补齐了短板。

“我们的目标并非建立一个绝对公平的物理测试环境,而是打造一个开放、透明、可复现的评测平台。”该负责人表示,通过提供标准化的“考题”(任务)、详细的“考试说明”(开源资料)和灵活的“阅卷标准”(多维指标),努力成为一张具身智能模型的“统考卷”,不仅有助于横向比较模型性能,更通过题目设置定义行业的核心能力与前沿问题。

原标题:《具身智能测评“上海卷”宣布开源,100道题补齐国内行业短板》

栏目主编:李晔

本文作者:解放日报 查睿

题图来源:上观题图

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北约秘书长:乌将不得不作出领土妥协

北约秘书长:乌将不得不作出领土妥协

参考消息
2026-01-27 11:34:12
乌戈:作为球队主帅我也迅速做出调整,需要把势头保持下去

乌戈:作为球队主帅我也迅速做出调整,需要把势头保持下去

狼叔评论
2026-01-27 22:42:07
白银疯涨超150%,郎咸平热评:只是一场针对中国的金融围猎

白银疯涨超150%,郎咸平热评:只是一场针对中国的金融围猎

大鱼简科
2026-01-27 20:24:35
人口告别世界第一?二孩催生无效后,国家终于向住房出手了

人口告别世界第一?二孩催生无效后,国家终于向住房出手了

来科点谱
2026-01-13 08:54:22
开拓者94-102凯尔特人,遭2连败!克林根9+15,NBA官方力挺杨瀚森

开拓者94-102凯尔特人,遭2连败!克林根9+15,NBA官方力挺杨瀚森

小火箭爱体育
2026-01-27 11:44:16
越来越多球队,开始想要库里了....

越来越多球队,开始想要库里了....

柚子说球
2026-01-27 19:44:49
中国科学院武汉病毒研究所:发现口服核苷类药物VV116对尼帕病毒的高效抑制活性

中国科学院武汉病毒研究所:发现口服核苷类药物VV116对尼帕病毒的高效抑制活性

澎湃新闻
2026-01-27 11:27:04
就在今天!1月27日凌晨,国足传来王钰栋、李昊、朱鹏宇新消息!

就在今天!1月27日凌晨,国足传来王钰栋、李昊、朱鹏宇新消息!

皮皮观天下
2026-01-27 04:46:17
王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

胡一舸南游y
2026-01-25 14:54:04
不反华了?芬兰首脑抵京,中国用最高规格接待,现场备好一辆专车

不反华了?芬兰首脑抵京,中国用最高规格接待,现场备好一辆专车

万国明信片
2026-01-27 09:28:37
李在明吊唁韩国已故前总理李海瓒 现场落泪

李在明吊唁韩国已故前总理李海瓒 现场落泪

看看新闻Knews
2026-01-27 22:53:03
三位大人物骨灰被移出八宝山,他们分别是谁?其中一人是开国上将

三位大人物骨灰被移出八宝山,他们分别是谁?其中一人是开国上将

文史达观
2025-09-08 20:13:26
支持率一路暴跌,高市彻底慌了,日本商界大佬发声,要求更换首相

支持率一路暴跌,高市彻底慌了,日本商界大佬发声,要求更换首相

时时有聊
2026-01-27 07:05:46
明晚开播,《夜色正浓》全员上桌视帝戏骨飙戏,全剧无一废人

明晚开播,《夜色正浓》全员上桌视帝戏骨飙戏,全剧无一废人

糊咖娱乐
2026-01-27 14:13:39
千万网红“一栗小莎子”确诊癌症,不良恶习害了她,儿子不到两岁

千万网红“一栗小莎子”确诊癌症,不良恶习害了她,儿子不到两岁

以茶带书
2026-01-22 19:35:35
球报总监:穆帅执教切尔西和皇马时不这样,带曼联之后就变了

球报总监:穆帅执教切尔西和皇马时不这样,带曼联之后就变了

懂球帝
2026-01-27 22:34:52
14分钟0分,比陈家政出场时间多,球迷:什么关系户能在广东混7年

14分钟0分,比陈家政出场时间多,球迷:什么关系户能在广东混7年

弄月公子
2026-01-27 08:48:57
不是,广州旧改,开年就玩这么大啊

不是,广州旧改,开年就玩这么大啊

广州PLUS
2026-01-27 17:55:21
张信哲:我基本不会约任何人吃饭,我的晚餐时间是属于我妈的

张信哲:我基本不会约任何人吃饭,我的晚餐时间是属于我妈的

秀语千寻
2026-01-27 14:28:52
李嫣18岁生日发了几张自拍,大大方方把唇腭裂修复后的样子亮出来

李嫣18岁生日发了几张自拍,大大方方把唇腭裂修复后的样子亮出来

小椰的奶奶
2026-01-26 16:02:19
2026-01-28 00:07:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
425737文章数 759024关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

因楼下邻居关闭水阀女子家中断水400天 起诉索赔被驳

头条要闻

因楼下邻居关闭水阀女子家中断水400天 起诉索赔被驳

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮风波持续发酵,曝多个商务被取消

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

教育
健康
亲子
房产
时尚

教育要闻

评论丨教师期末“负担”与总结活动“初衷”,如何不再错位?

耳石脱落为何让人天旋地转+恶心?

亲子要闻

双职工家庭,孩子上幼儿园后,无老人帮忙,夫妻俩能独立带娃吗?

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

这些韩系穿搭最适合普通人!多穿深色、衣服基础,简洁耐看

无障碍浏览 进入关怀版