网易首页 > 网易号 > 正文 申请入驻

大模型在具身推理上「翻车」了?4496 道题全面揭示短板

0
分享至



祁煜,2023年本科毕业于北京大学信息科学技术学院。目前为美国Northeastern University在读博士生,研究方向为机器人与机器学习, 具身智能, 在 CVPR、ICML、CoRL 等顶级会议中发表过论文。

具身智能是近年来非常火概念。一个智能体(比如人)能够在环境中完成感知、理解与决策的闭环,并通过环境反馈不断进入新一轮循环,直至任务完成。这一过程往往依赖多种技能,涵盖了底层视觉对齐,空间感知,到上层决策的不同能力,这些能力便是广义上的具身智能。

已经有很多优秀的工作把多模态大语言模型(MLLMs)部署在具身智能的不同应用上。尽管已经有不少相关工作评估过他们具身智能的潜力,但主要集中在子领域上,比如给点(Pointing),空间推理(Spatial Reasoning)等等,也有一些工作在仿真里定义任务评估他们的性能,比如EmbodiedBench等,但是他们并没有把一个任务切分成一步步的原子技能,也就无法判断出到底是哪个细粒度的能力导致一个任务的失败。

BEAR基准

为了系统评估MLLM在具身智能的各个子能力,美国东北大学联合香港中文大学,哈佛大学,提出了BEAR基准,并且提供了详细的错因分析和算法提升。



  • Arxiv链接:
  • https://arxiv.org/abs/2510.08759
  • Huggingface链接:
  • https://huggingface.co/papers/2510.08759
  • 项目主页:
  • https://bear-official66.github.io/



BEAR涵盖了4,469个图片-视频-文字的VQA。BEAR涵盖6个大类,其中包括5个基础类别,包括给点(Pointing), 给检测框(Bounding Box), 空间推理(Spatial Reasoning),任务规划(Task Planning),并且在每个类别下面还有不同子技能,如给点分为普通物体给点,空间关系给点和局部给点,共分为14个技能,见下图。除此之外,我们引入第六个长程推理类别,首次将具身智能的任务切分为以14个不同技能划分的步骤,涵盖了智能体在完成一个任务中所需要具备的技能。



测评实验


实验部分,作者全面测量了20个不同的MLLM,并且测量了Direct和CoT不同的prompt, 而且将常见的test-time-scaling methods都进行了实验,得出以下有趣的结论:

  • 多模态大模型并不具备具身智能,目前在BEAR基准上表现最好的模型,GPT-5,也仅仅有52%的成功率。
  • 通常情况,闭源模型比开源模型表现好。但是部分开源模型拥有很强的潜力,如InternVL系列模型,在BEAR基准上超过了GPT-4o, Claude等模型。



  • Chain-of-thought在很多子能力在闭源模型上起到一致的负面作用,比如给点和空间推理能力。作者分析给点是一个直接的表达方法,模型只需要输出一个正则之后的x和y,过度的推理给模型引入不必要的干扰。同时,人们在进行空间推理的时候常常使用“直觉”,引入推理链有时会使模型引入一些错误的空间表达和位置关系,在推理最终答案的时候起到了负面作用。




细粒度错因统计


更进一步地,作者对GPT-4o的每一个子能力都进行了错因统计,分析显示了如下几个有趣的发现:

  • 模型视觉全能能力不足是多个类别的主要瓶颈。具体表现为模型无法细致进行language grounding, 无法判断轨迹走向,无法理解图片中发生的动作。
  • 模型3D能力不足主要体现在无法判断第一人称下的方向(左右关系),并且常常搞混相机在连续帧之间的移动走向。
  • 对于长程推理,与高层规划(planning)相比,底层感知和空间推理仍然是主要瓶颈,错误占比高达88%。



BEAR智能体设计全面提升大模型的具身能力


基于上面的发现,作者团队意识到,增强模型的视觉能力,可以全面提高模型的具身推理能力。在多模态领域,已经有一些工作通过画辅助线和教会模型使用工具用来求解数学问题。受这样工作的启发,作者开发了BEAR-Agent,这是一个可对话的多模态智能体,主要通过提供工具和做辅助线的方式增强模型的视觉推理能力,进而提升模型的具身推理能力。作者选取了表现最好的开源模型和闭源模型,InternVL3-14B和GPT-5,BEAR-Agent可以显著提高他们在BEAR上的performance。





仿真测试


进一步地,作者基于Maniskill用Franka-panda搭建了桌面的操作环境,并且测试了3类任务,共12个语言指令。我们的实验结果表明,BEAR-Agent提升了20.17% MOKA在桌面操作环境上的表现,这表示着BEAR-Agent对Embodied Agent的潜力。



本篇文章重点对多模态大模型在具身推理的多个任务上进行评测和对失败进行归因分析,并且提供了详细的失败测评,并且设计Agent算法进行改进。作者希望分析结果有利于多模态大模型和具身智能在未来的迭代。非常欢迎感兴趣的老师同学们联系作者团队进行进一步交流!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
数千万波斯人,不伺候阿塞拜疆权贵了?伊朗今夜,就是百年前清末

数千万波斯人,不伺候阿塞拜疆权贵了?伊朗今夜,就是百年前清末

南宗历史
2026-01-10 16:15:24
经济下行,2026 年、2027 年、2028 年这三年,六大忠告要记牢

经济下行,2026 年、2027 年、2028 年这三年,六大忠告要记牢

互联网思维
2026-01-15 23:32:28
在中国狂赚3600万,在国外年薪却只有8万人民币,曾经的南美新星

在中国狂赚3600万,在国外年薪却只有8万人民币,曾经的南美新星

体坛风之子
2026-01-16 04:30:03
和特斯拉硬刚?小米YU7全系推出7年低息购车:首付4.99万元起,月供2593元起

和特斯拉硬刚?小米YU7全系推出7年低息购车:首付4.99万元起,月供2593元起

每日经济新闻
2026-01-15 21:04:07
李亚鹏离婚三月高调再婚,撕碎海哈金最后体面

李亚鹏离婚三月高调再婚,撕碎海哈金最后体面

麦芽是个小趴菜
2026-01-16 07:00:50
凑凑火锅郑州门店清零?呷哺呷哺回应

凑凑火锅郑州门店清零?呷哺呷哺回应

鲁中晨报
2026-01-15 14:11:08
《寻秦记》开慰劳宴,古天乐强颜欢笑,账面亏损1亿

《寻秦记》开慰劳宴,古天乐强颜欢笑,账面亏损1亿

光影新天地
2026-01-14 18:04:04
斯嘉丽·约翰逊全球票房冠军地位被取代

斯嘉丽·约翰逊全球票房冠军地位被取代

TVB的四小花
2026-01-16 10:01:16
台媒曝大S离世一年,汪小菲与徐家重启谈判,抚养费之争迎来转机

台媒曝大S离世一年,汪小菲与徐家重启谈判,抚养费之争迎来转机

李健政观察
2026-01-16 09:37:46
湖北版“杀猪饭”火了 文旅部门临时追加一头300斤年猪

湖北版“杀猪饭”火了 文旅部门临时追加一头300斤年猪

大象新闻
2026-01-15 14:01:13
回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

干史人
2026-01-08 22:47:00
23中7吞耻辱一战!KD创赛季第二低命中率 休媒高呼需要伊森DFS

23中7吞耻辱一战!KD创赛季第二低命中率 休媒高呼需要伊森DFS

颜小白的篮球梦
2026-01-16 11:12:30
防不住!杨瀚森背靠背砍22+7+3!科尔:这就是他成为首轮秀的原因

防不住!杨瀚森背靠背砍22+7+3!科尔:这就是他成为首轮秀的原因

你的篮球频道
2026-01-15 12:07:25
世界最冷的十座城市,中国有6座上榜,最冷竟然是它!

世界最冷的十座城市,中国有6座上榜,最冷竟然是它!

中国艺术家
2026-01-15 05:23:28
聂卫平曾多次和邓小平打桥牌:老爷子牌技比我好得多,但出错牌也会虚心听取批评

聂卫平曾多次和邓小平打桥牌:老爷子牌技比我好得多,但出错牌也会虚心听取批评

极目新闻
2026-01-15 15:09:28
伊朗航空邀你免费去玩了,你心动了吗?

伊朗航空邀你免费去玩了,你心动了吗?

山间听雨
2026-01-15 08:00:11
史诗级!皇马斥资5亿欧,“超巨”转会启动!准“金球先生”遭逐

史诗级!皇马斥资5亿欧,“超巨”转会启动!准“金球先生”遭逐

头狼追球
2026-01-16 11:01:24
毫无悔意!韩国检方求判尹锡悦死刑,如果实现判罚会发生什么?

毫无悔意!韩国检方求判尹锡悦死刑,如果实现判罚会发生什么?

40度观察
2026-01-15 18:22:59
深圳一城中村握手楼搭“空中连廊”,街道办:已鉴定安全

深圳一城中村握手楼搭“空中连廊”,街道办:已鉴定安全

深圳晚报
2026-01-15 23:16:55
杨瀚森18+11+6回应质疑,G联赛新年首战正名

杨瀚森18+11+6回应质疑,G联赛新年首战正名

大眼瞄世界
2026-01-15 22:02:31
2026-01-16 11:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12128文章数 142540关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

"装死"小羊身价飙至30万元 专家:可以人工繁殖更多只

头条要闻

"装死"小羊身价飙至30万元 专家:可以人工繁殖更多只

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

态度原创

教育
数码
本地
手机
公开课

教育要闻

学生恋爱问题,老教师会怎么处理?

数码要闻

罗马仕被曝正亏本清理库存充电宝:27000mAh型号售价45元

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

手机要闻

荣耀Magic8 RSR官宣搭载第五代骁龙8至尊版+24GB LPDDR5X至尊版

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版