网易首页 > 网易号 > 正文 申请入驻

大模型在具身推理上「翻车」了?4496 道题全面揭示短板

0
分享至



祁煜,2023年本科毕业于北京大学信息科学技术学院。目前为美国Northeastern University在读博士生,研究方向为机器人与机器学习, 具身智能, 在 CVPR、ICML、CoRL 等顶级会议中发表过论文。

具身智能是近年来非常火概念。一个智能体(比如人)能够在环境中完成感知、理解与决策的闭环,并通过环境反馈不断进入新一轮循环,直至任务完成。这一过程往往依赖多种技能,涵盖了底层视觉对齐,空间感知,到上层决策的不同能力,这些能力便是广义上的具身智能。

已经有很多优秀的工作把多模态大语言模型(MLLMs)部署在具身智能的不同应用上。尽管已经有不少相关工作评估过他们具身智能的潜力,但主要集中在子领域上,比如给点(Pointing),空间推理(Spatial Reasoning)等等,也有一些工作在仿真里定义任务评估他们的性能,比如EmbodiedBench等,但是他们并没有把一个任务切分成一步步的原子技能,也就无法判断出到底是哪个细粒度的能力导致一个任务的失败。

BEAR基准

为了系统评估MLLM在具身智能的各个子能力,美国东北大学联合香港中文大学,哈佛大学,提出了BEAR基准,并且提供了详细的错因分析和算法提升。



  • Arxiv链接:
  • https://arxiv.org/abs/2510.08759
  • Huggingface链接:
  • https://huggingface.co/papers/2510.08759
  • 项目主页:
  • https://bear-official66.github.io/



BEAR涵盖了4,469个图片-视频-文字的VQA。BEAR涵盖6个大类,其中包括5个基础类别,包括给点(Pointing), 给检测框(Bounding Box), 空间推理(Spatial Reasoning),任务规划(Task Planning),并且在每个类别下面还有不同子技能,如给点分为普通物体给点,空间关系给点和局部给点,共分为14个技能,见下图。除此之外,我们引入第六个长程推理类别,首次将具身智能的任务切分为以14个不同技能划分的步骤,涵盖了智能体在完成一个任务中所需要具备的技能。



测评实验


实验部分,作者全面测量了20个不同的MLLM,并且测量了Direct和CoT不同的prompt, 而且将常见的test-time-scaling methods都进行了实验,得出以下有趣的结论:

  • 多模态大模型并不具备具身智能,目前在BEAR基准上表现最好的模型,GPT-5,也仅仅有52%的成功率。
  • 通常情况,闭源模型比开源模型表现好。但是部分开源模型拥有很强的潜力,如InternVL系列模型,在BEAR基准上超过了GPT-4o, Claude等模型。



  • Chain-of-thought在很多子能力在闭源模型上起到一致的负面作用,比如给点和空间推理能力。作者分析给点是一个直接的表达方法,模型只需要输出一个正则之后的x和y,过度的推理给模型引入不必要的干扰。同时,人们在进行空间推理的时候常常使用“直觉”,引入推理链有时会使模型引入一些错误的空间表达和位置关系,在推理最终答案的时候起到了负面作用。




细粒度错因统计


更进一步地,作者对GPT-4o的每一个子能力都进行了错因统计,分析显示了如下几个有趣的发现:

  • 模型视觉全能能力不足是多个类别的主要瓶颈。具体表现为模型无法细致进行language grounding, 无法判断轨迹走向,无法理解图片中发生的动作。
  • 模型3D能力不足主要体现在无法判断第一人称下的方向(左右关系),并且常常搞混相机在连续帧之间的移动走向。
  • 对于长程推理,与高层规划(planning)相比,底层感知和空间推理仍然是主要瓶颈,错误占比高达88%。



BEAR智能体设计全面提升大模型的具身能力


基于上面的发现,作者团队意识到,增强模型的视觉能力,可以全面提高模型的具身推理能力。在多模态领域,已经有一些工作通过画辅助线和教会模型使用工具用来求解数学问题。受这样工作的启发,作者开发了BEAR-Agent,这是一个可对话的多模态智能体,主要通过提供工具和做辅助线的方式增强模型的视觉推理能力,进而提升模型的具身推理能力。作者选取了表现最好的开源模型和闭源模型,InternVL3-14B和GPT-5,BEAR-Agent可以显著提高他们在BEAR上的performance。





仿真测试


进一步地,作者基于Maniskill用Franka-panda搭建了桌面的操作环境,并且测试了3类任务,共12个语言指令。我们的实验结果表明,BEAR-Agent提升了20.17% MOKA在桌面操作环境上的表现,这表示着BEAR-Agent对Embodied Agent的潜力。



本篇文章重点对多模态大模型在具身推理的多个任务上进行评测和对失败进行归因分析,并且提供了详细的失败测评,并且设计Agent算法进行改进。作者希望分析结果有利于多模态大模型和具身智能在未来的迭代。非常欢迎感兴趣的老师同学们联系作者团队进行进一步交流!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
年轻人的购车新选择,极狐新S5凭什么脱颖而出

年轻人的购车新选择,极狐新S5凭什么脱颖而出

极客洞察局
2026-02-28 00:14:30
尘埃落定!伊朗正式退出2026世界杯,亚洲足坛格局生变

尘埃落定!伊朗正式退出2026世界杯,亚洲足坛格局生变

体育见习官
2026-03-03 20:04:09
第十三波反制!伊军对等斩首,76岁内塔死里逃生

第十三波反制!伊军对等斩首,76岁内塔死里逃生

书纪文谭
2026-03-03 16:20:57
墙倒众人推!薛之谦事件闹大,谢娜撕破体面,句句质问戳他心窝

墙倒众人推!薛之谦事件闹大,谢娜撕破体面,句句质问戳他心窝

胡一舸南游y
2026-03-03 15:14:47
冲突第3天,伊朗致电中国,王毅提3个要求,阿拉格齐作出承诺

冲突第3天,伊朗致电中国,王毅提3个要求,阿拉格齐作出承诺

谛听骨语本尊
2026-03-03 13:45:30
美国突发史无前例撤离令!外界担忧终极空袭来临

美国突发史无前例撤离令!外界担忧终极空袭来临

看看新闻Knews
2026-03-03 20:12:10
中东都乱成一锅粥了,我们身边这种人正在成为暴发户

中东都乱成一锅粥了,我们身边这种人正在成为暴发户

人格志
2026-03-03 00:02:36
时装周极简中的锋芒:极狐新阿尔法S5的“细节杀”

时装周极简中的锋芒:极狐新阿尔法S5的“细节杀”

智能新世界
2026-02-26 18:18:44
开启预售!极狐全新阿尔法S5携元境智驾来袭,上市时间引猜测

开启预售!极狐全新阿尔法S5携元境智驾来袭,上市时间引猜测

智能新世界
2026-03-01 17:59:02
无警报、无生还!伊朗一枚导弹直穿防空,炸死科威特港口6名美军

无警报、无生还!伊朗一枚导弹直穿防空,炸死科威特港口6名美军

Nee看
2026-03-03 11:00:32
黄金白银断崖跳水

黄金白银断崖跳水

每日经济新闻
2026-03-03 20:06:15
元宵晚会主持人状态有变化!龙洋调整了眼妆,就差马凡舒换发型了

元宵晚会主持人状态有变化!龙洋调整了眼妆,就差马凡舒换发型了

萌神木木
2026-03-03 21:00:46
为何28号,美以发动战争?

为何28号,美以发动战争?

妙投APP
2026-03-02 08:07:17
争议?祖国遭空袭后,伊朗女足亚洲杯集体拒唱国歌!主帅面带微笑

争议?祖国遭空袭后,伊朗女足亚洲杯集体拒唱国歌!主帅面带微笑

我爱英超
2026-03-03 11:43:31
“三桶油”史上首次连续两日集体涨停,晚间齐发公告提示油价波动风险

“三桶油”史上首次连续两日集体涨停,晚间齐发公告提示油价波动风险

界面新闻
2026-03-03 21:09:05
最近广东街头大量出现!官方提醒→

最近广东街头大量出现!官方提醒→

广东发布
2026-03-03 21:09:04
伊朗名将:战争很不幸但支持美国以色列!欢迎他们解放伊朗人民

伊朗名将:战争很不幸但支持美国以色列!欢迎他们解放伊朗人民

念洲
2026-03-03 08:44:39
打击伊朗前美国中央司令部司令鼓励5万美军官兵:保持无情的致命性!

打击伊朗前美国中央司令部司令鼓励5万美军官兵:保持无情的致命性!

互联网大观
2026-03-03 13:20:18
伊朗为何执意摧毁驻扎在巴林的美国第五舰队总部?

伊朗为何执意摧毁驻扎在巴林的美国第五舰队总部?

胜研集
2026-03-03 10:43:26
肝癌晚期孙志浩将50亿资产中的纽约豪宅和股份全过户给女儿梧桐妹

肝癌晚期孙志浩将50亿资产中的纽约豪宅和股份全过户给女儿梧桐妹

百态人间
2026-03-03 15:34:22
2026-03-04 01:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12403文章数 142577关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

旅游
家居
数码
本地
公开课

旅游要闻

元宵节限定浪漫:黑龙江鹤岗夜空被烟花承包

家居要闻

万物互联 享科技福祉

数码要闻

苹果官网监管文件疑现“MacBook Neo”名称 或为全新低价笔记本

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版