网易首页 > 网易号 > 正文 申请入驻

大模型在具身推理上「翻车」了?4496 道题全面揭示短板

0
分享至



祁煜,2023年本科毕业于北京大学信息科学技术学院。目前为美国Northeastern University在读博士生,研究方向为机器人与机器学习, 具身智能, 在 CVPR、ICML、CoRL 等顶级会议中发表过论文。

具身智能是近年来非常火概念。一个智能体(比如人)能够在环境中完成感知、理解与决策的闭环,并通过环境反馈不断进入新一轮循环,直至任务完成。这一过程往往依赖多种技能,涵盖了底层视觉对齐,空间感知,到上层决策的不同能力,这些能力便是广义上的具身智能。

已经有很多优秀的工作把多模态大语言模型(MLLMs)部署在具身智能的不同应用上。尽管已经有不少相关工作评估过他们具身智能的潜力,但主要集中在子领域上,比如给点(Pointing),空间推理(Spatial Reasoning)等等,也有一些工作在仿真里定义任务评估他们的性能,比如EmbodiedBench等,但是他们并没有把一个任务切分成一步步的原子技能,也就无法判断出到底是哪个细粒度的能力导致一个任务的失败。

BEAR基准

为了系统评估MLLM在具身智能的各个子能力,美国东北大学联合香港中文大学,哈佛大学,提出了BEAR基准,并且提供了详细的错因分析和算法提升。



  • Arxiv链接:
  • https://arxiv.org/abs/2510.08759
  • Huggingface链接:
  • https://huggingface.co/papers/2510.08759
  • 项目主页:
  • https://bear-official66.github.io/



BEAR涵盖了4,469个图片-视频-文字的VQA。BEAR涵盖6个大类,其中包括5个基础类别,包括给点(Pointing), 给检测框(Bounding Box), 空间推理(Spatial Reasoning),任务规划(Task Planning),并且在每个类别下面还有不同子技能,如给点分为普通物体给点,空间关系给点和局部给点,共分为14个技能,见下图。除此之外,我们引入第六个长程推理类别,首次将具身智能的任务切分为以14个不同技能划分的步骤,涵盖了智能体在完成一个任务中所需要具备的技能。



测评实验


实验部分,作者全面测量了20个不同的MLLM,并且测量了Direct和CoT不同的prompt, 而且将常见的test-time-scaling methods都进行了实验,得出以下有趣的结论:

  • 多模态大模型并不具备具身智能,目前在BEAR基准上表现最好的模型,GPT-5,也仅仅有52%的成功率。
  • 通常情况,闭源模型比开源模型表现好。但是部分开源模型拥有很强的潜力,如InternVL系列模型,在BEAR基准上超过了GPT-4o, Claude等模型。



  • Chain-of-thought在很多子能力在闭源模型上起到一致的负面作用,比如给点和空间推理能力。作者分析给点是一个直接的表达方法,模型只需要输出一个正则之后的x和y,过度的推理给模型引入不必要的干扰。同时,人们在进行空间推理的时候常常使用“直觉”,引入推理链有时会使模型引入一些错误的空间表达和位置关系,在推理最终答案的时候起到了负面作用。




细粒度错因统计


更进一步地,作者对GPT-4o的每一个子能力都进行了错因统计,分析显示了如下几个有趣的发现:

  • 模型视觉全能能力不足是多个类别的主要瓶颈。具体表现为模型无法细致进行language grounding, 无法判断轨迹走向,无法理解图片中发生的动作。
  • 模型3D能力不足主要体现在无法判断第一人称下的方向(左右关系),并且常常搞混相机在连续帧之间的移动走向。
  • 对于长程推理,与高层规划(planning)相比,底层感知和空间推理仍然是主要瓶颈,错误占比高达88%。



BEAR智能体设计全面提升大模型的具身能力


基于上面的发现,作者团队意识到,增强模型的视觉能力,可以全面提高模型的具身推理能力。在多模态领域,已经有一些工作通过画辅助线和教会模型使用工具用来求解数学问题。受这样工作的启发,作者开发了BEAR-Agent,这是一个可对话的多模态智能体,主要通过提供工具和做辅助线的方式增强模型的视觉推理能力,进而提升模型的具身推理能力。作者选取了表现最好的开源模型和闭源模型,InternVL3-14B和GPT-5,BEAR-Agent可以显著提高他们在BEAR上的performance。





仿真测试


进一步地,作者基于Maniskill用Franka-panda搭建了桌面的操作环境,并且测试了3类任务,共12个语言指令。我们的实验结果表明,BEAR-Agent提升了20.17% MOKA在桌面操作环境上的表现,这表示着BEAR-Agent对Embodied Agent的潜力。



本篇文章重点对多模态大模型在具身推理的多个任务上进行评测和对失败进行归因分析,并且提供了详细的失败测评,并且设计Agent算法进行改进。作者希望分析结果有利于多模态大模型和具身智能在未来的迭代。非常欢迎感兴趣的老师同学们联系作者团队进行进一步交流!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国家工作人员巨额财产来源不明罪新规立案标准从30万提高到300万

国家工作人员巨额财产来源不明罪新规立案标准从30万提高到300万

深度报
2026-04-17 22:54:19
中东,突发大消息!伊朗革命卫队向油轮开火!伊朗最高领袖发声

中东,突发大消息!伊朗革命卫队向油轮开火!伊朗最高领袖发声

证券时报e公司
2026-04-18 20:38:43
领跑BBA电动化,奥迪创新技术中心正式启用

领跑BBA电动化,奥迪创新技术中心正式启用

电动邦
2026-04-17 17:05:11
234万平方公里大国,海岸线仅37公里:准内陆国到底有多憋屈

234万平方公里大国,海岸线仅37公里:准内陆国到底有多憋屈

兔斯基聊科学
2026-04-18 10:45:36
斯诺克世锦赛:中国双星不败!赵心童创纪录,张安达2-2暂平名将

斯诺克世锦赛:中国双星不败!赵心童创纪录,张安达2-2暂平名将

刘姚尧的文字城堡
2026-04-18 19:12:24
辽宁5分惜败!广东被大逆转!山西输1分,吉林输18分,排名大变

辽宁5分惜败!广东被大逆转!山西输1分,吉林输18分,排名大变

老吴说体育
2026-04-18 22:08:21
男子因噪音过敏住5年隔音舱:自己设计,已接上百个订单,帮噪音受困者找回睡眠

男子因噪音过敏住5年隔音舱:自己设计,已接上百个订单,帮噪音受困者找回睡眠

半岛官网
2026-04-16 11:20:50
缺德到这种程度,已经没有半点“人性”了

缺德到这种程度,已经没有半点“人性”了

胖胖说他不胖
2026-04-17 09:25:19
特朗普:美伊正对话 “今天结束前会有消息”

特朗普:美伊正对话 “今天结束前会有消息”

新华社
2026-04-18 21:52:13
大连广场驱赶游客:公共区域被拍卖135万,调查组介入,文旅沦陷

大连广场驱赶游客:公共区域被拍卖135万,调查组介入,文旅沦陷

天天热点见闻
2026-04-17 13:19:22
正式离开,告别德甲首季,扣除掉上缴乒协,樊振东薪水还剩多少?

正式离开,告别德甲首季,扣除掉上缴乒协,樊振东薪水还剩多少?

林子说事
2026-04-18 15:43:32
面多加水,水多加面?外媒痛批:电车3吨重,填鸭式造车不可取!

面多加水,水多加面?外媒痛批:电车3吨重,填鸭式造车不可取!

少数派报告Report
2026-04-17 07:03:05
利空突袭!刚刚,集体跳水!美伊谈判,突变!

利空突袭!刚刚,集体跳水!美伊谈判,突变!

证券时报
2026-04-18 20:05:09
4.8万紫檀珠直播被砍晕!弹幕比妖怪还犀利?迟重瑞憋不住了

4.8万紫檀珠直播被砍晕!弹幕比妖怪还犀利?迟重瑞憋不住了

鉴史录
2026-04-18 17:55:00
刚下发!2026有线电视免费政策,机顶盒用户抓紧核对

刚下发!2026有线电视免费政策,机顶盒用户抓紧核对

辉哥说动漫
2026-04-18 20:45:06
恒大集团许家印被抓捕全过程

恒大集团许家印被抓捕全过程

新浪财经
2026-04-18 20:05:24
刚刚,跳水!霍尔木兹,再生变数!

刚刚,跳水!霍尔木兹,再生变数!

中国基金报
2026-04-18 18:19:35
俄加快掠夺乌矿产资源,白俄军队边境集结,泽连斯基:别轻举妄动

俄加快掠夺乌矿产资源,白俄军队边境集结,泽连斯基:别轻举妄动

史政先锋
2026-04-18 21:13:39
难以置信!网传多年前某殡仪馆为省燃料,将多名逝者“拼炉”火化

难以置信!网传多年前某殡仪馆为省燃料,将多名逝者“拼炉”火化

火山詩话
2026-04-18 15:43:01
坦克沦为废铁,步兵纯属送死!以色列终于明白巷战真相:推土机!

坦克沦为废铁,步兵纯属送死!以色列终于明白巷战真相:推土机!

环球格局观
2026-04-18 16:13:02
2026-04-18 23:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12792文章数 142632关注度
往期回顾 全部

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

小车在高速上跑100码 车主突然接到电话"你车轮没了"

头条要闻

小车在高速上跑100码 车主突然接到电话"你车轮没了"

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

刘德华回应潘宏彬去世,拒谈丧礼细节

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

本地
旅游
手机
房产
公开课

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

旅游要闻

花开如雪 暗香浮动|济宁戴庄流苏花迎来最美花期 引市民打卡

手机要闻

华为苹果争第一,手机TOP5排名来了

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版