网易首页 > 网易号 > 正文 申请入驻

大模型在具身推理上「翻车」了?4496 道题全面揭示短板

0
分享至

祁煜,2023年本科毕业于北京大学信息科学技术学院。目前为美国Northeastern University在读博士生,研究方向为机器人与机器学习, 具身智能, 在 CVPR、ICML、CoRL 等顶级会议中发表过论文。

具身智能是近年来非常火概念。一个智能体(比如人)能够在环境中完成感知、理解与决策的闭环,并通过环境反馈不断进入新一轮循环,直至任务完成。这一过程往往依赖多种技能,涵盖了底层视觉对齐,空间感知,到上层决策的不同能力,这些能力便是广义上的具身智能。

已经有很多优秀的工作把多模态大语言模型(MLLMs)部署在具身智能的不同应用上。尽管已经有不少相关工作评估过他们具身智能的潜力,但主要集中在子领域上,比如给点(Pointing),空间推理(Spatial Reasoning)等等,也有一些工作在仿真里定义任务评估他们的性能,比如EmbodiedBench等,但是他们并没有把一个任务切分成一步步的原子技能,也就无法判断出到底是哪个细粒度的能力导致一个任务的失败。

BEAR基准

为了系统评估MLLM在具身智能的各个子能力,美国东北大学联合香港中文大学,哈佛大学,提出了BEAR基准,并且提供了详细的错因分析和算法提升。

  • Arxiv链接:
  • https://arxiv.org/abs/2510.08759
  • Huggingface链接:
  • https://huggingface.co/papers/2510.08759
  • 项目主页:
  • https://bear-official66.github.io/

BEAR涵盖了4,469个图片-视频-文字的VQA。BEAR涵盖6个大类,其中包括5个基础类别,包括给点(Pointing), 给检测框(Bounding Box), 空间推理(Spatial Reasoning),任务规划(Task Planning),并且在每个类别下面还有不同子技能,如给点分为普通物体给点,空间关系给点和局部给点,共分为14个技能,见下图。除此之外,我们引入第六个长程推理类别,首次将具身智能的任务切分为以14个不同技能划分的步骤,涵盖了智能体在完成一个任务中所需要具备的技能。

测评实验


实验部分,作者全面测量了20个不同的MLLM,并且测量了Direct和CoT不同的prompt, 而且将常见的test-time-scaling methods都进行了实验,得出以下有趣的结论:

  • 多模态大模型并不具备具身智能,目前在BEAR基准上表现最好的模型,GPT-5,也仅仅有52%的成功率。
  • 通常情况,闭源模型比开源模型表现好。但是部分开源模型拥有很强的潜力,如InternVL系列模型,在BEAR基准上超过了GPT-4o, Claude等模型。

  • Chain-of-thought在很多子能力在闭源模型上起到一致的负面作用,比如给点和空间推理能力。作者分析给点是一个直接的表达方法,模型只需要输出一个正则之后的x和y,过度的推理给模型引入不必要的干扰。同时,人们在进行空间推理的时候常常使用“直觉”,引入推理链有时会使模型引入一些错误的空间表达和位置关系,在推理最终答案的时候起到了负面作用。


细粒度错因统计


更进一步地,作者对GPT-4o的每一个子能力都进行了错因统计,分析显示了如下几个有趣的发现:

  • 模型视觉全能能力不足是多个类别的主要瓶颈。具体表现为模型无法细致进行language grounding, 无法判断轨迹走向,无法理解图片中发生的动作。
  • 模型3D能力不足主要体现在无法判断第一人称下的方向(左右关系),并且常常搞混相机在连续帧之间的移动走向。
  • 对于长程推理,与高层规划(planning)相比,底层感知和空间推理仍然是主要瓶颈,错误占比高达88%。

BEAR智能体设计全面提升大模型的具身能力


基于上面的发现,作者团队意识到,增强模型的视觉能力,可以全面提高模型的具身推理能力。在多模态领域,已经有一些工作通过画辅助线和教会模型使用工具用来求解数学问题。受这样工作的启发,作者开发了BEAR-Agent,这是一个可对话的多模态智能体,主要通过提供工具和做辅助线的方式增强模型的视觉推理能力,进而提升模型的具身推理能力。作者选取了表现最好的开源模型和闭源模型,InternVL3-14B和GPT-5,BEAR-Agent可以显著提高他们在BEAR上的performance。

仿真测试


进一步地,作者基于Maniskill用Franka-panda搭建了桌面的操作环境,并且测试了3类任务,共12个语言指令。我们的实验结果表明,BEAR-Agent提升了20.17% MOKA在桌面操作环境上的表现,这表示着BEAR-Agent对Embodied Agent的潜力。

本篇文章重点对多模态大模型在具身推理的多个任务上进行评测和对失败进行归因分析,并且提供了详细的失败测评,并且设计Agent算法进行改进。作者希望分析结果有利于多模态大模型和具身智能在未来的迭代。非常欢迎感兴趣的老师同学们联系作者团队进行进一步交流!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
狂砸3.14亿!阿森纳夏窗要买4大强援 下赛季剑指双冠王

狂砸3.14亿!阿森纳夏窗要买4大强援 下赛季剑指双冠王

球事百科吖
2026-06-03 12:28:49
婆婆当众骂我二手货,我笑问公公:你养了29年的儿子到底真亲生吗

婆婆当众骂我二手货,我笑问公公:你养了29年的儿子到底真亲生吗

枫红染山径
2026-06-03 09:05:50
中方收到投名状!印尼砸下31亿,抢购中方退役导弹艇,西方不解

中方收到投名状!印尼砸下31亿,抢购中方退役导弹艇,西方不解

安之若憟
2026-06-03 12:48:24
中方严肃定性,16国加入联合军团,共同围剿俄罗斯,日本已经介入

中方严肃定性,16国加入联合军团,共同围剿俄罗斯,日本已经介入

影孖看世界
2026-06-01 23:22:26
现役最佳射手因“叛国”落选?伊朗公布世界杯参赛名单

现役最佳射手因“叛国”落选?伊朗公布世界杯参赛名单

湖报体育
2026-06-02 19:20:43
香港偶遇46岁容祖儿 弯腰驼背走路肚子只剩一张皮 鞋跟高都有20cm

香港偶遇46岁容祖儿 弯腰驼背走路肚子只剩一张皮 鞋跟高都有20cm

科学发掘
2026-06-01 06:03:49
徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

乡野小珥
2026-05-18 08:58:28
斯科蒂·皮蓬23岁儿子崩溃自白:15岁那年,同学用Future的歌羞辱我

斯科蒂·皮蓬23岁儿子崩溃自白:15岁那年,同学用Future的歌羞辱我

绿茵狂热者
2026-06-03 01:55:51
微星宣布NVIDIA RTX Spark迷你主机EdgeMesa N AI+

微星宣布NVIDIA RTX Spark迷你主机EdgeMesa N AI+

IT之家
2026-06-02 08:51:08
左手通胀右手衰退,欧美当下的困局

左手通胀右手衰退,欧美当下的困局

米筐投资
2026-06-03 07:07:13
中央5台直播女排时间表:6月3日CCTV5直播中国女排!世联赛赛程表

中央5台直播女排时间表:6月3日CCTV5直播中国女排!世联赛赛程表

等等talk
2026-06-03 12:05:12
谌旭彬:百姓躺平摆烂,食税群体怎么办?

谌旭彬:百姓躺平摆烂,食税群体怎么办?

老郭在学习
2026-06-01 17:12:48
烈日当头下,和尚躬身收麦!坚守祖训的白马寺,打了多少假僧脸?

烈日当头下,和尚躬身收麦!坚守祖训的白马寺,打了多少假僧脸?

削桐作琴
2026-06-02 15:27:07
善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

历史伟人录
2026-05-10 22:06:40
印度抵制中国制造空调,却偷取技术

印度抵制中国制造空调,却偷取技术

郭蛹包工头
2026-06-03 00:21:04
贵州大学道歉开了很坏的头,以后市级医院想招到博士就更难了

贵州大学道歉开了很坏的头,以后市级医院想招到博士就更难了

金水路7号站
2026-06-03 08:19:18
情况有变!我国海警巡航台岛,两岸军机激烈对峙,解放军点名警告

情况有变!我国海警巡航台岛,两岸军机激烈对峙,解放军点名警告

谛听骨语本尊
2026-06-03 13:33:52
印度最高种姓“婆罗门”到底有多牛?永享一项特权,出生就是贵族

印度最高种姓“婆罗门”到底有多牛?永享一项特权,出生就是贵族

网络易不易
2026-06-02 06:00:35
曝魏宗万去世细节!3月进入医院疗养,后辈演员曝其三大暖心举动

曝魏宗万去世细节!3月进入医院疗养,后辈演员曝其三大暖心举动

法老不说教
2026-06-03 13:53:30
网友称山姆鹌鹑蛋两个装很尴尬,特别是分享男同事的时候

网友称山姆鹌鹑蛋两个装很尴尬,特别是分享男同事的时候

映射生活的身影
2026-06-01 22:00:15
2026-06-03 14:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13156文章数 142660关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

女子称凌晨入睡后银行卡多次被转账损失42万 银行回应

头条要闻

女子称凌晨入睡后银行卡多次被转账损失42万 银行回应

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

旅游
本地
时尚
家居
公开课

旅游要闻

主持人点点带你打卡北美高端亲子品牌Jolly Bubble 波浪谷全国首店,解锁高质量亲子游玩体验,烟台遛娃首选!

本地新闻

用剪纸的方式,打开江苏扬州

休闲T恤舒适感极佳,夏天必不可少!轻轻松松拿捏日常的造型

家居要闻

江畔轻奢 观云大宅

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版