网易首页 > 网易号 > 正文 申请入驻

PhysToolBench提出了衡量多模态大模型对物理工具理解的基准

0
分享至



人类之所以能与复杂的物理世界高效互动,很大程度上源于对「工具」的使用、理解与创造能力。对任何通用型智能体而言,这同样是不可或缺的基本技能,对物理工具的使用会大大影响任务的成功率与效率。

尽管当下的多模态大模型在具身智能的高层任务规划以及低层动作执行方面都展现出很大的潜力,但它们是否真正「懂」物理工具、理解其运作原理,仍缺乏统一的量化评估。

为此,来自香港科技大学(广州)、香港科技大学等研究机构的团队提出了PhysToolBench,一个衡量多模态大模型对物理工具的理解的基准。PhysToolBench 把对物理工具的理解分为了三个等级,分别为「认识」工具、「理解」工具、「创造」工具。



  • GitHub 链接:
  • https://github.com/EnVision-Research/PhysToolBench
  • 论文链接:
  • https://arxiv.org/abs/2510.09507
  • Hugging Face 数据集链接:
  • https://huggingface.co/datasets/zhangzixin02/PhysToolBench

PhysToolBench 系统性地测试了 32 个最新的多模态大模型,包含闭源商用模型、开源模型、具身智能专用模型以及 VLA 模型的 VLM 主干四大类,测试出了他们对于物理工具的理解的不足。



PhysToolBench 介绍

机器人执行任务的一般逻辑是,机器人会收到任务指令,并进行环境观察,随后再做出任务规划或者一级动作执行。因此,PhysToolBench 以视觉问答 (VQA) 的形式,设计了包含1000+图文配对的数据集,其中文字部分是任务描述,图片是一个包含了各种工具的图片,代表了机器人观察到的环境,模型被要求观察图片,回答应该使用的工具 (当判断没有工具可用时可以回答 None)。

三层能力评估:

  • Easy-工具识别 (Tool Recognition):判断模型是否认识工具以及知道它的主要功能;给定一个任务,图片中会包含一个最常用的能完成这个任务的工具。例如任务是切菜,图片中会包含一把菜刀。

  • Medium-工具理解 (Tool Understanding):判断模型是否理解工具运作的基本原理;为了更细致地考验多模态大模型的真实理解,这一难度又分为了三个子类别:

  • M1-工具属性理解:不仅仅需要知道物理工具的用途,还得知道它的物理、化学等属性,从而选择合适的工具。例如任务是高温煎牛排,图片中包含不粘锅和铁锅,模型需要选择铁锅因为其高温耐受性。
  • M2-组合工具理解:需要组合多种工具实现目标,以此来判断模型是否明白组合不同工具解锁新的 affordance。例如,需要组合遥控器和电池才能完成开电视机的任务。
  • M3-工具可用性理解:给出的工具有损坏,模型需要识别出它不可用,以此来判断模型是否真正理解物理工具「为什么可用」。例如,有一把没有刀片的美工刀,模型需要理解它没法完成切割的任务。

  • Hard-工具创造 (Tool Creation):判断模型是否能根据任务需求反推所需要的工具的能力。给定一个任务,图片中将不包含常规工具,模型需要利用环境物体「造工具」来完成任务。例如,当没有螺丝刀可用时,可以用一元硬币来拧一字螺丝。

评测范围:覆盖32个最新的多模态大模型 (专有、开源、具身智能专用与 VLA 主干)。



实验结果:

大模型在 PhysToolBench 上的答卷





各个多模态大模型在PhysToolBench上的总准确率(%)

顶级大模型表现仍然不理想

整体来看,闭源商用模型领跑,开源模型紧随其后。且模型越「大」,模型越「强」。然而,即使是当前的顶级的大模型,在 PhysToolBench 上表现欠佳,总得分最高的模型为闭源商用模型 GPT-5,得分为 62.15%,在 M3 难度和 Hard 难度下,得分普遍低于 50%,和人类表现相去甚远。

专用于 Embodied 场景的 MLLM 表现如何?

Robobrain2、Embodied-R1 等模型以 MLLM 为基模,并在 Embodied 相关数据集上进行了 finetune。然而,对比 Robobrain2、Embodied-R1 以及他们的基模 Qwen-2.5-VL,在同等参数量的情况下他们并没有展现出领先优势,说明当今的 Embodied Reasoning 的数据集中关于工具使用的内容仍然比较欠缺。



被用在 VLA 当中的 backbone 模型是否具备了足够的物理工具理解能力?

研究团队还测试了几个用在 Vision-Language-Action (VLA) 模型中的 VLM backbone,结果显示,他们的表现比较糟糕,总得分普遍低于 20%。这说明它们尽管具备了一定的知识,但要完成更高阶更复杂的任务或许还不够。

深入分析

对工具的识别与理解存在长尾效应。即使是顶级的模型,在对一些工具的识别和理解上仍然存在长尾效应。例如,模型对一些电子设备的识别与理解欠佳。

模型对工具「是否可用」理解很差。在 M3 难度,PhysToolBench 特意设置了「陷阱」,但绝大多数模型都没有识别出这个陷阱,仍然选择了损坏的工具。在 M3 难度的总得分甚至比 Hard 难度还低,说明大模型对工具的理解较为肤浅,仅仅是浅层的死记硬背工具与其功能的对应关系,而并没有对其为什么可用的深刻理解。这不仅仅会导致任务失败,还会带来一些安全隐患。

推理能力非常重要,但还远远不够。研究团队对比了一些模型在使用/不使用思维链下的性能,发现使用思维链会带来性能的提升,但对于一些难度较大的 case,例如 M3 难度和 Hard 难度,纯文本层面的推理仍然会有瓶颈,模型无法抓取到存在于视觉模态当中的关键信息,导致推理仍然带来不了正确的结果。研究团队认为,以视觉为中心的推理 (Vision Centric Reasoning) 对于正确使用物理工具非常关键,并提出了一个初步的以视觉为中心的推理的 Agent 框架,鼓励推理过程中利用目标识别等工具放大观察一些关键的工具,并进行额外推理。在 M3 难度上的实验表明,这种推理方式能显著提升模型的准确率,但仍然达不到令人满意的水平。



不同模型使用不同推理方式的表现



对比:(a)文本层面推理 与 (b)视觉为中心的推理

总结

论文提出了测试多模态大模型对物理工具的理解的基准 PhysToolBench。通过系统性地设置不同层级以及广泛的测试,PhysToolBench 揭示了当今多模态大模型对物理工具的理解的短板,也为未来的发展指明了方向:理解、运用和创造复杂的物理工具的能力,是迈向通用智能体不可或缺的一步,也是下一代多模态大模型需要提升的一步。

相关论文、代码、数据集等均已公开公布。 感兴趣的小伙伴可以进一步体验和探索。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
母亲被儿子暴打后续:男子身份被扒、高清正面照流出,悬针纹明显

母亲被儿子暴打后续:男子身份被扒、高清正面照流出,悬针纹明显

鋭娱之乐
2025-11-12 00:50:22
再见黄仁勋!软银58亿清仓英伟达,All in OpenAI

再见黄仁勋!软银58亿清仓英伟达,All in OpenAI

新智元
2025-11-12 10:24:08
万万没想到,今年的双11竟是这样的!

万万没想到,今年的双11竟是这样的!

齐鲁州
2025-11-11 09:17:29
噩耗:14亿人的守护神走了!他瞒过全世界、为中国玩命60年!

噩耗:14亿人的守护神走了!他瞒过全世界、为中国玩命60年!

凡知
2025-11-11 17:13:47
专家解读“阿坝红旗桥因边坡滑坡垮塌”:桥梁建设选址前会进行充分地质勘察,此类事故不常见

专家解读“阿坝红旗桥因边坡滑坡垮塌”:桥梁建设选址前会进行充分地质勘察,此类事故不常见

极目新闻
2025-11-11 21:46:04
最快15分钟通达广州南站,广南快速路12日通车试运营

最快15分钟通达广州南站,广南快速路12日通车试运营

南方都市报
2025-11-12 11:50:07
安世之乱结束,荷兰将归还控制权,但中方得答应他们“两个条件”

安世之乱结束,荷兰将归还控制权,但中方得答应他们“两个条件”

飞花逐月大帝
2025-11-12 07:45:29
快报,快报  菲律宾正式宣布

快报,快报 菲律宾正式宣布

南权先生
2025-11-12 09:15:03
事发苏州河!又有人干这事,画面引人不适!上海明确禁止,危害极大,严重可追究刑责

事发苏州河!又有人干这事,画面引人不适!上海明确禁止,危害极大,严重可追究刑责

环球网资讯
2025-11-12 09:55:24
前DeepSeek研究员罗福莉已加入小米:全力奔赴心目中的AGI

前DeepSeek研究员罗福莉已加入小米:全力奔赴心目中的AGI

澎湃新闻
2025-11-12 13:06:27
洋姜不是姜,是天然胰岛果,在中国被沦为咸菜,都快吃绝种了

洋姜不是姜,是天然胰岛果,在中国被沦为咸菜,都快吃绝种了

泠泠说史
2025-11-11 15:43:31
曾某远没原配漂亮!对比照曝光,祖某也并不爱她,坐姿说明一切

曾某远没原配漂亮!对比照曝光,祖某也并不爱她,坐姿说明一切

子芫伴你成长
2025-11-09 22:05:23
官方:独行侠总经理尼科-哈里森被解雇

官方:独行侠总经理尼科-哈里森被解雇

懂球帝
2025-11-12 02:21:04
申请3天就获批!A股1300亿市值公司“摘帽”

申请3天就获批!A股1300亿市值公司“摘帽”

每日经济新闻
2025-11-10 23:11:07
钱志敏在卧室被抓捕时画面最新披露

钱志敏在卧室被抓捕时画面最新披露

每日经济新闻
2025-11-12 10:32:17
全运会乒乓球:第1块金牌出炉!头号种子4:1夺冠,成功登上领奖台

全运会乒乓球:第1块金牌出炉!头号种子4:1夺冠,成功登上领奖台

国乒二三事
2025-11-12 06:59:34
Shams:独行侠老板承担了责任,承认交易东契奇是一个错误

Shams:独行侠老板承担了责任,承认交易东契奇是一个错误

懂球帝
2025-11-11 23:51:05
首次,有银行取消五年期定期存款产品,还下调了其他期限的利率,什么情况?

首次,有银行取消五年期定期存款产品,还下调了其他期限的利率,什么情况?

每日经济新闻
2025-11-12 09:49:05
党俊武:老龄化真正的“麻烦”是年轻人太少,生孩子是国家战略

党俊武:老龄化真正的“麻烦”是年轻人太少,生孩子是国家战略

互联网大观
2025-11-11 17:24:41
陈伟霆机场接妈妈,何穗穿情侣装首晒照迎婆婆

陈伟霆机场接妈妈,何穗穿情侣装首晒照迎婆婆

日不西沉
2025-11-12 05:45:28
2025-11-12 13:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11697文章数 142502关注度
往期回顾 全部

科技要闻

Meta"宫斗"持续,AI教父杨立昆被"气"走了

头条要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

头条要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

体育要闻

太阳三连胜&活塞东部第一 哪个更想不到

娱乐要闻

辛芷蕾配得上威尼斯影后吗?

财经要闻

专家建议设立5万亿房地产稳定基金

汽车要闻

能得到央视的肯定 长安马自达EZ-60可不简单

态度原创

本地
房产
亲子
手机
军事航空

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

房产要闻

海口湾,1300亩巨无霸地块登场!

亲子要闻

父母最大的焦虑,不是怕孩子不好,而是不敢“允许一切发生”

手机要闻

荣耀500系列官宣:超级标准版+超级Pro版!自带拍照按键

军事要闻

空军发布重磅视频 多款新型战机亮相

无障碍浏览 进入关怀版