PhysToolBench提出了衡量多模态大模型对物理工具理解的基准|原理|深度思考模型|phystoolbench

PhysToolBench提出了衡量多模态大模型对物理工具理解的基准

2025-11-04 18:02:01　来源: 机器之心Pro

北京举报

分享至

人类之所以能与复杂的物理世界高效互动，很大程度上源于对「工具」的使用、理解与创造能力。对任何通用型智能体而言，这同样是不可或缺的基本技能，对物理工具的使用会大大影响任务的成功率与效率。

尽管当下的多模态大模型在具身智能的高层任务规划以及低层动作执行方面都展现出很大的潜力，但它们是否真正「懂」物理工具、理解其运作原理，仍缺乏统一的量化评估。

为此，来自香港科技大学（广州）、香港科技大学等研究机构的团队提出了PhysToolBench，一个衡量多模态大模型对物理工具的理解的基准。PhysToolBench 把对物理工具的理解分为了三个等级，分别为「认识」工具、「理解」工具、「创造」工具。

GitHub 链接：
https://github.com/EnVision-Research/PhysToolBench
论文链接：
https://arxiv.org/abs/2510.09507
Hugging Face 数据集链接：
https://huggingface.co/datasets/zhangzixin02/PhysToolBench

PhysToolBench 系统性地测试了 32 个最新的多模态大模型，包含闭源商用模型、开源模型、具身智能专用模型以及 VLA 模型的 VLM 主干四大类，测试出了他们对于物理工具的理解的不足。

PhysToolBench 介绍

机器人执行任务的一般逻辑是，机器人会收到任务指令，并进行环境观察，随后再做出任务规划或者一级动作执行。因此，PhysToolBench 以视觉问答 (VQA) 的形式，设计了包含1000+图文配对的数据集，其中文字部分是任务描述，图片是一个包含了各种工具的图片，代表了机器人观察到的环境，模型被要求观察图片，回答应该使用的工具 (当判断没有工具可用时可以回答 None)。

三层能力评估：

Easy-工具识别 (Tool Recognition)：判断模型是否认识工具以及知道它的主要功能；给定一个任务，图片中会包含一个最常用的能完成这个任务的工具。例如任务是切菜，图片中会包含一把菜刀。

Medium-工具理解 (Tool Understanding)：判断模型是否理解工具运作的基本原理；为了更细致地考验多模态大模型的真实理解，这一难度又分为了三个子类别：

M1-工具属性理解：不仅仅需要知道物理工具的用途，还得知道它的物理、化学等属性，从而选择合适的工具。例如任务是高温煎牛排，图片中包含不粘锅和铁锅，模型需要选择铁锅因为其高温耐受性。
M2-组合工具理解：需要组合多种工具实现目标，以此来判断模型是否明白组合不同工具解锁新的 affordance。例如，需要组合遥控器和电池才能完成开电视机的任务。
M3-工具可用性理解：给出的工具有损坏，模型需要识别出它不可用，以此来判断模型是否真正理解物理工具「为什么可用」。例如，有一把没有刀片的美工刀，模型需要理解它没法完成切割的任务。

Hard-工具创造 (Tool Creation)：判断模型是否能根据任务需求反推所需要的工具的能力。给定一个任务，图片中将不包含常规工具，模型需要利用环境物体「造工具」来完成任务。例如，当没有螺丝刀可用时，可以用一元硬币来拧一字螺丝。

评测范围：覆盖32个最新的多模态大模型 (专有、开源、具身智能专用与 VLA 主干)。

实验结果：

大模型在 PhysToolBench 上的答卷

各个多模态大模型在PhysToolBench上的总准确率(%)

顶级大模型表现仍然不理想

整体来看，闭源商用模型领跑，开源模型紧随其后。且模型越「大」，模型越「强」。然而，即使是当前的顶级的大模型，在 PhysToolBench 上表现欠佳，总得分最高的模型为闭源商用模型 GPT-5，得分为 62.15%，在 M3 难度和 Hard 难度下，得分普遍低于 50%，和人类表现相去甚远。

专用于 Embodied 场景的 MLLM 表现如何？

Robobrain2、Embodied-R1 等模型以 MLLM 为基模，并在 Embodied 相关数据集上进行了 finetune。然而，对比 Robobrain2、Embodied-R1 以及他们的基模 Qwen-2.5-VL，在同等参数量的情况下他们并没有展现出领先优势，说明当今的 Embodied Reasoning 的数据集中关于工具使用的内容仍然比较欠缺。

被用在 VLA 当中的 backbone 模型是否具备了足够的物理工具理解能力？

研究团队还测试了几个用在 Vision-Language-Action (VLA) 模型中的 VLM backbone，结果显示，他们的表现比较糟糕，总得分普遍低于 20%。这说明它们尽管具备了一定的知识，但要完成更高阶更复杂的任务或许还不够。

深入分析

对工具的识别与理解存在长尾效应。即使是顶级的模型，在对一些工具的识别和理解上仍然存在长尾效应。例如，模型对一些电子设备的识别与理解欠佳。

模型对工具「是否可用」理解很差。在 M3 难度，PhysToolBench 特意设置了「陷阱」，但绝大多数模型都没有识别出这个陷阱，仍然选择了损坏的工具。在 M3 难度的总得分甚至比 Hard 难度还低，说明大模型对工具的理解较为肤浅，仅仅是浅层的死记硬背工具与其功能的对应关系，而并没有对其为什么可用的深刻理解。这不仅仅会导致任务失败，还会带来一些安全隐患。

推理能力非常重要，但还远远不够。研究团队对比了一些模型在使用/不使用思维链下的性能，发现使用思维链会带来性能的提升，但对于一些难度较大的 case，例如 M3 难度和 Hard 难度，纯文本层面的推理仍然会有瓶颈，模型无法抓取到存在于视觉模态当中的关键信息，导致推理仍然带来不了正确的结果。研究团队认为，以视觉为中心的推理 (Vision Centric Reasoning) 对于正确使用物理工具非常关键，并提出了一个初步的以视觉为中心的推理的 Agent 框架，鼓励推理过程中利用目标识别等工具放大观察一些关键的工具，并进行额外推理。在 M3 难度上的实验表明，这种推理方式能显著提升模型的准确率，但仍然达不到令人满意的水平。

不同模型使用不同推理方式的表现

对比：(a)文本层面推理与 (b)视觉为中心的推理

总结

论文提出了测试多模态大模型对物理工具的理解的基准 PhysToolBench。通过系统性地设置不同层级以及广泛的测试，PhysToolBench 揭示了当今多模态大模型对物理工具的理解的短板，也为未来的发展指明了方向：理解、运用和创造复杂的物理工具的能力，是迈向通用智能体不可或缺的一步，也是下一代多模态大模型需要提升的一步。

相关论文、代码、数据集等均已公开公布。感兴趣的小伙伴可以进一步体验和探索。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.