网易首页 > 网易号 > 正文 申请入驻

PhysToolBench提出了衡量多模态大模型对物理工具理解的基准

0
分享至



人类之所以能与复杂的物理世界高效互动,很大程度上源于对「工具」的使用、理解与创造能力。对任何通用型智能体而言,这同样是不可或缺的基本技能,对物理工具的使用会大大影响任务的成功率与效率。

尽管当下的多模态大模型在具身智能的高层任务规划以及低层动作执行方面都展现出很大的潜力,但它们是否真正「懂」物理工具、理解其运作原理,仍缺乏统一的量化评估。

为此,来自香港科技大学(广州)、香港科技大学等研究机构的团队提出了PhysToolBench,一个衡量多模态大模型对物理工具的理解的基准。PhysToolBench 把对物理工具的理解分为了三个等级,分别为「认识」工具、「理解」工具、「创造」工具。



  • GitHub 链接:
  • https://github.com/EnVision-Research/PhysToolBench
  • 论文链接:
  • https://arxiv.org/abs/2510.09507
  • Hugging Face 数据集链接:
  • https://huggingface.co/datasets/zhangzixin02/PhysToolBench

PhysToolBench 系统性地测试了 32 个最新的多模态大模型,包含闭源商用模型、开源模型、具身智能专用模型以及 VLA 模型的 VLM 主干四大类,测试出了他们对于物理工具的理解的不足。



PhysToolBench 介绍

机器人执行任务的一般逻辑是,机器人会收到任务指令,并进行环境观察,随后再做出任务规划或者一级动作执行。因此,PhysToolBench 以视觉问答 (VQA) 的形式,设计了包含1000+图文配对的数据集,其中文字部分是任务描述,图片是一个包含了各种工具的图片,代表了机器人观察到的环境,模型被要求观察图片,回答应该使用的工具 (当判断没有工具可用时可以回答 None)。

三层能力评估:

  • Easy-工具识别 (Tool Recognition):判断模型是否认识工具以及知道它的主要功能;给定一个任务,图片中会包含一个最常用的能完成这个任务的工具。例如任务是切菜,图片中会包含一把菜刀。

  • Medium-工具理解 (Tool Understanding):判断模型是否理解工具运作的基本原理;为了更细致地考验多模态大模型的真实理解,这一难度又分为了三个子类别:

  • M1-工具属性理解:不仅仅需要知道物理工具的用途,还得知道它的物理、化学等属性,从而选择合适的工具。例如任务是高温煎牛排,图片中包含不粘锅和铁锅,模型需要选择铁锅因为其高温耐受性。
  • M2-组合工具理解:需要组合多种工具实现目标,以此来判断模型是否明白组合不同工具解锁新的 affordance。例如,需要组合遥控器和电池才能完成开电视机的任务。
  • M3-工具可用性理解:给出的工具有损坏,模型需要识别出它不可用,以此来判断模型是否真正理解物理工具「为什么可用」。例如,有一把没有刀片的美工刀,模型需要理解它没法完成切割的任务。

  • Hard-工具创造 (Tool Creation):判断模型是否能根据任务需求反推所需要的工具的能力。给定一个任务,图片中将不包含常规工具,模型需要利用环境物体「造工具」来完成任务。例如,当没有螺丝刀可用时,可以用一元硬币来拧一字螺丝。

评测范围:覆盖32个最新的多模态大模型 (专有、开源、具身智能专用与 VLA 主干)。



实验结果:

大模型在 PhysToolBench 上的答卷





各个多模态大模型在PhysToolBench上的总准确率(%)

顶级大模型表现仍然不理想

整体来看,闭源商用模型领跑,开源模型紧随其后。且模型越「大」,模型越「强」。然而,即使是当前的顶级的大模型,在 PhysToolBench 上表现欠佳,总得分最高的模型为闭源商用模型 GPT-5,得分为 62.15%,在 M3 难度和 Hard 难度下,得分普遍低于 50%,和人类表现相去甚远。

专用于 Embodied 场景的 MLLM 表现如何?

Robobrain2、Embodied-R1 等模型以 MLLM 为基模,并在 Embodied 相关数据集上进行了 finetune。然而,对比 Robobrain2、Embodied-R1 以及他们的基模 Qwen-2.5-VL,在同等参数量的情况下他们并没有展现出领先优势,说明当今的 Embodied Reasoning 的数据集中关于工具使用的内容仍然比较欠缺。



被用在 VLA 当中的 backbone 模型是否具备了足够的物理工具理解能力?

研究团队还测试了几个用在 Vision-Language-Action (VLA) 模型中的 VLM backbone,结果显示,他们的表现比较糟糕,总得分普遍低于 20%。这说明它们尽管具备了一定的知识,但要完成更高阶更复杂的任务或许还不够。

深入分析

对工具的识别与理解存在长尾效应。即使是顶级的模型,在对一些工具的识别和理解上仍然存在长尾效应。例如,模型对一些电子设备的识别与理解欠佳。

模型对工具「是否可用」理解很差。在 M3 难度,PhysToolBench 特意设置了「陷阱」,但绝大多数模型都没有识别出这个陷阱,仍然选择了损坏的工具。在 M3 难度的总得分甚至比 Hard 难度还低,说明大模型对工具的理解较为肤浅,仅仅是浅层的死记硬背工具与其功能的对应关系,而并没有对其为什么可用的深刻理解。这不仅仅会导致任务失败,还会带来一些安全隐患。

推理能力非常重要,但还远远不够。研究团队对比了一些模型在使用/不使用思维链下的性能,发现使用思维链会带来性能的提升,但对于一些难度较大的 case,例如 M3 难度和 Hard 难度,纯文本层面的推理仍然会有瓶颈,模型无法抓取到存在于视觉模态当中的关键信息,导致推理仍然带来不了正确的结果。研究团队认为,以视觉为中心的推理 (Vision Centric Reasoning) 对于正确使用物理工具非常关键,并提出了一个初步的以视觉为中心的推理的 Agent 框架,鼓励推理过程中利用目标识别等工具放大观察一些关键的工具,并进行额外推理。在 M3 难度上的实验表明,这种推理方式能显著提升模型的准确率,但仍然达不到令人满意的水平。



不同模型使用不同推理方式的表现



对比:(a)文本层面推理 与 (b)视觉为中心的推理

总结

论文提出了测试多模态大模型对物理工具的理解的基准 PhysToolBench。通过系统性地设置不同层级以及广泛的测试,PhysToolBench 揭示了当今多模态大模型对物理工具的理解的短板,也为未来的发展指明了方向:理解、运用和创造复杂的物理工具的能力,是迈向通用智能体不可或缺的一步,也是下一代多模态大模型需要提升的一步。

相关论文、代码、数据集等均已公开公布。 感兴趣的小伙伴可以进一步体验和探索。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《飞驰人生3》资本版图:已盈利超6亿,韩寒公平分给24家资方

《飞驰人生3》资本版图:已盈利超6亿,韩寒公平分给24家资方

光影新天地
2026-03-01 16:34:52
怎么也想不通,她长这么漂亮,演技那么好,为啥一直火不起来呢

怎么也想不通,她长这么漂亮,演技那么好,为啥一直火不起来呢

草莓解说体育
2026-03-01 00:47:24
知名演员秦岚自曝患病,已做手术!

知名演员秦岚自曝患病,已做手术!

极目新闻
2026-02-28 23:12:57
孙志浩患癌晚期,贾静雯的女儿得50亿遗产,修杰楷“隔山”吃肥肉

孙志浩患癌晚期,贾静雯的女儿得50亿遗产,修杰楷“隔山”吃肥肉

我心纵横天地间
2026-02-27 22:01:41
上海合作组织秘书处降半旗

上海合作组织秘书处降半旗

观察者网
2026-03-01 18:14:11
TVB《寻秦记》跑龙套士兵近况曝光!撞脸陈伟霆惹热议,被古天乐一眼认出

TVB《寻秦记》跑龙套士兵近况曝光!撞脸陈伟霆惹热议,被古天乐一眼认出

你约电影
2026-03-01 20:34:56
8000元相亲餐男子尿遁逃单!女子被迫买单,婚介甩锅:与我们无关

8000元相亲餐男子尿遁逃单!女子被迫买单,婚介甩锅:与我们无关

今朝牛马
2026-02-01 21:14:04
美、以军事打击伊朗,A股两支“战争金属”股还会继续涨?

美、以军事打击伊朗,A股两支“战争金属”股还会继续涨?

经济观察报
2026-03-01 18:46:25
外媒:伊朗前总统内贾德遇袭身亡

外媒:伊朗前总统内贾德遇袭身亡

澎湃新闻
2026-03-01 22:00:04
真香啊!个税退税退回21606.18元,浙江一网友晒出自己的“经验”

真香啊!个税退税退回21606.18元,浙江一网友晒出自己的“经验”

火山詩话
2026-03-01 10:32:25
从中国男篮惊险逆转台北队的过程看:周琦在国家队尚有一席之地

从中国男篮惊险逆转台北队的过程看:周琦在国家队尚有一席之地

姜大叔侃球
2026-03-01 21:55:19
外媒:特朗普对伊朗发出新威胁

外媒:特朗普对伊朗发出新威胁

参考消息
2026-03-01 15:52:28
为什么说要得饶人处且饶人?网友:卡里几千万,为了5块钱命没了

为什么说要得饶人处且饶人?网友:卡里几千万,为了5块钱命没了

另子维爱读史
2026-02-25 23:23:26
辅导员,全部入编

辅导员,全部入编

山东教育
2026-03-01 17:59:48
伊朗导弹袭击约旦美军基地

伊朗导弹袭击约旦美军基地

财联社
2026-02-28 18:06:05
你们的痛苦不会白费——据称伊朗最高领袖哈梅内伊在空袭中死亡

你们的痛苦不会白费——据称伊朗最高领袖哈梅内伊在空袭中死亡

老王说正义
2026-03-01 11:56:27
中国台北球员林秉圣晒与朱俊龙等人合影:我队友们太猛了

中国台北球员林秉圣晒与朱俊龙等人合影:我队友们太猛了

懂球帝
2026-03-01 20:37:47
小米事故炸翻37万车主,雷军左右为难!

小米事故炸翻37万车主,雷军左右为难!

鸣金网
2026-02-28 10:45:03
赌中国不会还手?巴拿马总统被秒打脸,中方第五波反制马上就到

赌中国不会还手?巴拿马总统被秒打脸,中方第五波反制马上就到

石江月
2026-02-28 17:09:34
超20000名旅客滞留!上海大学生:因为一场急病,提前逃出迪拜,感叹“差点没法上学”

超20000名旅客滞留!上海大学生:因为一场急病,提前逃出迪拜,感叹“差点没法上学”

新民晚报
2026-03-01 20:44:34
2026-03-01 22:56:51
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12382文章数 142573关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

在以贴瓷砖的中国小伙:爆炸声在头顶响起 真的被吓到

头条要闻

在以贴瓷砖的中国小伙:爆炸声在头顶响起 真的被吓到

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

健康
家居
亲子
旅游
数码

转头就晕的耳石症,能开车上班吗?

家居要闻

素色肌理 品意式格调

亲子要闻

宁愿挨一刀也不愿顺产?宋玉希四胎道出想剖腹产的原因,太不值当

旅游要闻

去踏青、共赏花,春意正浓!““春日经济”蓬勃绽放

数码要闻

Uperfect M140G12笔记本三屏扩展套件,办公好帮手!

无障碍浏览 进入关怀版