中科院等顶尖院校:AI实现动手思考式多模态智能基准测试能力突破|调用|编程|预定义|大模型

分享至

这项由中国科学院自动化研究所牵头，联合中国科学院大学、东南大学、南京大学、北京大学、北京航空航天大学、南洋理工大学和加州大学洛杉矶分校共同完成的研究发表于2026年4月，论文编号为arXiv:2604.03016v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

过去，我们让AI看图片就像让一个人站在博物馆门口，只能远远地看看展品的全貌，然后猜测里面有什么宝贝。但现实生活中，人类解决复杂问题时会主动靠近、放大镜观察细节、查阅资料验证信息。研究团队发现，现有的多模态大语言模型评估方法存在严重缺陷：它们只测试AI的"被动观察"能力，却忽视了"主动探索"的重要性。

当前的AI评估就像让学生只看教科书的封面就要求他们回答复杂问题，而不允许他们翻书、做笔记或查阅参考资料。这种评估方式显然无法反映真实世界中解决问题的复杂性。研究团队意识到，真正智能的系统应该像一位经验丰富的侦探，既能仔细观察现场的每个细节（视觉扩展），又能查阅档案寻找相关线索（知识扩展）。

为了填补这个巨大的评估空白，研究团队创建了Agentic-MME基准测试。这个基准测试包含418个真实世界的任务，涵盖6个不同领域，按照3个难度级别精心设计。每个任务都像一个精心设计的谜题，需要AI系统像人类专家一样，主动使用工具来发现隐藏的线索，然后将这些线索与外部知识相结合，最终得出正确答案。

这项研究的突破性在于首次建立了真正的"过程验证"评估体系。传统评估只关心最终答案是否正确，就像只看考试成绩而不关心学生是如何解题的。而Agentic-MME不仅要检查最终答案，还要详细审查AI系统的每一个推理步骤、每一次工具使用是否恰当、每一个中间结果是否有效。研究团队花费了超过2000个小时进行人工标注，平均每个任务需要10多个小时的精心设计和验证，建立了超过2000个逐步检查点。

一、视觉探索与知识整合：AI的"双重身份"

在这个新的评估框架中，AI系统扮演着双重角色。首先是"显微镜观察员"的角色，需要主动操控各种视觉工具来发现图像中的细微线索。这就像一位考古学家面对一幅古画，不仅要看整体构图，还要用放大镜观察笔触细节、用特殊灯光检查隐藏的图层、甚至旋转画作从不同角度寻找线索。

AI系统可以使用13种不同的视觉操作工具，包括裁剪、旋转、翻转、调整对比度、边缘检测等。每种工具都像考古学家工具箱中的专用设备，有着特定的用途。比如裁剪工具可以将注意力集中到图像的关键区域，就像用放大镜观察文物上的铭文；对比度调整可以让模糊的细节变得清晰，如同调节显微镜的焦距。

其次是"图书管理员"的角色，需要通过网络搜索来获取图像内容相关的背景知识。这个过程就像一位研究员在大图书馆中查阅资料，不仅要知道如何搜索关键词，还要知道如何验证信息的可靠性，如何将不同来源的信息进行交叉对比。

AI系统配备了4种知识扩展工具：谷歌文本搜索、谷歌图片反向搜索、网页内容获取和图片下载。这些工具让AI系统能够像人类研究者一样，根据视觉线索进行有针对性的信息检索。

真正的挑战在于这两个角色需要无缝协作。AI系统必须像一位经验丰富的侦探，先通过视觉工具发现线索，然后用这些线索去搜索相关信息，再用搜索到的信息指导进一步的视觉探索。这种iterative的过程需要AI系统具备高度的规划能力和灵活的问题解决策略。

二、三个难度层级：从简单观察到复杂推理

研究团队将任务按照复杂程度分为三个层级，就像游戏中的初级、中级和专家模式。

第一级别是"单步视觉操作"，相当于让AI完成一个简单的视觉任务。比如在一张超市货架的照片中，某个商品的价格标签可能因为拍摄角度而显得很小，AI需要准确地裁剪出价格标签区域并放大，然后读取价格信息。这个层级测试AI是否具备基本的视觉工具使用能力，就像测试一个人是否会正确使用放大镜。

第二级别是"多步骤工作流程"，需要AI系统将视觉操作与知识搜索结合起来。举个例子，AI看到一张建筑物的照片，需要先通过视觉工具识别出建筑物上的标识，然后通过网络搜索查找这个建筑的相关信息，最后回答关于该建筑历史或用途的问题。这个层级测试AI是否能够进行简单的跨模态推理，类似于让一个人既要观察又要查阅资料。

第三级别是"高级协同问题解决"，这是最具挑战性的任务类型。这类任务往往包含模糊的视觉线索，需要AI系统进行假设-验证循环。比如，AI面对一个极其模糊的商标图像，需要先尝试通过图像处理技术提取可能的特征，然后基于这些不完整的信息进行多次搜索尝试，每次搜索的结果都会为下一轮视觉分析提供指导，直到最终确定这个模糊商标的真实身份。这个层级真正测试AI的综合推理能力，就像要求一位专家解决现实世界中最复杂的问题。

特别有趣的是，研究团队在设计第三级别任务时采用了"模型在环后向设计"的方法。他们先让最先进的AI模型观察原始图像并描述其内容，然后专门挑选模型遗漏或错误描述的细节作为关键线索。这样确保了任务确实需要主动的视觉工具使用，而不能仅仅通过被动观察来解决。

三、革命性的过程验证体系

传统的AI评估就像只看学生考试的最终得分，而不关心他们是如何解题的。这种评估方式存在严重问题：AI系统可能因为"运气好"而猜对答案，也可能因为一个小错误而全功尽弃，尽管它的整体推理过程是正确的。

Agentic-MME引入了双轴过程验证体系，这是该研究最重要的创新之一。这个体系就像两个专门的审查员，分别从不同角度检查AI系统的每一个操作步骤。

S轴审查员专门负责检查"策略和工具执行"。它会仔细审查AI系统是否在正确的时机使用了正确的搜索策略。比如，当任务要求识别一个模糊的建筑物时，S轴审查员会检查AI系统是否提取了合适的搜索关键词、是否访问了相关的网页、是否从搜索结果中获得了预期的信息。这个过程就像检查一位研究员的文献检索过程是否专业和有效。

V轴审查员则专门负责检查"视觉证据验证"。它不仅要确认AI系统是否使用了视觉工具，更重要的是要验证这些工具生成的中间图像是否真正包含了所需的视觉信息。比如，如果AI系统声称它裁剪了包含价格信息的区域，V轴审查员会实际检查这个裁剪结果，确认价格信息是否清晰可读。这个过程就像实验室中的同行评议，要求提供可验证的证据。

为了实现这种细致的过程验证，研究团队建立了超过2000个检查点，平均每个任务包含5个以上的中间验证步骤。每个检查点都配有详细的人工标注，包括预期的操作意图、应该生成的中间结果，以及用于验证的具体问题和标准答案。这种详细程度前所未有，相当于为每个任务创建了一份详细的"标准作业程序"。

更进一步，研究团队还引入了"过度思考"惩罚机制。这个机制会比较AI系统的解题步骤数量与人类专家的最优解题路径，对那些进行了过多冗余操作的系统进行扣分。这就像在考试中不仅要求答案正确，还要求解题过程简洁高效。

四、统一评估框架：兼容不同的AI系统

现实中的AI系统就像来自不同厂商的智能手机，虽然功能类似，但操作方式可能完全不同。有些AI系统擅长编写代码来处理图像，有些则更适合使用预定义的工具接口。为了公平比较这些不同类型的系统，研究团队开发了一个统一的评估框架。

这个框架支持两种主要的交互模式。第一种是"代码生成模式"，AI系统可以编写Python代码来处理图像，就像一个程序员面对问题时会编写定制化的解决方案。第二种是"原子工具模式"，AI系统通过调用预定义的函数来完成任务，就像使用标准化的工具箱。

为了确保公平比较，研究团队开发了复杂的标准化机制。对于代码生成模式，他们使用抽象语法树分析技术，可以从AI系统生成的各种风格的代码中提取出标准化的操作序列。这就像有一位专业的翻译员，能够将不同编程风格的代码翻译成统一的操作描述。

对于原子工具模式，框架提供了13种视觉操作工具和4种知识检索工具的标准接口。每个工具都有详细的参数规范和使用说明，确保不同的AI系统都能正确理解和使用这些工具。

更重要的是，评估框架还处理了许多技术细节问题。比如，不同AI系统生成的图像可能采用不同的文件格式或命名约定，框架会自动进行标准化处理。对于网络搜索结果，框架支持缓存和重放功能，确保相同的搜索查询总是返回一致的结果，避免因网络内容变化而影响评估的一致性。

五、令人意外的实验结果

研究团队对多个最先进的AI系统进行了全面测试，结果让人大开眼界。即使是目前表现最好的AI系统，在这个新的评估标准下也显得相当"笨拙"。

最优秀的AI系统Gemini-3 Pro在整体任务中只达到了56.3%的准确率，而在最困难的第三级别任务中，准确率骤降至33.3%。这个结果特别有意思，因为同样是Gemini-3 Pro，在传统的被动观察模式下，第一级别任务能达到42.9%的准确率，但在第三级别任务中只有7.5%。这说明工具的使用确实能显著提升AI的问题解决能力，但距离人类水平还有很大差距。人类专家在相同任务上的平均准确率达到了93.8%，即使在最困难的第三级别任务中也能保持82.3%的高准确率。

更有趣的是开源AI系统与闭源商业系统之间的巨大差距。开源系统如Qwen3 VL-235B在第三级别任务中的准确率只有10.1%，而一些开源系统甚至在搜索策略方面几乎完全失败，S轴得分低于5%。这表明当前开源AI系统虽然能够学会调用工具，但在复杂的多步推理和搜索规划方面还需要大幅改进。

研究团队还发现了一个反直觉的现象：结构化的工具接口（原子工具模式）普遍比代码生成模式表现更好。这可能是因为代码生成对AI系统提出了更高的认知要求：不仅要理解问题，还要处理编程语法、管理文件输入输出、处理错误恢复等技术细节。但代码生成模式也展现出独特优势：它可以进行任意复杂的操作组合，不受预定义工具的限制。

另一个值得注意的发现是AI系统在工具使用方面的"急躁"行为。许多AI系统频繁调用视觉工具，但生成的中间结果往往质量很差。比如，某个AI系统可能会正确地识别需要裁剪某个区域，但实际裁剪的位置完全错误，导致浪费了交互次数却没有获得有用信息。

六、细致的错误分析揭示关键瓶颈

研究团队对AI系统的失败案例进行了详细分析，发现了七种主要的错误模式，就像医生诊断病人时要区分不同的病因一样。

最常见的问题是"行动消极"，占所有错误的约50%。这类AI系统面对需要主动操作的任务时，往往选择直接从原始图像猜测答案，而不愿意使用可用的工具。这就像一个学生面对开卷考试时，明明可以查阅资料，却坚持凭记忆答题。

第二常见的问题是"过度思考陷阱"，特别影响那些较为先进的AI系统。这些系统会陷入重复的工具调用循环中，不断尝试相似的操作，却无法从中间结果中学习和调整策略。这种行为类似于一个人在解谜时，明明已经尝试了某种方法不可行，却反复尝试相似的方法。

第三个重要问题是"不忠实的工具使用"。AI系统虽然会调用工具，但调用方式不当，比如裁剪了错误的区域或使用了不合适的图像处理参数。这就像一个人知道要使用放大镜，却把放大镜放在了错误的位置。

有趣的是，不同难度级别的任务展现出不同的错误模式分布。在简单任务中，"行动消极"是主要问题；而在复杂任务中，"搜索策略失误"和"工具使用不当"变得更加突出。这表明AI系统在不同认知负荷下会表现出不同类型的局限性。

研究团队还发现，代码生成模式容易出现"工具执行错误"，比如语法错误、运行时异常等低层次问题。而原子工具模式则更多地在高层次规划方面出现问题。这个对比提供了关于如何改进不同类型AI系统的重要洞察。

七、验证研究的严谨性

为了确保这项基准测试真正有效，研究团队进行了多项验证实验，就像药物试验需要对照组一样严谨。

首先，他们测试了图像内容是否是任务解决的必要条件。当研究团队移除所有图像，只保留文字问题时，AI系统的准确率几乎降至零（最好的系统也只有不到3%的准确率）。这证明任务确实需要视觉信息，不存在"数据泄露"问题。

接着，他们验证了主动工具使用的必要性。研究团队比较了四种设置：纯被动观察、仅使用图像工具、仅使用搜索工具，以及同时使用两类工具。结果显示，在最困难的任务中，仅使用图像工具甚至会降低性能，仅使用搜索工具只能带来微小改进，但两者结合使用时效果显著提升。这证明了任务设计的合理性：真正困难的问题确实需要视觉操作与知识搜索的协同作用。

研究团队还进行了"神谕指导"实验，这是一个特别巧妙的验证方法。他们逐步向AI系统提供人工标注的中间结果，观察性能如何改善。结果显示，当提供正确的中间视觉证据时，AI系统性能有所改善；当进一步提供完整的步骤指导时，性能大幅提升。但即使在这种"开挂"模式下，AI系统在最困难任务上的表现仍然没有接近完美，这说明连续执行和规划仍然是重大挑战。

为了验证评估的一致性，研究团队使用了三个不同的AI裁判系统，并与人类专家的评估进行了对比。结果显示各个评估者之间的一致性很高，这证明了评估方法的可靠性。

八、对AI发展的深远影响

这项研究不仅提供了一个新的评估工具，更重要的是揭示了当前AI系统的根本性局限。传统评估就像只测试学生的阅读理解能力，而忽视了他们的动手实践和资料检索能力。Agentic-MME的出现，就像为AI评估引入了实验课和开卷考试，更全面地反映了智能系统在现实世界中的能力。

研究结果表明，尽管当前的大语言模型在知识储备方面已经相当丰富，但在主动问题解决和工具协调使用方面还存在显著不足。这个发现对AI发展方向具有重要指导意义：仅仅增加模型参数和训练数据可能不足以实现真正的智能，还需要专门训练模型的规划能力、工具使用技巧和多步推理能力。

特别值得注意的是开源AI系统与商业系统之间的巨大差距。这表明简单的模型架构复制可能无法达到先进系统的性能水平，还需要在训练方法、数据处理和系统优化等方面进行深入研究。

这项研究还为AI系统的训练提供了新的思路。传统的AI训练主要关注最终答案的正确性，而过程验证体系表明，训练AI系统的中间推理步骤可能同样重要。未来的AI训练可能需要更多地关注"如何思考"而不仅仅是"思考什么"。

研究团队公开了完整的数据集、评估工具和基准测试代码，这为整个AI研究社区提供了宝贵的资源。这种开放式的研究方法将加速相关领域的发展，帮助研究者更好地理解和改进AI系统的多模态推理能力。

说到底，这项研究就像为AI系统设立了一面更准确的镜子，让我们看清现有技术的真实水平。虽然结果显示AI系统距离人类水平还有很大差距，但这恰恰为未来的研究指明了方向。正如研究团队所指出的，真正的多模态智能不仅要能看懂图像和理解语言，更要能像人类专家一样主动探索、验证假设、协调不同信息源来解决复杂问题。这个目标虽然仍然充满挑战，但Agentic-MME为我们提供了衡量进展的可靠标尺，这本身就是向真正智能AI迈出的重要一步。

Q&A

Q1：Agentic-MME基准测试与传统AI评估有什么本质区别？

A：传统AI评估只让AI被动观察图像然后回答问题，就像让学生只看教科书封面就答题。而Agentic-MME要求AI主动使用工具，既要像侦探一样用放大镜等工具仔细观察现场细节，又要像研究员一样查阅资料验证信息，最后综合所有线索得出答案。这种评估更接近人类解决现实问题的方式。

Q2：为什么最先进的AI系统在Agentic-MME上表现不佳？

A：最好的AI系统Gemini-3 Pro整体准确率只有56.3%，在最难任务上只有33.3%，而人类专家能达到93.8%。主要原因是AI系统缺乏有效的多步规划能力，经常在错误的地方使用工具，或者陷入重复操作的循环中，无法像人类一样灵活协调视觉观察和知识搜索。

Q3：Agentic-MME的过程验证体系是如何工作的？

A：它使用双轴验证系统，就像两个专门审查员。S轴检查AI的搜索策略是否正确，比如是否用了合适的关键词、找到了相关信息。V轴检查AI使用视觉工具的效果，验证裁剪或处理后的图像是否真正包含所需信息。每个任务平均有5个以上的检查点，确保每一步操作都经过验证。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.