上海AI实验室突破：首创科学实验视频理解基准|人工智能|ai实验室

分享至

这项由上海AI实验室的徐一丞、吴越、俞嘉硕等众多研究者领导的创新研究发表于2025年10月，论文编号为arXiv:2510.11606v1。研究团队还包括来自东京科学技术研究所和南京大学的专家学者，他们共同开发了一个名为ExpVid的突破性评估工具。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们走进一个生物实验室，看到研究人员小心翼翼地用移液器取样、观察显微镜下的细胞变化、记录实验数据时，你是否想过人工智能能否理解这些复杂的科学操作？这个看似简单的问题背后，隐藏着人工智能发展的一个重要挑战：如何让机器真正理解科学实验的全过程。

上海AI实验室的研究团队就像是给人工智能配备了一副"科学家的眼睛"。他们意识到，虽然现在的多模态大语言模型在很多任务上表现出色，但在理解真实科学实验方面却存在巨大空白。就好比一个从未下过厨房的人，即使看了无数道菜谱，也很难真正掌握烹饪的精髓。同样，现有的AI系统虽然能处理一般的视频内容，但面对实验室里那些精细的操作、复杂的器材和严谨的流程时，往往束手无策。

研究团队发现，现有的评估基准主要关注日常活动或医学影像，却忽略了湿实验室工作的独特挑战。湿实验室是指那些需要使用液体试剂、生物样本进行实验的实验室，与只需要计算机的干实验室形成对比。在湿实验室中，研究人员需要处理微升级别的液体、识别细小且经常被遮挡的工具、区分精细的材料状态，还要理解长时间跨度内步骤之间的因果关系。这就像要求一个人不仅要能识别厨房里的各种调料和工具，还要理解整个烹饪过程的逻辑关系，从准备食材到最终出菜的每一个细节都不能忽略。

为了解决这个问题，研究团队设计了ExpVid，这是第一个专门针对科学实验视频理解和推理的系统性评估基准。ExpVid就像是一场精心设计的"科学实验理解考试"，涵盖了13个不同的科学学科，包括生物学、医学、神经科学、化学、生物工程等等。研究团队从同行评议的视频期刊JoVE（可视化实验期刊）中精选了390个高质量的实验视频，每个视频都配有对应的学术论文，确保了科学严谨性。

ExpVid的设计理念就像搭建一座三层的金字塔，每一层都考验着AI不同层面的能力。在金字塔的底层，也就是第一级"精细感知"层面，AI需要像一个初入实验室的新手一样，学会识别基本的实验要素。这包括识别实验材料、工具、数量和具体操作。比如，AI需要能够区分不同类型的移液器，识别试管中液体的浓度，或者准确计算实验中使用了多少个培养皿。这就像要求一个人在厨房里能准确识别盐和糖，知道锅和盘的区别，能数清楚用了几个鸡蛋。

在金字塔的中层，即第二级"程序性理解"层面，AI需要展现出更高级的认知能力。这一层考验的是AI对实验步骤逻辑顺序的理解。就像烹饪需要先洗菜再切菜，最后下锅炒制一样，科学实验也有严格的步骤顺序。AI需要能够判断实验步骤的正确排序、检测哪些步骤被遗漏了、预测下一步应该进行什么操作，甚至能够根据给定的步骤重新排列出完整的实验序列。

金字塔的顶层是第三级"科学推理"层面，这是最具挑战性的部分。在这个层面，AI不再只是观察和理解单个操作，而是需要像真正的科学家一样，将整个实验过程与科学原理和研究结论联系起来。AI需要能够分析实验数据，理解实验结果的科学意义，甚至能够从观察到的实验过程中推导出科学发现。这就像要求一个人不仅会做菜，还要能解释为什么这样做菜会更好吃，这道菜的营养价值如何，甚至能创新出新的菜谱。

为了确保评估的准确性和公正性，研究团队采用了一种独特的"视觉为中心"的标注方法。他们特意避免在问题中直接提供答案线索，强制AI必须通过观看视频内容来回答问题，而不是简单地依靠文本描述或背景知识。这就像考试时不允许学生翻书，必须凭借自己的理解来答题。

在具体的标注过程中，研究团队采用了半自动化的方法。首先使用大语言模型从实验描述中提取关键信息，然后由多个学科的博士级专家进行人工验证和完善。这个过程就像制作一道精美菜肴，先由机器完成初步的食材准备，再由经验丰富的厨师进行精细调味和最终呈现。每个层级的标注都有严格的验证标准，确保问题的科学性和合理性。

研究团队在ExpVid上测试了19个主流的多模态大语言模型，包括GPT-5、Gemini 2.5、Claude-Sonnet-4等闭源模型，以及Qwen2.5-VL、InternVL3、GLM4.5V等开源模型。测试结果就像一面镜子，清晰地反映出当前AI技术的优势和不足。

在基础的感知任务上，表现最好的Gemini-2.5-Flash模型达到了60.2分的平均成绩，而人类的平均水平是37.6分。这个结果让人意外，说明在识别基本的实验要素方面，AI已经超越了普通人的水平。但是，当任务变得更加复杂时，AI的表现就开始显著下降。

在程序性理解层面，最好的模型GPT-5达到了57.5分，而人类平均水平是42.1分。虽然AI仍然领先，但优势已经明显缩小。更有趣的是，研究团队发现AI在不同类型的程序性任务上表现差异很大。比如在步骤排序任务上，一些模型能达到85分以上，但在预测下一步操作的任务上，同样的模型可能只有15分。这就像一个人很擅长整理已经完成的菜谱步骤，但却很难预测接下来应该做什么。

最令人深思的是科学推理层面的结果。即使是表现最好的GPT-5也只达到了56.4分，而最好的开源模型Intern-S1只有39.6分，两者之间有近17分的差距。这个层面没有人类基准，因为研究团队发现，没有专业背景的普通人根本无法完成这类需要深度科学知识的推理任务。

通过深入分析，研究团队发现了一些有趣的现象。首先，模型的规模确实很重要。在开源模型中，随着参数量的增加，性能呈现出一致的提升趋势。比如InternVL系列从8B参数的模型到78B参数的模型，在所有三个层面的表现都有显著改善。这就像烹饪技能的提升需要不断的练习和经验积累一样，AI的能力也需要更大的模型容量来支撑。

其次，研究团队发现了AI能力的不平衡性。许多模型在某些特定任务上表现出色，但在其他看似相关的任务上却表现糟糕。比如Qwen2.5-VL-72B在步骤排序上能达到86.3分，但在步骤预测上却只有0.3分。这种极端的差异暴露了当前AI系统的脆弱性，就像一个人可能很擅长背诵菜谱，但一到实际操作就手忙脚乱。

特别值得注意的是"思考模式"对AI性能的影响。研究团队发现，让AI进行"深度思考"并不总是有帮助，有时甚至会降低性能。通过对比分析，他们发现启用思考模式的AI往往会采用逻辑导向的推理方式，试图构建一个"合理"的实验流程，但这种推理可能偏离实际的视频内容。相比之下，不使用思考模式的AI更倾向于直接观察视频内容，给出更加贴近实际情况的答案。这就像解题时，有时候第一直觉比过度分析更准确。

为了验证ExpVid真正考察的是视觉理解能力，研究团队进行了一系列控制实验。他们比较了有视频输入和无视频输入的模型性能，结果显示视频输入对所有层面的任务都至关重要。即使是看似可以通过常识推理完成的步骤排序任务，有了视频输入后性能仍有明显提升。这证明ExpVid确实成功地构建了一个需要视觉理解的评估基准。

在长视频推理任务中，研究团队还发现了不同模型对视频帧数需求的差异。一些模型在看到128帧左右就达到了性能峰值，再增加帧数反而会导致性能下降，这可能是因为冗余信息干扰了模型的判断。而另一些专门为长视频设计的模型则能持续受益于更多的视频帧，最多可以处理256帧以上的长序列。这种差异反映了不同模型架构和训练方法的特点。

研究团队还发现，闭源模型和开源模型之间存在明显的性能差距，这种差距随着任务复杂度的增加而扩大。在基础感知任务上，两者差距相对较小，但在高级推理任务上，差距就变得非常显著。这种现象提醒我们，虽然开源模型在很多方面都在快速进步，但在处理复杂科学推理任务时，仍然有很大的提升空间。

ExpVid的设计还考虑了跨学科的平衡性。虽然涵盖了13个不同的科学学科，但由于这些学科都主要涉及湿实验室工作，它们在实验操作和流程上有很多共同点。研究结果显示，AI在不同学科间的表现差异相对较小，这说明ExpVid成功地捕捉了科学实验的通用特征，而不是特定学科的独特知识。

通过对错误案例的深入分析，研究团队识别出了AI系统的几个主要局限性。首先是对细节的敏感度不足，AI经常在视觉相似的工具或材料之间产生混淆。其次是对时间序列的理解能力有限，特别是在需要跟踪状态变化或理解长时间跨度内因果关系的任务上。最后是将观察到的实验过程与科学原理连接的能力不足，这在科学推理层面表现得尤为明显。

研究团队认为，ExpVid不仅仅是一个评估工具，更是一个指向未来发展方向的路标。它揭示了当前AI系统在科学理解方面的不足，同时也为改进这些系统提供了明确的目标。通过在ExpVid上的持续改进，AI系统有望逐步发展成为真正可靠的科学研究助手。

这项研究的意义远远超出了技术层面。在科学研究日益复杂化的今天，如果AI能够真正理解和辅助实验过程，将极大地提高科学研究的效率和质量。从实验设计的自动化检查到实验结果的智能分析，从新手科研人员的培训到跨学科知识的整合，AI在科学研究中的应用前景非常广阔。

当然，这项研究也有其局限性。ExpVid目前主要关注湿实验室的实验，对于物理学中的大型装置实验、纯计算实验或工程领域的测试等还没有涉及。此外，当前的评估主要关注实验结果的正确性，而没有深入探讨AI的推理过程，这在某种程度上限制了我们对AI科学理解能力的全面认识。

说到底，ExpVid就像是给AI设置的一场全方位科学素养考试。通过这场考试，我们不仅看到了当前AI技术的实力，也清楚地看到了它们的短板。更重要的是，这项研究为未来AI在科学研究中的应用指明了方向。当AI真正掌握了科学实验的精髓，它们就能成为科学家们真正可信赖的伙伴，共同推动人类科学事业的发展。

归根结底，这项研究让我们思考一个深刻的问题：什么时候AI才能真正成为科学研究的得力助手？答案可能就在ExpVid这样的基准测试中。每一次技术的改进，每一分性能的提升，都在让我们更接近那个AI与人类科学家携手探索未知世界的未来。对于普通人来说，这意味着科学发现可能会变得更快、更准确，从新药开发到环境保护，从疾病治疗到技术创新，AI增强的科学研究将为我们的生活带来更多可能性。

Q&A

Q1：ExpVid是什么，它有什么特别之处？

A：ExpVid是上海AI实验室团队开发的第一个专门评估AI理解科学实验视频能力的基准测试。它的特别之处在于采用三层金字塔式设计，从基础的材料工具识别，到实验步骤理解，再到高级的科学推理，全面考核AI的科学实验理解能力。

Q2：现在的AI在理解科学实验方面表现如何？

A：测试结果显示AI在基础识别任务上已经超越人类，但随着任务复杂度增加，性能逐渐下降。最好的模型在科学推理层面只达到56.4分，开源模型与闭源模型差距明显，说明AI在科学理解方面还有很大提升空间。

Q3：ExpVid对未来科学研究有什么意义？

A：ExpVid为开发真正能理解科学实验的AI指明了方向。未来AI有望成为科学家的得力助手，从实验设计检查到结果分析，从新手培训到跨学科整合，这将大大提高科学研究效率，加速新药开发、疾病治疗等领域的突破。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.