约翰霍普金斯大学等研究揭示：AI阅读科学论文存在重大缺陷|实验

约翰霍普金斯大学等研究揭示：AI阅读科学论文存在重大缺陷

2025-12-15 21:54:04　来源: 科技行者

北京举报

分享至

这项由约翰霍普金斯大学、MIT等多家知名研究机构联合开展的开创性研究发表于2025年10月，研究团队包括来自约翰霍普金斯大学的Lukas Selch、跨学科转型大学奥地利分校的Yufang Hou、MIT计算机科学与人工智能实验室的M. Jehanzeb Mirza和James Glass等多位专家。这项研究首次系统性地测试了大型多模态模型（也就是那些能同时理解文字和图像的AI）在阅读科学论文时的表现，结果令人大跌眼镜。研究成果已发布为PRISMM-Bench基准测试集，有兴趣深入了解的读者可以通过论文编号arXiv:2510.16505v2查询完整论文。当我们谈论人工智能的未来时，很多人会憧憬AI成为科学研究的得力助手，帮助研究者分析文献、发现错误、提出新见解。毕竟，现在的AI已经能写诗作画、下棋编程，看起来无所不能。然而，这项研究却像一盆冷水，让我们清醒地认识到：即使是最先进的AI模型，在面对真正的科学文献时，表现得就像一个粗心大意的学生，经常看走眼、理解错误，甚至完全搞不清楚图表和文字之间的关系。研究团队的发现相当惊人。他们测试了21个当前最强大的AI模型，包括GPT-5、Gemini 2.5 Pro这样的顶级商业模型，以及GLM-4.5V、InternVL3等大型开源模型。结果显示，即使是表现最好的模型，准确率也只有54.2%，而表现较差的模型准确率甚至低至26.1%。这意味着，当AI模型试图理解科学论文中的图表与文字是否一致时，它们基本上在瞎猜，成功率还不如抛硬币。这个问题的严重性远超我们的想象。科学研究的可信度建立在严谨和准确的基础上，论文中的每一个数据、每一张图表都必须与文字描述完美匹配。如果AI模型连基本的图文一致性都无法准确判断，那么指望它们成为科学研究的可靠助手简直是天方夜谭。更令人担忧的是，研究发现这些AI模型往往过分依赖语言线索和表面模式，而非真正理解内容的深层含义。研究团队采用了一种极其巧妙的方法来构建这个测试基准。他们没有人为制造假的错误，而是从真实的同行评审过程中挖掘出那些被审稿人发现的真实不一致问题。这就像是收集了一本"科学论文常见错误大全"，每一个例子都是研究者在实际工作中真正犯过的错误。通过分析2025年提交给ICLR（国际学习表征会议）的12366篇论文评审意见，他们最终筛选出262个确实存在的图文不一致问题，覆盖了242篇不同的论文。整个数据收集过程就像考古挖掘一样精细。研究团队首先使用AI系统对大量评审意见进行初步筛选，寻找那些明确指出图表与文字不符的评论。然后，专业研究人员逐一验证这些发现，确保每个不一致都是真实存在且可以被明确定位的。这种"真实世界"的数据收集方式确保了测试的authenticity和实用性，避免了人工构造测试案例可能带来的偏差。在深入分析这些不一致问题时，研究团队发现了13种不同类型的错误模式。最常见的是图表与文字描述不符，占24.4%，以及图表内部元素之间的矛盾，占24.0%。这些错误看似微小，但在科学研究中却可能产生严重后果。比如，一篇关于道路网络分析的论文中，文字声称生成的网络完美匹配真实道路结构，但图表中却明显缺少了一些连接线。又比如，某个实验结果的柱状图显示错误条延伸到负值区域，而这在逻辑上是不可能的，因为测量的指标本身不能为负数。为了全面评估AI模型的能力，研究团队设计了三个不同层次的任务。第一个任务是"发现问题"，要求AI模型能够识别出论文中存在的不一致之处。第二个任务是"解决问题"，不仅要发现错误，还要提出具体的修改建议。第三个任务是"配对匹配"，给出论文中的一个元素，要求AI找出与之矛盾的另一个元素。这三个任务从简单到复杂，全面测试了AI模型在科学文献理解方面的各种能力。研究过程中还有一个意外发现，揭示了AI模型的另一个重大缺陷。当研究人员发现某些AI模型在多选题中表现异常良好时，进一步调查发现这些模型实际上在"作弊"——它们并没有真正理解问题内容，而是在利用选项的语言特征和表达模式来猜测答案。这就像一个学生不看题目，只根据选项的长短和用词风格来选择答案一样。为了解决这个问题，研究团队创新性地引入了结构化的JSON格式答案，有效消除了这种语言偏见，让测试结果更加真实可靠。当我们把AI模型与人类专家进行对比时，差距就更加明显了。研究团队邀请了8位具有博士学位的计算机科学研究人员参与同样的测试。结果显示，人类专家的平均准确率达到77.5%（在有背景信息的情况下），而即使是最强的AI模型也只能达到54.2%。更重要的是，人类专家在没有任何背景信息时的表现接近随机水平（27.5%），说明他们确实在依靠对内容的理解来做判断，而不是猜测。相比之下，AI模型即使在没有背景信息时仍能保持较高的准确率，这恰恰暴露了它们过度依赖语言模式而非真正理解的问题。研究结果对不同类型的AI模型也展现出有趣的差异。商业模型如GPT-5和Gemini 2.5 Pro整体表现最佳，而开源模型中表现最好的GLM-4.5V在某些任务上也能接近商业模型的水平。令人意外的是，模型参数量的大小并不是决定性因素——一些较小但经过特殊训练的模型表现往往比简单放大参数的模型更好。这提示我们，解决这个问题需要的不仅仅是更大的模型，而是更好的训练方法和架构设计。在测试不同难度的任务时，研究发现所有模型都表现出一个共同趋势：当需要处理的信息量增加时，它们的表现会急剧下降。在只需要关注论文中特定片段的"聚焦"任务中，模型表现相对较好；但当要求它们分析整页内容时，准确率明显下降；而面对需要跨页面理解的完整文档时，大多数模型的表现几乎跌至随机水平。这就像一个学生能够回答单句理解题，但面对长篇阅读理解就完全摸不着头脑。另一个重要发现涉及AI模型的"推理"能力。一些声称具有推理功能的模型确实表现更好，比如InternVL3.5-8B虽然参数量相对较小，但由于具备推理能力，其表现超过了许多参数量大得多的模型。当研究人员关闭这些模型的推理功能时，它们的准确率平均下降了16-34%，清楚地证明了逐步推理对于这类复杂任务的重要性。这项研究的意义远远超出了学术范畴。随着AI技术在科学研究中的应用越来越广泛，确保这些系统能够准确理解和分析科学文献变得至关重要。目前的发现表明，我们还远未达到可以完全信任AI进行科学文献分析的程度。无论是在药物研发、气候研究还是其他任何科学领域，依赖有缺陷的AI系统都可能导致严重的后果。研究团队也为AI社区指明了未来的改进方向。首先，需要开发更好的多模态融合技术，让AI能够真正理解图像和文字之间的深层联系，而不是仅仅识别表面特征。其次，需要改进训练方法，让模型学会进行系统性的逻辑推理，而不是依赖统计相关性进行猜测。最后，需要建立更好的评估机制，确保AI系统的能力评估反映真实的理解水平，而不是被语言技巧误导。有趣的是，研究还揭示了不同类型错误的难易程度。一些看似简单的错误，如图表标签与说明文字不符，AI模型相对容易发现；但涉及逻辑推理的错误，如实验条件与结果之间的矛盾，则极具挑战性。这种模式化的错误分布为未来的改进工作提供了明确的优先级——应该首先解决那些对科学可信度影响最大的错误类型。研究团队的工作还开创了一个重要先例：使用真实的同行评审数据来构建AI评估基准。这种方法不仅确保了测试案例的真实性，还为其他研究领域提供了可借鉴的经验。通过持续收集和分析同行评审意见，可以建立动态更新的基准测试集，跟上科学研究和AI技术的发展步伐。当前AI模型在科学文献理解方面的局限性也反映了人工智能发展的一个更深层问题：真正的理解与表面的模式匹配之间的巨大差异。虽然现代AI模型在许多任务上表现出色，但它们往往缺乏人类那种深入理解、逻辑推理和批判性思维的能力。在科学研究这样要求极高精确性和逻辑一致性的领域，这种局限性变得尤为明显。展望未来，这项研究为AI在科学研究中的应用设定了一个重要的基准线。它提醒我们，在AI技术真正成熟之前，人类专家的监督和验证仍然不可或缺。同时，它也为AI研究者指明了一个明确的目标：开发能够真正理解科学内容、进行可靠推理的AI系统。说到底，这项研究最重要的贡献可能不在于揭示了AI的不足，而在于为整个AI社区提供了一个清晰的改进路线图。通过建立这样一个严格、真实的评估基准，研究团队为推动AI在科学研究中的可靠应用奠定了重要基础。虽然当前的结果可能令人失望，但正是这种严格的评估才能推动技术的真正进步。归根结底，这项研究传达的核心信息是：AI技术虽然潜力巨大，但在成为科学研究的可靠伙伴之前，还有很长的路要走。对于普通人来说，这意味着在看到AI在科学领域的应用时，应该保持适当的谨慎和批判性思维。对于研究者来说，这项工作提供了宝贵的工具和洞察，帮助他们更好地理解和改进AI系统。最重要的是，它提醒我们科学研究的严谨性不容妥协，任何想要在这个领域发挥作用的AI系统都必须达到最高的准确性和可靠性标准。 Q&A Q1：PRISMM-Bench是什么？ A：PRISMM-Bench是首个基于真实同行评审数据的AI评估基准，专门测试大型多模态AI模型理解科学论文的能力。它收集了262个真实的图文不一致问题，来自242篇提交给ICLR 2025的论文，用于评估AI是否能准确发现和理解科学文献中的错误。 Q2：为什么AI模型在科学论文理解上表现这么差？ A：主要原因包括三个方面：AI模型过度依赖语言表面特征而非真正理解内容深意；缺乏系统性逻辑推理能力，无法处理复杂的图文关系；在面对大量信息时容易"迷失"，无法保持长距离的注意力和连贯性理解。 Q3：这项研究对普通人有什么意义？ A：这项研究提醒我们在AI辅助科学研究时要保持谨慎。虽然AI在很多领域表现出色，但在需要高精度理解和逻辑推理的科学文献分析中仍有重大局限。这意味着人类专家的监督仍然不可或缺，我们不应过度依赖AI进行重要的科学决策。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.