加州大学圣地亚哥分校FIRE-BENCH：AI科学家自主研究能力评测基准|实验|bench|顶尖科学家协会奖

分享至

这项由加州大学圣地亚哥分校联合约翰霍普金斯大学、康奈尔大学、MBZUAI和卡内基梅隆大学等多所顶尖学府共同开展的研究，于2026年2月发表在预印本平台上（论文编号arXiv:2602.02905v1），研究团队开发了一个名为FIRE-BENCH（全周期洞察重发现评估）的新型测试平台，专门用于评估AI研究助手是否真的能像人类科学家一样，独立完成从提出问题到得出结论的完整科学研究过程。

科学发现就像解决一个巨大的拼图游戏。人类科学家需要观察现象，提出假设，设计实验，分析数据，最后得出结论。每一步都需要创造性思维和严密的逻辑推理。随着大语言模型的快速发展，我们开始看到AI系统在各个科学研究环节都表现出令人印象深刻的能力——它们能够阅读文献，提出假设，编写代码，甚至分析实验结果。这让人们开始好奇：AI是否已经具备了独立进行科学研究的能力？

然而，评估AI的科学研究能力面临着一个根本性的挑战。如果让AI去探索全新的科学问题，我们很难判断它得出的结论是否正确，因为这些结论可能需要花费大量时间和资源进行实验验证。另一方面，如果只是让AI在某个具体任务上优化性能指标，虽然结果容易衡量，但这种评估方式过于狭隘，无法反映真正的科学研究能力。

为了解决这个两难问题，研究团队提出了一个巧妙的解决方案：让AI重新发现那些已经被人类科学家证实的重要科学发现。这就像让一个侦探重新调查一个已经破解的案件，但只给他最初的线索，不告诉他案件的细节和最终结论。如果AI能够通过自己的推理和实验重新得出与人类科学家相同的结论，那就说明它确实具备了独立的科学研究能力。

研究团队从2024年和2025年的顶级机器学习会议（ICLR、ICML和NeurIPS）中精心挑选了30篇高质量的经验分析论文。这些论文都专门研究大语言模型的行为和特性，具有清晰可验证的实验结论。研究人员将每篇论文抽象成一个研究任务：只向AI提供最初的研究问题，而隐藏具体的实验设计、实施细节和最终结论。

整个评估过程就像一场精心设计的"盲测"实验。AI系统需要从一个高层次的研究问题出发，自主设计实验方案，编写和执行代码，分析实验结果，最后形成有证据支撑的科学结论。研究团队然后将AI得出的结论与原始论文的发现进行详细比较，采用基于声明的评分方式，计算精确度、召回率和综合得分。

研究团队测试了四个目前最先进的AI研究助手系统，包括开源的OpenHands系统（分别使用GPT-4-mini和GPT-5作为底层模型），以及两个商业系统：OpenAI的Codex（使用GPT-5-medium）和Anthropic的Claude Code（使用Claude-4-Sonnet）。每个AI系统都在相同的环境中运行，拥有相同的计算资源和数据集访问权限，确保测试的公平性。

**一、AI科学家的表现如何？结果令人深思**

测试结果揭示了当前AI系统在独立科学研究方面的真实水平。即使是表现最好的Claude Code系统，平均综合得分也只有46.7分（满分100分），其他系统的得分分别为：Codex 41.9分，使用GPT-5的OpenHands 37.9分，使用GPT-4-mini的OpenHands 31.9分。这个结果表明，尽管AI系统在许多单项任务上表现出色，但要完成完整的科学研究流程仍然面临巨大挑战。

更令人担忧的是结果的不稳定性。研究团队对每个AI系统进行了三次独立测试，发现即使是相同的系统在相同的任务上，表现也会有很大差异。例如，在"信息位置对模型性能的影响"这个任务上，OpenHands系统的得分波动范围高达40.5分。这种不稳定性在科学研究中是非常危险的，因为科学结论必须具有可重复性和可靠性。

为了更深入地理解AI系统失败的原因，研究团队开发了一套详细的错误分析框架。他们将科学研究过程分为四个关键阶段：研究规划、代码实现、实验执行和结论形成。通过分析AI系统在每个阶段的表现，研究人员发现了一个有趣的现象：AI系统的失败主要不是因为编程能力不足，而是因为缺乏科学思维能力。

在研究规划阶段，AI系统经常采用与原始研究不同的实验方法，或者偏离了最初的研究目标。这就像一个厨师拿到食谱后，却决定用完全不同的烹饪方法来制作菜品。在结论形成阶段，AI系统虽然能够正确执行实验步骤，但经常无法从实验数据中得出正确的结论，就像能够完美演奏音符却无法理解音乐情感的机器人一样。

**二、不同任务难度下的表现差异**

研究团队按照任务的复杂程度将30个测试任务分为简单、中等和困难三个级别。分类标准主要考虑三个维度：概念分解的复杂度、实验控制的严格程度，以及数据分析的复杂程度。这就像将烹饪任务分为煮方便面、制作家常菜和制作法式大餐三个难度等级。

在简单任务上，AI系统表现相对较好。这些任务通常有明确的实验流程和直观的评估标准，就像按照详细说明书组装家具一样。例如，在"信息位置对模型性能的影响"任务中，最好的AI系统达到了91.7分的高分。这类任务的特点是实验步骤相对固定，主要考验AI系统的执行能力而非创造性思维。

然而，当面临需要复杂实验设计的困难任务时，AI系统的表现急剧下降。特别是那些需要构建对照组或控制混杂因素的任务，AI系统经常无法设计出合适的实验方案。以"医疗成本预测中的种族偏见"任务为例，原始研究通过巧妙的对比实验设计来隔离种族因素的影响，但所有测试的AI系统都未能重现这种实验设计思路，因此得分都接近于零。

这种表现差异揭示了AI系统的一个根本性局限：它们擅长执行明确的指令和标准化的操作，但在需要创造性问题解决和复杂推理的情况下表现不佳。这就像一个严格按照食谱烹饪的厨师，在食谱清晰详细时能做出美味的菜肴，但当需要根据现有食材创新菜品时就显得力不从心。

**三、AI系统犯了哪些典型错误？**

通过对AI系统生成的错误结论进行详细分析，研究团队发现了四种主要的错误类型。最常见的是矛盾性结论，占所有错误的65%以上。这类错误表现为AI系统得出的结论与已证实的科学发现直接冲突，就像声称"水在100度时会结冰"这样明显违背常识的错误。

第二类错误是不相关结论，约占错误的25%。AI系统虽然进行了实验，但得出的结论与研究问题毫不相关，就像被问及苹果的营养价值却回答香蕉的种植方法。这反映了AI系统在理解和聚焦研究目标方面的缺陷。

有趣的是，真正的"替代性结论"——即AI系统提出了与原始研究不同但可能合理的科学观点——仅占所有错误的不到11%。这表明AI系统目前还缺乏真正的科学创新能力，它们的错误更多是因为理解偏差或执行失误，而非创造性的科学思考。

研究团队还发现，AI系统在处理需要严格控制变量的实验时特别容易出错。例如，在研究语言模型的某种特性时，AI系统经常忽略了控制其他可能影响结果的因素，就像在测试新药效果时忘记使用安慰剂对照组一样。这种疏忽会导致实验结果不可靠，结论缺乏说服力。

**四、成本效益分析揭示的问题**

除了性能评估，研究团队还详细分析了不同AI系统的使用成本。测试结果显示，性能更好的AI系统通常也更昂贵。表现最佳的Claude Code系统平均每个任务花费0.84美元，而性能相对较低的系统成本约为每任务0.15-0.72美元不等。

这种成本与性能的关系反映了当前AI技术发展的一个现实：更强大的AI模型需要更多的计算资源，因此使用成本也更高。对于希望使用AI进行科学研究的机构来说，这意味着需要在研究质量和预算之间做出权衡。

有趣的是，研究团队发现某些任务的成本差异很大。需要复杂推理和多轮迭代的任务成本明显更高，因为AI系统需要进行更多的计算和API调用。这就像解决复杂数学题需要更多的草稿纸和思考时间一样。

**五、数据污染问题的深入调查**

考虑到测试中使用的都是近期发表的研究论文，研究团队特别关注了一个重要问题：AI系统的优异表现是否是因为它们在训练时已经"见过"这些研究内容？这种现象被称为数据污染，就像学生考试前偷看了答案一样。

为了检验这种可能性，研究团队将测试任务按照AI模型的知识截止时间进行分类，比较AI系统在知识截止前后发表的论文上的表现差异。如果存在严重的数据污染，AI系统在较早发表的论文上应该表现更好。

然而，分析结果显示并没有明显的数据污染迹象。AI系统在知识截止时间前后发表的论文上表现相似，有些甚至在较新的论文上表现更好。这表明FIRE-BENCH的测试结果确实反映了AI系统的真实科学研究能力，而非简单的记忆和重复。

研究团队认为，这种现象的原因在于FIRE-BENCH的独特设计。即使AI系统可能"记住"了某篇论文的内容，但由于测试时只提供高层次的研究问题而隐藏了具体的实验细节和结论，AI系统仍然需要独立进行推理和实验设计。这就像记住了一个故事的结局，但仍然需要自己重新编织整个故事情节一样。

**六、对AI科学研究能力的深度思考**

FIRE-BENCH的测试结果为我们理解AI在科学研究中的角色提供了重要启示。首先，当前的AI系统确实具备了执行科学研究各个环节的基础能力——它们能够理解研究问题，设计实验方案，编写和执行代码，分析数据并形成结论。这些能力的存在意味着AI已经可以作为有力的科学研究助手。

然而，测试同时揭示了AI系统在独立科学研究方面的根本性限制。它们在需要创造性思维、复杂推理和精确控制的任务上表现不佳，特别是在需要设计巧妙对照实验或处理多变量交互的情况下。这表明当前的AI系统更适合承担科学研究中的执行性工作，而非承担需要深度科学洞察的创造性任务。

研究结果还显示，AI系统的表现具有显著的不稳定性，这在科学研究中是一个严重问题。科学发现需要具有可重复性和可靠性，而AI系统目前的不稳定表现使其难以独立承担重要的科学研究任务。这就像一个时而精确时而出错的测量仪器，虽然有时能给出正确结果，但整体可靠性不足。

**七、对未来AI科学研究的展望**

FIRE-BENCH不仅是一个评估工具，更为AI科学研究能力的发展指明了方向。研究团队发现，AI系统的主要弱点集中在研究规划和结论形成两个阶段，这恰恰是最需要科学思维和创造性洞察的环节。未来的AI系统发展应该重点加强这些方面的能力。

在研究规划方面，AI系统需要更好地理解科学问题的本质，能够设计出既严格又巧妙的实验方案。这需要AI系统不仅具备逻辑推理能力，还要具备科学直觉和创造性思维。在结论形成方面，AI系统需要能够从复杂的实验数据中提取出有意义的模式和规律，并将这些发现与更广泛的科学知识体系联系起来。

研究团队建议，改进AI科学研究能力的一个重要方向是增强其对科学方法论的理解。当前的AI系统主要通过模仿人类科学家的具体操作来进行研究，但缺乏对科学方法本身的深度理解。如果能让AI系统更好地掌握科学推理的基本原则，比如如何控制变量、如何设计对照实验、如何处理混杂因素等，其科学研究能力将得到显著提升。

另一个重要的改进方向是提高AI系统的稳定性和可靠性。这可能需要在AI系统的训练过程中加入更多的科学推理任务，让它们在面对不确定性和复杂性时能够保持一致的高质量输出。

说到底，FIRE-BENCH揭示了一个既令人鼓舞又值得深思的现实：AI系统已经初步具备了科学研究的各项基础能力，但要真正成为独立的科学研究者还有很长的路要走。当前的AI系统更像是勤勤恳恳的研究助手，它们能够帮助人类科学家处理大量的数据分析和实验执行工作，但在需要创造性洞察和深度科学思维的任务上仍然需要人类的指导。

这项研究提醒我们，AI在科学研究中的角色应该是增强而非替代人类科学家。通过让AI承担更多的执行性任务，人类科学家可以将更多精力投入到创造性思考和科学洞察上，从而实现人机协作的科学研究新模式。同时，FIRE-BENCH为评估和改进AI科学研究能力提供了一个标准化的平台，相信随着技术的不断发展，AI系统的科学研究能力将会得到显著提升。

有兴趣深入了解这项研究的读者，可以通过论文编号arXiv:2602.02905v1在预印本平台上查阅完整的研究内容。这项工作不仅为AI科学研究能力评估提供了新的方法论，也为未来AI在科学发现中发挥更大作用奠定了重要基础。

Q&A

Q1：什么是FIRE-BENCH测试平台？

A：FIRE-BENCH是一个专门评估AI系统科学研究能力的测试平台，由加州大学圣地亚哥分校等多所高校联合开发。它通过让AI重新发现已被证实的科学结论来测试AI是否具备独立进行科学研究的能力，就像让侦探重新调查已破解的案件但不告诉最终答案一样。

Q2：当前最先进的AI科学助手表现如何？

A：测试结果显示表现最好的Claude Code系统综合得分只有46.7分（满分100分），其他系统得分在32-42分之间。更令人担忧的是结果不稳定，同一系统在相同任务上的表现差异可达40多分，这在需要可重复性的科学研究中是严重问题。

Q3：AI系统在科学研究中主要存在哪些问题？

A：AI系统的主要问题集中在两个方面：研究规划能力不足和结论形成能力欠缺。它们经常采用错误的实验方法或无法从正确的实验数据中得出准确结论。简单执行性任务表现较好，但面对需要创造性思维和复杂控制的任务时表现急剧下降。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.