KTH皇家理工学院研究揭示：“运气因子”影响AI智能体评估可靠性|算法|模态|实验|方法学

分享至

当你玩同一款游戏十次，每次得分都不一样时，你会怎么判断自己的真实水平？这个看似简单的问题，正在人工智能领域引发一场关于评估方法可靠性的深度反思。

这项由瑞典KTH皇家理工学院的研究团队进行的突破性研究，发表于2026年2月6日的arXiv预印本平台（论文编号：arXiv:2602.07150v1），专门调查了AI智能体评估过程中的随机性问题。研究团队通过收集6万个智能体运行轨迹、消耗超过255亿个令牌和188万次工具调用，系统性地揭示了一个被学术界长期忽视的重要问题：目前广泛使用的单次运行评估方法，可能让我们对AI系统真实能力的判断产生严重误解。

这项研究的意义远不止于学术探讨。在当前AI技术快速发展的时代，无论是科技公司决定采用哪个模型，还是研究人员判断某项技术是否真的有所突破，都严重依赖于性能评估分数。如果这些分数本身就不够可靠，那么整个行业的决策基础都可能存在问题。研究团队发现，即使是在理论上完全确定性的设置下（温度设为0），AI智能体的表现仍然会出现显著波动，这种波动足以让一个看似2-3个百分点的"改进"实际上只是评估噪音。

想象一下，如果你通过掷硬币来判断一个新药是否比旧药更有效，你需要掷多少次才能得出可信的结论？这项研究本质上就是在回答AI领域的类似问题：我们需要运行多少次测试，才能真正确定一个AI系统是否比另一个更优秀？

一、智能体评估的"运气游戏"：为什么单次测试不够用？

在探讨这个问题之前，我们需要先理解什么是智能体评估。可以把AI智能体想象成一个会使用各种工具来解决编程问题的虚拟助手。比如在SWE-Bench-Verified这个广受欢迎的测试基准中，智能体需要像真正的程序员一样，阅读GitHub上的问题描述，分析代码，使用各种开发工具，最终提交能够通过自动化测试的解决方案。

传统的评估方法非常直接：让智能体尝试解决500个编程问题，统计成功解决了多少个，然后计算成功率。这种方法被称为pass@1，意思是"第一次尝试的成功概率"。听起来很合理，对吧？问题是，大多数研究人员和公司都只运行一次测试就得出结论，就像只掷一次硬币就判断这枚硬币是否公平一样。

研究团队通过大规模实验发现了一个令人震惊的事实：同样的智能体在同样的任务上，不同运行的成功率可能相差2.2到6.0个百分点。这意味着什么呢？假设某个智能体在一次测试中取得了31%的成功率，在另一次测试中可能只有28.8%，或者高达32.4%。这种差异足够大，以至于一个声称"改进了3个百分点"的新系统，实际上可能根本没有任何真正的改进，只是运气好而已。

更令人意外的是，即使在理论上完全确定性的条件下（将随机性参数设为0），这种波动依然存在。这就像是一台看似完全按照固定程序运行的机器，却仍然会产生不同的结果。原因在于现代AI推理引擎中存在各种不可避免的随机因素：浮点运算的精度差异、硬件优化策略、并行处理的时序变化等等。

研究团队选择了三个不同的AI模型进行测试：Qwen3-32B（一个中等规模的通用模型，在学术界广受欢迎）、DeepSWE-preview（专门为编程任务微调的模型）、以及Devstral-2-123B（一个在编程领域表现卓越的大型开源模型）。同时，他们使用了两种不同的测试框架：自己开发的nano-agent（确保没有被任何模型的训练数据污染）和业界常用的R2E-Gym。

通过这种全面的实验设计，研究团队总共收集了6万个完整的智能体运行轨迹。每个轨迹都记录了智能体从接收任务到最终提交解决方案的完整过程，包括它的"思考"过程、使用的工具、获得的反馈、以及最终的成败。这种详细的记录让研究人员能够深入分析随机性到底是在哪个环节、以什么方式影响最终结果的。

结果表明，这种评估中的随机性不是小问题，而是系统性的挑战。当我们看到一篇论文声称某个新方法比现有方法"提升了2%"时，这个提升可能完全被评估过程中的自然波动掩盖。这就像是在嘈杂的环境中试图听清楚微弱的音乐，背景噪音可能比真正的信号还要强烈。

二、轨迹分歧的蝴蝶效应：小差异如何滚雪球般影响最终结果？

为了理解为什么智能体的表现会如此不稳定，研究团队进行了一项fascinating的分析：他们逐个比较了同一任务的不同运行轨迹，精确找出两次运行开始出现差异的第一个令牌位置。

这里的"令牌"可以理解为AI模型处理文本的基本单位，类似于我们阅读时的一个个词汇。通过这种分析，研究人员发现了一个令人惊讶的现象：绝大多数情况下，不同运行之间的分歧都发生得非常早，通常在整个对话轨迹的前1%就出现了差异。

以一个具体案例来说明这种现象的威力。考虑这样一个场景：两次运行都在处理同一个Django框架的编程问题，需要为分页器类添加迭代功能。在前93个令牌中，两次运行产生了完全相同的思考过程，都正确理解了任务要求。但在第94个令牌处，出现了一个微妙的差异：第一次运行生成了"让我搜索Paginator类"，而第二次运行生成了"让我检查Django源代码"。

这个看似微不足道的措辞差异，就像蝴蝶扇动翅膀一样，引发了完全不同的连锁反应。第一次运行基于这个措辞，决定在特定文件中搜索，但由于搜索范围太窄，最终在错误的位置应用了补丁，导致Python语法错误，任务失败。第二次运行则进行了更广泛的探索，找到了正确的插入点，成功完成了任务。

这种现象的根本原因在于AI模型的"自回归条件机制"。简单来说，AI模型生成每一个新词时，都会考虑之前生成的所有内容。一旦某个位置出现了不同的词汇，后续的所有生成过程都会受到影响，就像多米诺骨牌效应一样。在智能体任务中，这种效应会通过工具调用、环境反馈、后续推理等多个环节不断放大，最终导致完全不同的解决策略。

温度参数的设置确实会影响分歧出现的时机。在使用推荐温度设置时，DeepSWE-preview模型的中位分歧位置是第5个令牌，而在温度为0时，这个位置延迟到第56个令牌。但关键是，即使在理论上的确定性设置下，分歧仍然不可避免地会发生。

研究团队还发现，随着任务变得更加复杂和需要更长的交互过程，这种早期分歧的影响会越来越显著。因为分歧发生得越早，后续的推理链条就越长，累积的差异就越大。这预示着，随着AI智能体承担越来越复杂的长期任务，评估可靠性的挑战只会变得更加严峻。

这种轨迹分歧现象揭示了一个深层次的问题：智能体的成功往往不仅仅依赖于其核心能力，还很大程度上依赖于随机探索能够找到正确路径的运气。这并不是说智能体的能力不重要，而是说在当前的技术水平下，随机性仍然是影响性能的重要因素。

三、性能边界的真相：乐观估计与悲观估计之间的巨大差距

当我们认识到智能体性能存在如此大的随机波动后，一个自然的问题就出现了：如果允许多次尝试，智能体的最佳表现和最差表现之间会有多大差距？研究团队通过引入pass@k和pass∧k两个指标，为我们揭示了一个惊人的事实。

pass@k指标回答的是这样一个问题：如果我们允许智能体对每个任务尝试k次，然后选择其中最好的结果，成功率会是多少？这可以被视为对智能体能力的"乐观估计"。相对应地，pass∧k指标则问：如果要求智能体在k次尝试中都必须成功，成功率又会是多少？这代表了"悲观估计"，反映了系统的可靠性和一致性。

通过这两个指标，研究团队发现了智能体性能的一个重要特征：存在巨大的性能包络。以DeepSWE-preview模型在r2e-gym框架上的表现为例，单次尝试的成功率是34.4%。但如果允许5次重试，最优情况下的成功率可以达到52.9%，提升了18.5个百分点。而在最差情况下，要求5次尝试都成功的任务只有15.5%，比单次尝试的成功率还要低近19个百分点。

这意味着什么呢？如果你是一家公司的技术主管，正在考虑部署这样的智能体系统，你会发现自己面临一个两难选择：在最理想的情况下（可以容忍一定的重试成本），系统能够解决超过一半的问题；但如果你需要系统具有高度的可靠性（不能承受失败的风险），那么只有不到六分之一的问题能够得到稳定解决。

有趣的是，不同智能体之间的性能包络大小差异很大。高性能的Devstral-2模型在nano-agent框架上的表现相对更加一致：单次成功率63.5%，5次重试最多提升到76.2%（提升12.7个百分点），5次都成功的概率为49.1%（下降14.4个百分点）。这表明更强的模型不仅整体性能更好，而且行为也更加可预测。

但即使是这种相对一致的高性能模型，仍然显示出对随机探索的显著依赖。在所有测试配置中，pass@5相对于pass@1的最大提升竟然达到了24.9个百分点，出现在Devstral-2模型使用r2e-gym框架且温度为0的设置下。这个数字几乎是单次尝试成功率的一半，充分说明了随机性对性能的巨大影响。

这种性能包络的存在揭示了当前智能体技术的一个本质特征：它们的成功往往不是基于确定性的问题解决能力，而是依赖于随机探索能够偶然找到正确路径。这就像是一个迷宫探险者，不是因为记住了地图而找到出口，而是通过随机游走碰巧发现了正确路线。

从实用角度来看，这种性能包络为智能体的部署提供了重要参考。如果你的应用场景可以容忍一定的计算成本和时间延迟，通过多次尝试确实可以显著提升成功率。但如果你需要的是高度可靠的自动化系统，那么当前的智能体技术可能还不能满足要求，至少不能在单次尝试的基础上满足要求。

四、统计功效分析：科学评估需要多少次测试？

认识到单次测试不足以可靠评估智能体性能后，研究团队着手回答一个实用性很强的问题：为了可靠地检测出真正的性能改进，我们需要进行多少次独立测试？

这个问题的答案取决于三个关键因素：你希望检测的改进幅度有多大，你愿意承受多大的统计错误风险，以及智能体性能的固有波动程度。研究团队通过统计功效分析，为不同情况提供了具体的指导建议。

在中等波动情况下（标准差约1.5%，这是实验中观察到的典型值），如果想要以95%的置信度检测出2个百分点的改进，需要进行约9次独立运行。这意味着，当你看到一篇论文声称某个方法比基线"提升了2%"时，如果这个结论只基于单次运行，那么它的可信度是非常有限的。

对于更小的改进幅度，所需的测试次数会急剧增加。检测1个百分点的改进需要约36次运行，而在高波动情况下（标准差1.8%），这个数字会上升到51次。相比之下，检测5个百分点或更大的改进只需要2-3次运行就足够了。

这些数字揭示了当前AI研究中的一个系统性问题：大多数研究声称的小幅改进（1-3个百分点）实际上需要远比常见实践更多的测试次数才能得到可靠验证。研究团队自己的研究使用了每个配置10次运行，根据统计分析，这足以可靠检测2个百分点或更大的改进，但对于更小的改进则不够充分。

波动程度的差异也会造成巨大影响。在最理想情况下（标准差0.7%，代表实验中观察到的最小波动），检测1个百分点的改进只需要8次运行。但在最困难情况下（标准差1.8%），同样的检测需要51次运行。这说明不同的智能体、任务或评估环境可能具有非常不同的评估复杂性。

这些统计功效分析的结果对研究实践具有重要意义。首先，它们为研究人员提供了合理规划实验规模的科学依据。与其盲目进行大量测试或草率地基于少量样本得出结论，研究人员可以根据预期的效应大小和所需的统计严格性来确定适当的测试次数。

其次，这些结果也为评估研究结果的可信度提供了标准。当你阅读一篇AI研究论文时，可以根据其声称的改进幅度和实际使用的测试次数来判断结论的可靠性。如果一项研究基于单次运行就声称1%的改进，那么这个结论几乎可以肯定是不可靠的。

最后，统计功效分析也揭示了当前评估实践与科学严谨性之间的张力。进行足够多的测试以确保可靠性需要大量的计算资源，这对于资源有限的研究团队可能是一个挑战。但正如研究团队指出的，这种投资是必要的，因为基于不可靠评估的决策可能导致更大的长期成本。

五、评估偏差的连锁反应：从个体研究到整个学术生态系统

单个研究中的评估不可靠性问题，实际上只是冰山一角。当我们将视角扩展到整个AI研究生态系统时，会发现这个问题的影响远比想象中更加深远和系统性。

在学术界，研究人员面临着发表压力和资源限制的双重约束。当评估成本昂贵且耗时时，很多研究团队会选择最经济的方案：单次运行评估。这种做法在短期内看起来是合理的，但在长期内却可能导致科学进步的错觉。当多个研究团队都采用这种不够严谨的评估方法时，整个领域可能会被一系列实际上并不存在的"改进"所误导。

更严重的是，这种评估偏差会在学术传播过程中被放大。影响因子较高的期刊和会议通常更青睐报告显著改进的论文，而那些显示微小或无差异的结果往往难以发表。这种发表偏见与评估方法的不可靠性相结合，可能会让整个学术社区对某个技术方向的真实进展产生系统性的高估。

在工业界，情况可能更加复杂。公司在决定采用某个新模型或技术时，通常会参考公开的基准测试结果和学术论文。如果这些参考资料中充满了基于不可靠评估的夸大声明，那么商业决策的质量也会受到影响。一家公司可能会投入大量资源部署一个实际性能并不如预期的系统，或者错过一个真正有价值但被低估的技术。

排行榜和基准测试网站的兴起进一步加剧了这个问题。这些平台为了保持时效性和降低运营成本，通常也采用单次评估的方式。当研究人员和从业者将这些排行榜作为技术选择的重要参考时，他们实际上是在基于可能充满噪音的信息做决策。

研究团队通过具体数据揭示了这种系统性偏差的规模。在他们的实验中，同一个智能体的单次运行成功率可能在28.8%到32.4%之间波动。如果一个基准测试网站恰好采用了较低的那次运行结果，而另一个网站采用了较高的结果，两者之间就会出现3.6个百分点的差异。这个差异足以改变技术排名，影响用户的选择。

更令人担忧的是，这种评估不确定性可能会影响研究方向的选择。如果某个有前景的研究方向恰好在几次关键的评估中运气不佳，可能会被错误地认为是死胡同而被放弃。相反，一个实际效果有限的方法如果运气较好，可能会吸引大量后续研究投入。这种误导可能会让整个研究社区在错误的道路上浪费宝贵的时间和资源。

从资源分配的角度来看，这种评估偏差也会产生不良后果。研究资金和计算资源总是有限的，如果决策者基于不可靠的评估结果来分配这些资源，就可能导致资源配置的次优化。真正有价值的研究可能得不到足够支持，而被高估的项目却获得了过多资源。

解决这个系统性问题需要整个学术和工业社区的共同努力。期刊和会议需要制定更严格的评估标准，要求研究者报告多次运行的结果和置信区间。基准测试平台需要采用更可靠的评估方法，即使这意味着更高的运营成本。资助机构可能需要为更严谨的评估实践提供专门的资金支持。

这种变革不会一蹴而就，但它是确保AI研究健康发展的必要步骤。正如研究团队所指出的，虽然更严谨的评估实践会增加短期成本，但这些投资对于避免基于错误信息的长期决策来说是完全值得的。

六、建立可靠评估的实用指南：从理论到实践

面对评估可靠性的挑战，研究团队不仅指出了问题，更重要的是提供了一套实用的解决方案。这些建议不是抽象的理论原则，而是可以立即应用于实际研究和开发工作中的具体指导。

核心建议的第一个要素是根据预期改进幅度来确定合适的测试次数。这就像是医学试验需要根据预期的治疗效果来确定样本大小一样。如果你的研究目标是检测2个百分点的改进，那么10次独立运行基本足够；但如果你希望捕捉1个百分点的细微差别，就需要至少30-40次运行。这种基于统计功效的实验设计能够确保你的结论具有足够的可信度。

第二个关键要素是采用多维度的性能指标体系。传统的pass@1虽然重要，但它只能反映平均性能水平。研究团队建议同时报告pass@k（乐观估计）和pass∧k（悲观估计），以全面刻画智能体的性能包络。这就像是描述一个人的身体状况时，不仅要报告平均血压，还要了解血压的波动范围一样。

具体来说，pass@5能够告诉你，如果允许系统进行5次尝试并选择最佳结果，能够达到什么样的性能上限。这对于那些可以承受一定计算成本来追求更高成功率的应用场景非常有价值。而pass∧5则显示了系统的一致性水平，对于需要高可靠性的关键应用具有重要参考价值。

第三个重要建议是在报告结果时提供完整的统计信息。这包括多次运行的平均值、标准差、置信区间，以及每次独立运行的具体结果。这种透明的报告方式不仅能让读者更好地理解结果的可靠性，也为其他研究者的后续工作提供了更丰富的信息基础。

研究团队还特别强调了温度参数设置的重要性。他们发现，即使在理论上的确定性设置（温度=0）下，评估结果仍然存在显著波动。因此，研究者不应该指望通过降低温度来完全消除随机性，而应该接受并合理量化这种不确定性。

对于资源受限的研究团队，研究团队提供了一些实用的折衷方案。如果无法承担大规模多次运行的成本，至少应该在最重要的比较实验中采用更严格的评估方法。另外，可以考虑与其他研究团队合作，分担计算资源的成本，或者申请专门用于严谨评估的资助支持。

从技术实现角度，研究团队建议建立标准化的评估工具和流程。这些工具应该能够自动进行多次运行、统计分析和结果可视化，降低严谨评估的技术门槛。同时，应该建立共享的计算资源池，让更多研究团队能够承担起严格评估的成本。

对于期刊编辑和审稿人，研究团队建议制定更明确的评估标准。声称小幅改进（如1-3个百分点）的论文应该被要求提供足够的统计证据。单次运行基础上的微小改进声明应该被视为初步结果，需要更多验证才能被接受为正式结论。

这些建议的实施确实会增加研究成本，但研究团队通过成本效益分析表明，这种投资是合理的。一个基于不可靠评估的错误决策，可能导致数月甚至数年的开发工作走向错误方向，其成本远远超过严格评估所需的计算资源。

更重要的是，这些建议并不是要求所有研究都必须达到相同的严谨标准。对于探索性研究和概念验证，相对宽松的评估可能是合理的。但对于那些声称实现重要突破、即将进入实用化阶段的技术，更高的评估标准是必要的。

七、技术实现的细节考量：从实验设计到结果分析的完整流程

将严格评估的理念转化为可操作的技术实践，需要在实验设计、数据收集、分析方法等多个层面进行精心安排。研究团队通过他们的大规模实验，为后续研究者提供了详细的技术实现参考。

在实验设计方面，研究团队采用了一种被称为"正交变化"的策略来确保结果的普遍适用性。他们选择了不同类型的模型（通用模型、专门微调模型、大规模开源模型），不同的测试框架（自主开发和第三方框架），以及不同的部署方式（本地部署和API调用）。这种多维度的变化能够确保观察到的随机性模式不是某个特定实现的人工产物，而是具有普遍性的现象。

数据收集过程的设计也很有讲究。每个模型-框架组合都进行了完全独立的10次运行，使用不同的随机种子和独立的计算环境。这种设计确保了各次运行之间的真正独立性，避免了可能的相关性偏差。同时，所有的运行轨迹都被完整记录，包括模型生成的每个令牌、每次工具调用的输入输出、以及最终的成功失败判定。

令牌级别的轨迹分析是这项研究的技术亮点之一。通过比较同一任务的不同运行轨迹，研究团队能够精确定位分歧开始的位置，并追踪这些早期差异如何在后续过程中被放大。这种分析方法需要处理大量的文本数据（总计超过255亿个令牌），并进行高效的字符串匹配和差异检测算法。

统计分析方法的选择也体现了研究团队的专业性。他们使用了基于二项分布的精确推断方法来计算pass@k和pass∧k指标，而不是简单的经验频率统计。这种方法能够更准确地估计真实的性能分布，特别是在样本量相对较小的情况下。

对于统计功效分析，研究团队采用了经典的双样本t检验框架，但针对智能体评估的特殊情况进行了适当的修正。他们考虑了智能体性能的离散性质（成功/失败）以及可能的非正态分布特征，使用了更加稳健的统计方法。

在处理不同温度设置的比较时，研究团队特别注意了统计显著性检验。他们发现，某些看似明显的温度效应（如DeepSWE-preview模型的显著改进）确实具有统计显著性，而另一些差异（如Devstral-2模型的微小变化）则可能只是随机波动。这种细致的统计分析避免了过度解读数据的陷阱。

结果可视化也是技术实现中的重要环节。研究团队设计了多种图表来直观展示评估结果的不确定性：单次运行成功率的分布图显示了波动范围，pass@k曲线展示了性能包络，分歧位置的直方图揭示了轨迹差异的时间模式。这些可视化工具不仅帮助研究者理解数据，也为向非专业受众解释结果提供了有效手段。

在计算资源管理方面，研究团队使用了约3500个GPU小时来完成所有实验。他们采用了高效的批处理策略和并行计算框架，最大化了计算资源的利用率。这种大规模计算的经验对于其他希望进行类似研究的团队具有重要参考价值。

数据存储和管理也面临着独特挑战。6万个完整轨迹的存储和检索需要精心设计的数据结构和索引系统。研究团队开发了专门的轨迹压缩和查询工具，能够高效处理这种大规模、高维度的序列数据。

质量控制是整个技术实现过程中不可忽视的环节。研究团队实施了多层次的数据验证机制：自动化的数据完整性检查，随机抽样的人工验证，以及跨实验的一致性检验。这些措施确保了研究结果的可靠性和可重复性。

最后，研究团队还考虑了结果的可重现性问题。他们详细记录了所有的实验参数、环境配置和代码版本，并计划公开相关的数据集和分析工具。这种开放科学的做法不仅有利于结果验证，也为社区的后续工作提供了基础。

这些技术实现的细节虽然看起来繁琐，但它们是确保研究质量的重要保障。任何希望在AI评估领域做出可信贡献的研究者，都需要在这些技术细节上投入足够的关注和资源。

八、未来展望：评估方法学的演进方向

这项研究不仅揭示了当前AI智能体评估中存在的问题，也为未来评估方法学的发展指明了几个重要方向。随着AI技术的不断进步，评估方法也需要相应地演进和完善。

首先是评估复杂度的逐步提升。当前的研究主要关注相对简单的编程任务，但未来的AI智能体将需要处理更加复杂、更长周期的任务。研究团队预测，随着任务复杂度的增加，早期轨迹分歧的影响会被进一步放大，评估不确定性可能会变得更加严重。这意味着未来可能需要更多的重复测试和更精密的统计方法来确保评估可靠性。

动态上下文管理是另一个需要深入研究的方向。当前研究使用的测试框架都采用了完整保留对话历史的策略，但在实际应用中，智能体系统通常会使用上下文压缩、总结或截断等策略来管理有限的上下文窗口。这些动态上下文管理策略本身就会引入额外的随机性源，需要专门的研究来量化其对评估可靠性的影响。

多模态智能体的评估将带来新的挑战。随着AI系统开始整合文本、图像、音频等多种模态的信息，评估过程中的随机性源会变得更加多样化。不同模态之间的交互、多模态融合算法的不确定性、以及跨模态推理的复杂性都会影响最终的评估结果。

实时交互场景的评估方法也需要特殊考虑。在实际部署中，AI智能体往往需要与人类用户进行实时交互，用户的反馈和行为会实时影响智能体的后续表现。这种动态交互环境中的评估随机性可能比静态基准测试更加复杂，需要开发新的评估框架和方法学。

从技术发展的角度，未来可能会出现专门针对评估不确定性的建模和预测方法。通过分析智能体的内部状态、注意力模式、置信度分布等信息，可能可以提前预测某次运行的可靠性，从而优化测试资源的分配。这种"元评估"技术可能会成为智能体系统的重要组成部分。

标准化和自动化也是重要的发展方向。随着对严格评估需求的认识加深，学术界和工业界需要开发更加标准化的评估工具和流程。这些工具应该能够自动处理多次运行、统计分析、结果可视化等繁琐任务，降低严谨评估的技术门槛。

评估成本的优化是另一个实用性很强的研究方向。虽然更严格的评估需要更多计算资源，但通过智能的实验设计、高效的采样策略、以及预测模型的辅助，可能可以在保持评估质量的同时显著降低成本。例如，可以开发自适应的测试次数确定算法，根据已有运行结果的分布特征来动态调整后续测试的需求。

跨任务和跨领域的评估一致性也值得深入研究。不同类型任务的评估不确定性可能存在系统性差异，理解这些差异的规律有助于建立更加准确的评估基准和预期。同时，某个领域中开发的评估方法在其他领域的适用性也需要验证。

从更宏观的角度来看，这项研究可能会推动整个AI研究范式的转变。传统的追求点估计性能的做法可能会逐渐转向更加关注性能分布和不确定性的新范式。这种转变不仅会影响技术评估，也会影响AI系统的设计理念和部署策略。

社区协作和资源共享机制的建立也是未来发展的重要方向。严格的评估需要大量计算资源，单个研究团队往往难以承担。通过建立共享的评估平台、众包的评估任务、以及合作的评估项目，可以让更多研究者参与到严谨评估的实践中来。

最终，这些发展方向的共同目标是建立一个更加可靠、透明、高效的AI评估生态系统。在这个生态系统中，技术进步能够得到准确的度量，资源配置能够基于可靠的信息，决策制定能够建立在坚实的证据基础之上。虽然这个目标的实现需要整个社区的长期努力，但这项研究已经为我们指明了前进的方向。

说到底，AI技术的发展就像是人类探索未知领域的旅程，而评估方法则是我们手中的指南针。只有确保指南针的准确性，我们才能在这场技术探险中不迷失方向，最终到达真正有价值的目的地。这项来自KTH皇家理工学院的研究，不仅为我们校准了指南针，更重要的是提醒我们要时刻关注指南针的可靠性，这样才能确保AI技术的发展始终朝着正确的方向前进。

研究团队通过这项开创性的工作，为整个AI社区提供了一个重要的提醒：在追求技术突破的同时，我们不能忽视评估方法本身的科学性和可靠性。只有建立在可靠评估基础上的技术进步，才能真正推动人工智能的健康发展，为人类社会带来实实在在的益处。对于有兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2602.07150v1查阅这项研究的完整内容。

Q&A

Q1：AI智能体评估中的随机性问题到底有多严重？

A：根据KTH皇家理工学院的研究，同一个AI智能体在相同任务上的不同运行中，成功率可能相差2.2到6.0个百分点。即使在理论上完全确定性的设置下（温度为0），这种波动仍然存在，标准差超过1.5个百分点。这意味着许多声称"改进2-3个百分点"的研究结论可能只是评估噪音，而非真正的技术进步。

Q2：为什么即使设置了确定性参数，AI智能体的表现还是会有变化？

A：虽然将温度参数设为0理论上应该产生确定性结果，但现代AI推理引擎中存在多种不可避免的随机因素，包括浮点运算精度差异、硬件优化策略、并行处理时序变化等。研究发现，轨迹分歧通常在前1%的令牌内就出现，然后通过自回归条件机制像滚雪球一样影响后续的整个推理过程。

Q3：要进行可靠的AI智能体性能评估需要测试多少次？

A：这取决于你希望检测的改进幅度。根据统计功效分析，在中等波动情况下检测2个百分点的改进需要约9次独立运行，而检测1个百分点的微小改进则需要36次运行。检测5个百分点或更大的改进只需要2-3次运行。目前大多数研究使用的单次运行评估完全不足以可靠检测小幅改进。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.