卡内基梅隆大学揭示通用AI助手的真实表现与扩展极限|调用|编程|推理|智能体|上下文|新论文|通用ai助手

分享至

这项由卡内基梅隆大学语言技术研究所和Meta公司联合进行的研究发表于2026年2月，论文编号为arXiv:2602.18998v1。研究团队开发了General AgentBench基准测试平台，专门用于评估通用AI智能体在真实使用场景下的表现能力。

当我们谈论AI智能体时，通常会想到那些能够搜索信息、编写代码、进行推理并使用各种工具的智能助手。目前大多数AI智能体的测试都是在特定领域进行的，就像让一个厨师只在意大利餐厅展示手艺，然后就宣称他是全能厨师。但现实中的用户需求往往跨越多个领域，需要智能体在同一个对话中既能搜索信息，又能编写代码，还能进行复杂推理。

这种差距促使研究团队开发了General AgentBench，这是首个专门评估通用AI智能体的综合性基准测试平台。与以往的测试不同，这个平台将所有工具和任务整合在一个统一的环境中，更贴近真实的用户使用场景。研究团队不仅评估了AI智能体的基础能力，还深入研究了它们在面对复杂任务时通过增加计算资源来提升性能的能力，这被称为"测试时缩放"。

结果发现，即使是最先进的AI智能体，当从专门化环境转移到通用环境时，性能都会出现显著下降。更令人意外的是，传统认为有效的两种性能提升策略——延长推理时间和并行生成多个答案——在实际应用中都遇到了明显的局限性。这些发现对理解AI智能体的真实能力边界具有重要意义。

一、从专家到通才：AI智能体面临的现实挑战

当前的AI智能体评估就像让一位专业医生在配备齐全的医院里看病，然后声称他能处理任何情况。但现实中的AI助手更像是一位全科医生，需要在资源有限、情况复杂的环境中处理各种突发问题。这种差异正是研究团队关注的核心问题。

传统的AI智能体测试通常针对单一领域设计，比如专门测试软件开发能力的会提供完整的编程环境和相关工具，测试网页浏览能力的会提供专门的浏览器界面。这种方法虽然能准确评估特定能力，但无法反映智能体在面对跨领域任务时的真实表现。

研究团队设计的General AgentBench包含了四个核心领域：搜索、编程、推理和工具使用。每个领域都来自已有的权威测试集，但关键创新在于将所有工具统一到一个共享接口中。这意味着智能体在处理任何任务时都能看到全部301个可用工具，而不是只看到与当前任务相关的工具。这种设计更真实地模拟了用户与AI助手的实际交互方式。

这个统一环境的构建基于模型上下文协议(MCP)，采用了主机-客户端-服务器的架构。当智能体需要使用某个工具时，请求会通过中央主机路由到相应的服务器执行。这种设计确保了不同领域的工具能够无缝协作，同时也暴露了智能体在面对大量选择时的决策能力。

在这种统一环境下，仅工具描述就可能占用数万个token的上下文空间。加上用户查询和多轮交互历史，整个对话很容易进入长上下文处理范围。这与许多现有的长上下文测试（主要关注静态文档理解）有着根本不同，因为这里的上下文是动态演化的，包含了任务指令、工具文档、执行反馈和智能体自己的历史决策。

二、性能大跌眼镜：通用环境下的表现实况

研究团队测试了十个顶尖的AI模型，结果令人深思。当这些在专门测试中表现优异的模型转移到通用环境时，几乎所有模型都出现了显著的性能下降，平均降幅在10%到30%之间。这就像让一位在专业厨房里得心应手的厨师转到一个什么都有但摆放混乱的大厨房，突然发现做菜变得困难重重。

最引人注目的是Claude Sonnet 4.5表现出了最强的鲁棒性，平均性能仅下降0.2%，展现出了在通用环境中的出色适应能力。相比之下，GPT-5在搜索和推理领域表现最佳，但在工具使用方面遇到了较大挑战。开源模型中，DeepSeek-V3.2的综合表现最为突出，甚至超越了部分专有模型。

然而，几乎所有模型在BrowseComp任务上的表现都相当糟糕，这个任务要求智能体在网络上寻找稀有且精确的信息。这揭示了当前AI智能体在处理超出训练数据范围的复杂信息检索任务时的根本局限性。这种表现差距提醒我们，尽管AI技术发展迅速，但在处理真实世界的复杂、开放性任务时仍然面临重大挑战。

有趣的是，一些模型在特定领域实际上表现得更好了。深入分析发现，这些改进来自于跨领域工具的创造性使用。比如在处理搜索任务时，一些智能体学会了使用专门的学术论文搜索API、地图API或者模型库API，而不是仅仅依赖通用的网络搜索。Claude Sonnet 4.5在26%的搜索任务中使用了超出传统搜索范围的专业工具，包括78次谷歌地图API调用、60次学术论文搜索，以及36次机器学习模型API调用。

这种跨领域工具使用行为展现了AI智能体的一个重要能力：在面对复杂任务时，它们能够动态地选择和组合最适合的工具，而不是拘泥于传统的工具分类。这种能力在专门化测试中无法体现，只有在通用环境中才能观察到。这也解释了为什么通用评估对于理解AI智能体的真实能力如此重要。

三、延长思考时间的迷思：序列缩放的意外发现

在人类学习中，给更多时间思考通常会带来更好的结果。基于这种直觉，研究团队测试了让AI智能体进行更长时间推理的效果，这被称为序列缩放。然而，结果与预期截然不同。

序列缩放的基本思路是延长智能体与环境的交互历史。当智能体试图结束一次对话时，系统会注入额外的环境反馈，鼓励它进行进一步的反思和探索。这种方法在理论上应该允许智能体纠正错误、完善推理过程，并探索替代解决方案。

但实际观察到的行为模式令研究团队意外。大多数模型要么在某个性能水平上停滞不前，要么出现不稳定的波动。更令人困惑的是，一些模型在达到某个交互长度后，性能开始持续下降，再也无法恢复到之前的水平。

深入分析发现了两种典型的失败模式。第一种是"停滞波动"：智能体在推理领域表现出这种模式，它们在一个狭窄的性能范围内反复震荡，无法突破到更高水平。这表明智能体虽然能够进行更长时间的思考，但缺乏探索全新解决路径的能力，同时也无法保持长期的推理一致性。

第二种是"饱和退化"：这在编程任务中最为明显。智能体最初会从额外的推理步骤中受益，性能有所提升。但一旦超过某个关键转折点，性能就开始持续下降，仿佛陷入了某种负面循环。

研究团队通过追踪具体任务实例的正确性变化发现了问题的根源。智能体要么在已经能够解决的问题上重复成功，而在失败的问题上毫无进展，要么在正确和错误答案之间来回摇摆，表现出不稳定的行为模式。

更深层的分析揭示了"上下文天花板"现象。每个模型都有一个有效的上下文长度限制，当累积的交互历史接近这个限制时，性能会达到峰值。但一旦超过这个阈值，额外的上下文反而会压倒智能体的推理能力，导致性能下降。有趣的是，这个天花板在不同领域有所不同，反映了各类任务对上下文利用和计算效率的不同需求。

例如，Qwen3-235B在搜索领域的上下文天花板大约是112K token，而Gemini 2.5-Flash约为96K token。超过这些限制后，额外的交互历史不仅无法带来收益，反而会干扰智能体的决策过程。这一发现挑战了"更多计算时间总是有益"的传统观念，揭示了当前AI架构在处理超长上下文时的根本限制。

四、多管齐下的困境：并行缩放的验证差距

除了延长单次推理时间，另一个常见的性能提升策略是并行生成多个答案，然后选择最佳的一个。这种方法在数学推理等领域已被证明有效，理论上应该通过增加搜索空间来提高找到正确答案的概率。

研究团队测试了这种并行缩放策略，结果发现了一个有趣的矛盾现象。一方面，随着生成答案数量的增加，正确解决方案确实更频繁地出现在候选集合中。这个被称为"pass@K"的指标表明，理论上的性能上限随着K值增加而稳步提升，平均改进约50%。

但关键问题在于：如何从这些候选答案中识别和选择正确的一个？在实际应用中，AI智能体不能同时向用户提供多个答案，而必须选择一个最终答案。这就需要智能体具备准确的自我评估能力。

研究团队设计了两种自我选择策略来测试这种能力。第一种是"逐一评估"，让智能体独立评估每个候选答案并给出二元判断。第二种是"两两比较"，通过类似冒泡排序的过程，让智能体比较候选答案并逐步筛选出最佳选项。

然而，两种策略的表现都远低于理论上限。在某些情况下，智能体的自我选择性能甚至会随着候选数量增加而下降。这种现象被研究团队称为"验证差距"——即智能体生成正确答案的能力与识别正确答案的能力之间存在显著差异。

为了验证这是否仅仅是评估能力不足的问题，研究团队使用了更强大的外部评估器GPT-5来替代智能体的自我判断。出乎意料的是，GPT-5的表现普遍不如模型的自我评估。这个反直觉的结果揭示了一个重要现象：模型更善于评估自己生成的内容，而外部评估器可能难以准确理解不熟悉的执行轨迹。

这种"解决方案熟悉性"效应表明，智能体在评估与其内部推理模式一致的答案时表现更好，而在面对外部生成或风格迥异的解决方案时则容易出错。这一发现对并行缩放策略的实际应用提出了根本性挑战，因为即使生成了正确答案，智能体也可能无法可靠地识别它们。

这些发现综合起来表明，虽然并行缩放在理论上能够提升性能上限，但由于验证能力的根本局限，其实际收益往往有限。这种现象在编程领域相对较轻，但在其他领域普遍存在，限制了并行缩放策略的实用性。

五、架构决定命运：注意力机制的深层影响

研究过程中的一个意外发现涉及不同注意力架构对性能的影响。Qwen3-Next采用了混合线性注意力机制，在序列缩放测试中表现明显不如采用全注意力机制的Qwen3-235B，尽管两个模型在其他方面相当接近。

为了理解这种差异的根源，研究团队进行了详细的注意力行为分析。他们从智能体的推理轨迹中提取关键决策片段，分析模型在做出重要决策时关注了哪些历史信息。这种分析揭示了全注意力和线性注意力机制在处理复杂任务时的根本差异。

全注意力模型展现出更广泛的上下文视野，能够关注到距离当前决策较远的历史信息。相比之下，线性注意力由于其类似卷积的感受野限制，主要关注较近的上下文信息。在需要整合长期信息来做出决策的任务中，这种差异会导致显著的性能差距。

注意力头的专业化分析也很有启发性。全注意力模型呈现出清晰的V型模式：中间层的不同注意力头关注不同类型的模式，展现出功能分化，而后续层则逐渐收敛到相似的关注点，反映了决策过程中的确定性增加。线性注意力模型缺乏这种清晰的结构模式，注意力头之间的重叠度更高，表明功能分化不足。

层间重叠度分析进一步证实了这一观察。全注意力模型显示出渐进的"低到高"趋势，相邻层的功能相似，但层间距离越大，功能差异越明显。这种渐进式的功能分化有利于复杂推理任务的处理。而在线性注意力模型中，这种层次化的功能组织不够明显，可能影响了其在需要多步推理的任务中的表现。

这些分析结果表明，注意力架构的选择不仅影响计算效率，也深刻影响了模型在复杂任务中的推理能力。尽管线性注意力在计算成本上有显著优势，但在需要复杂上下文整合的任务中，全注意力机制仍然具有不可替代的优势。

六、跨领域工具使用的新发现

General AgentBench的一个意外收获是观察到了智能体的跨领域工具使用行为。在传统的专门化测试中，智能体只能接触到与当前任务相关的工具，无法展现这种创造性的工具组合能力。

以搜索任务为例，传统方法通常依赖通用的网络搜索引擎。但在统一工具环境中，一些智能体学会了根据查询的特定需求选择最合适的专业工具。当需要查找学术论文时，它们会使用arXiv、PubMed或Google Scholar的专门API。当查询涉及地理位置时，它们会调用Google Maps API获取更准确的信息。当需要了解机器学习模型时，它们会直接查询Hugging Face的模型库。

这种行为的一个典型案例是查找最新的Hugging Face文本分类模型。传统的网络搜索方法需要通过6轮迭代查询，最终只能找到表面信息。而使用专门工具的智能体只需3步：首先通过Hugging Face的搜索API获取按下载量排序的模型列表，然后通过网络搜索了解新兴模型，最后通过模型信息API获取详细的架构和训练信息。

这种跨领域工具使用不仅提高了任务完成的效率，也展现了智能体在面对复杂需求时的适应能力。它们能够根据任务的具体特点动态选择最合适的工具组合，而不是拘泥于预设的工具分类。这种能力在专门化测试中完全无法观察到，只有在通用环境中才能显现。

更重要的是，这种行为模式揭示了智能体的一种元认知能力：它们不仅能够使用工具，还能够理解不同工具的优势和局限性，并据此做出合理的选择。这种能力对于真实世界的AI助手应用至关重要，因为现实中的用户需求往往跨越多个领域，需要灵活的工具组合来解决。

七、静态测试与动态应用的鸿沟

研究团队还发现了一个重要问题：传统的静态长上下文测试与动态智能体应用之间存在根本差异。现有的长上下文基准测试主要关注文档理解、摘要生成或针在草垛中找针等静态任务，而智能体的长上下文是通过多轮交互动态演化的。

静态测试通常涉及长文档问答，交互模式保持单轮静态，输出相对简短。而智能体场景中的长上下文包含异构信息源：除了长文档，还有环境反馈、工具执行结果和模型自己的历史决策。这种动态演化的上下文对模型的处理能力提出了完全不同的要求。

为了验证这种差异的实际影响，研究团队比较了十个模型在传统长上下文基准（LongBench、HELMET、MRCR）和General AgentBench上的表现。结果显示，两者之间的相关性出人意料地低，表明在静态任务上的优秀表现并不能预测在动态智能体任务中的表现。

唯一显示出中等相关性的是MRCR与推理任务之间的关系。这并不意外，因为推理任务主要涉及从长文档中提取和计算信息，与MRCR的多轮指代解析任务较为相似。但对于编程和工具使用任务，静态测试的预测能力极其有限。

这种差异的根源在于任务性质的根本不同。静态测试主要评估信息检索和理解能力，而动态智能体任务需要决策制定、执行监控和自适应调整等高阶能力。这些能力在静态环境中无法充分评估，只有在真实的交互环境中才能体现。

这一发现对AI模型的评估和选择具有重要意义。仅仅依据传统基准测试的结果来预测模型在智能体应用中的表现可能会产生误导。需要专门针对智能体应用场景设计的评估方法，才能准确衡量模型在真实应用中的能力。

八、模型间的表现差异与特点

通过对十个领先模型的综合评估，研究团队发现了各个模型在通用智能体任务中的独特特征和优势领域。这些发现为实际应用中的模型选择提供了宝贵的参考。

Claude Sonnet 4.5展现出了最强的整体鲁棒性，不仅在通用环境下保持了稳定的性能，还在跨领域工具使用方面表现出色。它的这种表现可能归功于其训练过程中对多领域任务的平衡关注，以及在工具使用方面的特殊优化。在序列缩放测试中，Claude Sonnet 4.5也表现出了良好的稳定性，很少出现性能退化现象。

GPT-5在搜索和推理任务中表现最佳，展现出了强大的信息检索和复杂推理能力。但在工具使用方面相对较弱，特别是在需要精确参数控制的复杂工具调用中容易出错。这种不平衡的表现表明，尽管GPT-5在某些核心能力上领先，但在综合应用中仍有改进空间。

在开源模型中，DeepSeek-V3.2的表现最为突出，甚至在某些任务上超越了商业模型。这个模型展现出了稀疏注意力架构在大规模应用中的潜力。相比之下，DeepSeek-R1虽然在推理任务中表现不错，但在其他领域的表现较为平庸，可能反映了其训练重点的偏向性。

Qwen系列模型中，Qwen3-235B整体表现均衡，特别是在并行缩放测试中展现出了较好的自我选择能力。而Qwen3-Next由于线性注意力架构的限制，在需要长期依赖的任务中表现较差，但在计算效率上有显著优势。

Gemini 2.5系列显示出了有趣的版本差异。Flash版本在效率和成本方面有优势，但在复杂推理任务中不如Pro版本。Pro版本在某些高难度任务中表现出色，但在通用环境下的适应性不够理想。

这些差异反映了不同模型在架构设计、训练策略和优化目标上的不同选择。对于实际应用而言，选择合适的模型需要根据具体的使用场景和性能要求进行平衡考虑。

说到底，这项研究为我们展现了AI智能体发展的现状和挑战的真实图景。当前最先进的AI智能体在面对真实世界的复杂需求时，仍然存在显著的局限性。从专门化环境到通用环境的性能下降提醒我们，真正的通用人工智能仍有很长的路要走。

更令人深思的是，传统认为有效的性能提升策略——无论是延长思考时间还是并行生成多个答案——在实际应用中都遇到了意想不到的障碍。序列缩放受到上下文天花板的限制，并行缩放则面临验证差距的挑战。这些发现揭示了当前AI架构的根本局限性，也为未来的研究方向指明了道路。

跨领域工具使用的发现为我们展示了AI智能体的创造潜力，同时也说明了通用评估的重要性。只有在真实的使用环境中，我们才能观察到这些意想不到的能力涌现。这提醒我们，评估AI系统不能仅仅依赖简化的基准测试，而需要更贴近实际应用场景的综合评估。

这项研究的意义不仅在于揭示了当前技术的局限性，更在于为构建更强大、更可靠的通用AI智能体指明了方向。未来的研究需要重点关注上下文管理、推理稳定性和自我评估能力的提升，同时开发更有效的测试时缩放策略。对于有兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2602.18998v1查询完整的研究报告。

Q&A

Q1：General AgentBench与传统AI测试有什么不同？

A：General AgentBench将所有领域的工具整合在一个统一环境中，智能体需要从301个工具中选择合适的来完成任务，这更接近真实使用场景。而传统测试只提供特定领域的工具，就像让厨师只在意大利餐厅展示手艺。

Q2：为什么给AI更多思考时间反而表现变差？

A：研究发现了"上下文天花板"现象，当交互历史超过模型的有效处理长度时，额外信息会压倒智能体的推理能力。就像记忆力有限的人，信息太多反而会混乱，无法做出好的决策。

Q3：AI智能体的跨领域工具使用能力如何？

A：表现出色的智能体能根据任务特点选择最合适的专业工具，比如用学术搜索API查论文，用地图API查位置。Claude Sonnet 4.5在26%的搜索任务中使用了超出传统范围的专业工具，展现了良好的工具组合能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.