最新Agent论文洞察：为什么说AI的未来在上下文，不在参数？|调用|智能体|agent|深度思考模型

最新Agent论文洞察：为什么说AI的未来在上下文，不在参数？

2025-11-17 18:21:31　来源: GeekSavvy

北京举报

分享至

大家好，最近看到一篇很有意思的论文——《Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models》，它提出了一个颠覆性的观点：AI的未来可能不在参数规模的扩大，而在于上下文的动态优化。今天我想和大家分享这个框架的价值，以及它对AI发展的启示。

当前AI应用面临一个普遍痛点：大多数系统依赖权重更新来改进性能，比如微调模型需要大量标注数据、昂贵的计算资源，而且每次更新都要重新训练，周期长达几周甚至几个月。这种模式不仅成本高，还难以适应快速变化的任务需求。而ACE框架的创新之处在于，它把上下文当作动态的"playbook"而非静态的prompt，让模型通过自我反思和经验积累实现实时改进，无需修改任何参数。这可能是AI系统从"静态工具"转向"自适应智能体"的关键一步。

权重更新的局限与上下文工程的兴起

过去十年，AI的进步很大程度上依赖于参数规模的扩大——从GPT-2的1.5亿参数到GPT-4的万亿级参数，模型能力确实在提升。但这种路径存在明显局限：首先，参数更新成本极高，训练一次GPT-4级别的模型需要数千万美元，不是所有企业都能负担；其次，泛化性有限，微调后的模型往往在特定任务表现好，但在其他任务上可能出现性能下降；最后，无法实时适应，面对新任务或新场景，必须重新训练或微调，周期长且灵活性差。

与之相对，上下文工程提供了一条更高效的路径。它把模型的输入上下文当作动态的知识库，通过实时调整上下文内容来引导模型行为，不需要修改任何参数。这种模式的优势显而易见：一是实时性，可以快速适应新任务；二是低成本，不需要昂贵的训练资源；三是可解释性，上下文的变化清晰可见，便于调试和优化。ACE框架正是这种思路的代表，它把上下文从静态的指令升级为动态的"playbook"，让模型在执行任务时不断学习和改进。

真正的智能不在于拥有多少参数，而在于如何巧妙地运用上下文。这是我从ACE框架中得到的最深体会。就像人类一样，聪明的人不是记住所有知识，而是知道如何快速找到并运用所需的知识——ACE框架正是让模型具备了这种能力。

ACE框架的三模块深度解析：像团队一样工作的AI系统

ACE框架的核心是三个相互协作的模块：Generator、Reflector和Curator。这三个模块像一个高效的团队，各自承担不同职责，共同推动上下文的进化。下面我来详细解析每个模块的作用：

Generator：探索者——生成推理轨迹

Generator的角色类似于做实验的研究员，它负责接收问题并生成完整的推理轨迹。比如在解决AppWorld的任务时，Generator会输出从理解问题、调用工具到执行代码的所有步骤。这个过程不仅是为了得到答案，更重要的是暴露模型的思考过程，为后续的反思提供素材。Generator的关键在于生成详细、真实的轨迹，而不是追求完美的结果——因为即使失败的轨迹，也能为模型提供宝贵的教训。

Reflector：复盘者——提取经验教训

Reflector就像团队里的复盘导师，它会仔细分析Generator生成的轨迹，找出成功的经验和失败的原因。比如，如果Generator在调用API时出错，Reflector会指出错误类型（如参数不匹配）、影响（任务失败）和改进建议（检查API文档中的参数要求）。Reflector的独特之处在于结构化反思：它不会简单地说"你错了"，而是输出具体、可操作的教训，比如"当处理用户的文件操作请求时，必须先验证文件路径是否存在"。这种结构化的反思是上下文进化的关键燃料。

Curator：管理者——构建动态知识库

Curator是上下文的管理员，它把Reflector提取的教训整理成结构化的条目，并增量更新到上下文里。这里的关键是"增量"——Curator不会重写整个上下文，而是添加新的条目或修改已有条目，避免了传统方法中的"上下文崩溃"问题。此外，Curator还采用了"grow-and-refine"机制：一方面不断添加新的经验，另一方面定期清理冗余或过时的内容，确保上下文始终保持高效。比如，当Curator发现某个策略被多次验证有效时，会提升它的优先级；而当某个策略被证明过时，会将其标记为废弃。

这三个模块的协作模式解决了传统上下文工程的两大痛点： brevity bias （过度追求简洁导致信息丢失）和 context collapse （反复重写导致上下文质量下降）。通过分工协作，ACE框架让上下文像活的有机体一样，不断吸收新信息，优化旧知识。

实验效果：小模型也能战胜大模型的秘密武器

ACE框架的效果如何？论文中的实验数据给出了令人信服的答案。我特别关注了两个场景的结果：AppWorld智能体任务和金融分析基准，这两个场景分别代表了动态交互和专业领域的典型需求。

AppWorld任务：小模型匹配GPT-4.1的生产级性能

在AppWorld基准测试中，ACE框架让开源小模型DeepSeek-V3.1（参数规模远小于GPT-4.1）达到了与GPT-4.1生产级agent相当的性能。具体来说：

• 在整体平均准确率上，ACE框架将ReAct基线从42.4%提升到59.5%，提升幅度达17.1%；
• 在挑战集上，ACE框架的表现甚至超过了GPT-4.1的IBM CUGA agent，TGC指标提升8.4%；
• 更令人惊讶的是， 即使没有标注数据 ，ACE框架也能实现14.8%的性能提升——这意味着模型可以通过自我反思实现无监督学习。

这个结果打破了我们对模型规模的迷信：不是只有大模型才能做复杂任务，小模型加上好的上下文工程，同样可以达到顶尖水平。

金融分析：专业领域的精准提升

在金融分析的FiNER和Formula基准测试中，ACE框架同样表现出色：

• FiNER（金融实体识别）准确率从70.7%提升到78.3%，提升7.6%；
• Formula（金融数值推理）准确率从67.5%提升到85.5%，提升18.0%；
• 两个任务的平均提升达8.6%，远超传统的prompt优化方法。

金融领域的提升尤其有意义，因为这里需要处理大量专业知识（如XBRL规则）和复杂推理。ACE框架通过积累领域特定的策略，让模型快速掌握这些知识，而不需要重新训练——这对于需要实时适应新监管要求的金融行业来说，价值不可估量。

技术优势：低成本、低延迟、无需标注数据的三重突破

ACE框架的成功不仅在于性能提升，更在于它解决了传统AI系统的成本和效率问题。论文中的数据显示，ACE框架在以下三个方面实现了突破：

低成本：资源消耗大幅降低

• 离线适应成本 ：与GEPA相比，ACE框架的rollout数量减少75.1%，延迟降低82.3%；
• 在线适应成本 ：与Dynamic Cheatsheet相比，token成本减少83.6%，延迟降低91.5%；
• 模型规模 ：使用小模型DeepSeek-V3.1即可达到顶尖性能，避免了大模型的高昂部署成本。

这些数据意味着，ACE框架让高性能AI系统的部署成本降低了一个数量级——这对于中小企业来说是巨大的福音。

低延迟：实时自我改进

ACE框架的增量更新机制确保了上下文的更新速度极快。传统的权重更新需要数小时甚至数天，而ACE框架的上下文更新可以在毫秒级完成。这种低延迟特性让模型能够实时适应新任务，比如在客服场景中，模型可以从每一次对话中学习，不断提升服务质量。

无需标注数据：打破数据依赖

ACE框架最令人兴奋的特点之一是不需要标注数据。它通过Generator生成的轨迹和Reflector的反思，自动提取有用的知识——这解决了AI应用中最昂贵的环节：数据标注。比如在AppWorld任务中，ACE框架在无标注数据的情况下，仍然实现了14.8%的性能提升，这在传统方法中是不可想象的。

结论：上下文工程将重塑AI的未来

通过对ACE框架的分析，上下文工程是AI系统自我改进的关键路径。它不仅解决了传统参数更新的局限，还为AI系统带来了前所未有的灵活性和适应性。以下是我对未来的三点展望：

1. 小模型的春天即将到来

ACE框架证明，小模型加上好的上下文工程，可以达到大模型的性能。这意味着未来AI应用将不再一味追求参数规模，而是转向高效的上下文管理。对于企业来说，这将大大降低AI应用的门槛——不需要花费数百万美元训练大模型，只需要用小模型加上ACE框架，就能构建出高性能的AI系统。

2. 自适应AI系统成为主流

ACE框架让AI系统具备了实时学习的能力。未来的AI系统将不再是"训练一次用很久"的静态工具，而是像人类一样不断学习、不断进步的动态智能体。比如在医疗领域，AI系统可以从每一次诊断中学习，不断提升准确率；在金融领域，它可以实时适应新的监管政策。

3. 上下文工程师成为新职业

随着上下文工程的重要性提升，上下文工程师将成为AI领域的新职业。他们的职责是设计和优化AI系统的上下文管理机制，让模型能够高效地积累和运用知识。这将是一个融合AI技术、领域知识和用户体验的交叉岗位，具有广阔的发展前景。

最后，我想给AI开发者和企业提一个建议：不要再只关注模型的参数规模，而是把更多精力放在上下文工程上。因为真正的智能，不在于拥有多少知识，而在于如何巧妙地运用知识——这正是ACE框架教给我们的道理。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.