OpenAI把Agent拆成3层，第3层藏了90%的人没看懂|调用|显式|上下文|中间件|新论文|agent|openai

OpenAI把Agent拆成3层，第3层藏了90%的人没看懂

2026-04-12 10:51:55　来源: 摸鱼算法

北京举报

分享至

去年有个数据：企业级AI项目失败率67%。不是模型不够聪明，是东西跑起来就崩。OpenAI的Agent团队最近把内部架构摊开了，分了三层——模型、上下文窗口、还有他们叫Agent Harness的东西。前两个天天被讨论，第三个几乎没人提。

这有点像早年PC市场：所有人都在比CPU主频，直到有人意识到没有操作系统，硅片就是块烫手的金属。

第一层：模型是CPU，但CPU不能自己开机

OpenAI把模型比作CPU，负责推理。这个类比老套但准确——就像英特尔酷睿再强，没有主板供电、总线调度、中断管理，它连"Hello World"都打印不了。

模型的问题是可预测性差。同样的输入，温度参数调0.7和0.9，输出可能从"建议购买"变成"强烈不建议"。企业场景里这种波动是灾难。某金融公司用GPT-4做风控初筛，结果发现周三下午的输出比周一上午激进23%，只因负载高了、推理被压缩了。

所以模型层需要被包裹。不是优化它，是限制它的不可控面。

第二层：上下文窗口是RAM，但RAM会"泄漏"

上下文窗口被比作RAM，临时工作记忆。128K token看起来很大，实际用起来像16GB内存跑Chrome——看着够用，开几个标签就报警。

更麻烦的是上下文污染。某客服Agent连续处理20个对话后，开始把第3个用户的问题套到第19个用户身上。这不是模型变笨，是RAM里的"垃圾"没清。OpenAI的解决方式是显式的上下文隔离：每个用户会话有独立的内存空间，对话结束强制 flush（清空）。代价是延迟增加15%，但幻觉率从12%降到3%以下。

这里有个反直觉的点：上下文窗口不是越大越好。太大的窗口会让模型"分心"，就像你同时记20件事，每件事的精度都在下降。

第三层：Agent Harness是操作系统，但多数人以为它是驱动程序

Agent Harness这个词是OpenAI内部造的。功能上它做四件事：工具调用编排、状态机管理、错误恢复、安全沙箱。听起来像中间件？不对。中间件是库，Harness是运行时。

具体怎么工作：当Agent需要查数据库、调API、写文件时，Harness决定执行顺序。不是模型决定——模型只输出"意图"，Harness把意图翻译成可执行计划。如果API超时，Harness重试；如果返回格式不对，Harness解析失败并回滚状态；如果检测到敏感操作，Harness拦截并转人工。

某电商公司接入后，Agent的端到端完成率从41%提到78%。不是模型换了，是Harness把"掉链子"的场景补上了。

类比的话：模型像赛车引擎，Harness是整套电控系统——牵引力控制、换挡逻辑、故障保护。没有它，引擎再猛也上不了路。

为什么这层被忽略？因为卖模型的不想让你看见

有个尴尬的事实：模型厂商的商业模式是按token计费。如果客户意识到70%的问题出在"操作系统"层，而不是"CPU"层，预算分配会变。OpenAI现在推Agent Harness，某种程度上是自断财路——但不做的话，企业客户会一直卡在POC（概念验证）阶段，永远不进生产环境。

竞争对手的动作更说明问题。Anthropic的Claude 3.5发布时重点强调"工具使用能力"，但底层同样依赖类似的编排层；Google的Vertex AI直接提供了预置的Agent框架；微软的Copilot Studio本质上也是Harness的一种产品化。

行业正在从"拼模型"转向"拼系统"。这不是说模型不重要，而是模型差距在缩小，系统差距在拉大。同样的GPT-4，有Harness和没Harness，是两个产品。

对从业者的实际影响

如果你在做Agent项目，现在需要重新评估技术栈。三个检查点：

第一，你的"Harness"层是自研还是外包？自研意味着要处理状态机、并发控制、熔断机制，团队里得有做过分布式系统的人。外包意味着被厂商锁定，但上线速度快。

第二，上下文管理是显式还是隐式？隐式依赖模型的"记忆"，风险高；显式需要设计内存结构，工作量大但可控。

第三，错误恢复是人工介入还是自动回滚？前者适合低频高价值场景，后者适合高频标准化场景。没有对错，但选错了会放大损失。

某SaaS公司的教训：他们用LangChain快速搭建了Demo，客户很满意。上线后第一周，Agent在调用支付API时因网络抖动重试了3次，用户被扣了3笔钱。问题不在模型，在Harness层的幂等性设计缺失。修复花了2周，客户流失了。

OpenAI的文档里有个细节：他们的Harness默认所有外部调用都是"不可靠的"，所以内置了指数退避、请求去重、响应校验。这种防御性编程思维，和写模型prompt是完全不同的技能树。

Agent Harness这个概念会被更多厂商借用，也可能换个名字——执行引擎、编排层、控制平面。名字不重要，重要的是它标志着AI工程化的一个转折点：从"让模型更聪明"到"让系统更鲁棒"。

最后一个问题留给你：如果你的Agent明天要处理1000个并发会话，其中5%会触发异常流程，你的Harness层能在不人工介入的情况下自愈多少？这个数字，可能比你的模型评分更能决定项目生死。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.