网易首页 > 网易号 > 正文 申请入驻

踏马的 Agent

0
分享至

先解释一下标题。Harness 这个词最近在 AI 圈很火,本意是马具,套在马身上让它好好干活的那套东西

Agent with harness,也是很踏马的


踏马的Agent

这篇文章想聊的事情很简单。过去三年,AI 圈先后流行了三个带「Engineering」的词:Prompt EngineeringContext EngineeringHarness Engineering。每一个新词出来的时候,上一个词就显得不够用了

这三次变化背后有一条线,顺着捋一遍,会发现一些有意思的东西

先学说话

2023 年ChatGPT刚火的时候,大家遇到的第一个问题特别朴素:不会跟 AI 说话

你随便问它一个问题,它给你一个回答,质量忽高忽低。后来有人发现,你在提示词末尾加一句let's think step by step,模型的推理能力就能明显提升。给几个示例(few-shot),输出格式就能稳定下来。再后来有人总结了一整套方法论,按场景分类,每种场景配一套模板

那个阶段的隐含假设很简单:模型够聪明,你不会问而已

在简单任务上,这个假设完全成立。你问一个问题,模型答一个问题,一轮结束。Prompt 写得好就好,写得差就差

但你让模型写一个完整的项目,这套逻辑就开始松了。模型需要知道项目结构、依赖关系、技术栈偏好、现有代码长什么样。这些东西塞不进一句提示词里

会说话是第一课。但光会说话,确实走不太远

然后学选信息

2025 年 9 月,Anthropic 发了一篇工程博客,标题叫「Effective context engineering for AI agents」。开头有一句话说得挺直接:构建 AI 应用,越来越不在于找到正确的措辞,越来越在于回答一个更大的问题:什么样的上下文配置,最可能让模型产生你想要的行为

这就是从PromptContext的换挡

Prompt Engineering 关注的是怎么写指令。Context Engineering 关注的是怎么管理模型在推理时能看到的全部信息:系统指令、工具定义、外部数据、对话历史、MCP 接入的各种服务

模型能力在涨。上下文窗口从 4K 到 128K 再到百万 token。RAG 来了,工具调用来了,MCP 来了。模型能接收的信息量大了好几个数量级。相应的,你能塞给它的东西也多了好几个数量级

你会说话了,但给多了它消化不动,给少了它缺信息,给错了更糟糕

给错了是最要命的。模型会非常认真地基于错误的上下文,产出一个看起来很对、实际上离谱的结果。它不会告诉你「你给我的信息有问题」,它只会老老实实地用错误的前提推出一个自洽的结论

Anthropic 在那篇博客里说,context 是一种有限资源,每一个 token 都有成本。Context Engineering 就是在这个有限窗口里,塞进信号最强的那部分,同时把噪音挡在外面

这个阶段的瓶颈很明确:人不知道该给什么信息


Anthropic 的 Context Engineering 博客,2025 年 9 月

再然后,发现人才是问题

2025 年 11 月,还是 Anthropic,又发了一篇博客,叫「Effective harnesses for long-running agents」。这篇文章记录了一个有点扎心的发现:即使用他们最好的模型Opus 4.5,配上了上下文管理能力(compaction),让 Agent 在多个上下文窗口里跑长任务,结果还是会出问题。模型要么试图一次性做完所有事,要么跑到一半就觉得「差不多了」提前收工

信息给对了,还是不行

2026 年 2 月,OpenAI 发了一组博客讲Harness Engineering。他们在内部做了个实验:一个小团队完全不手写代码,靠 Codex Agent 交付了一个大约一百万行代码的产品。工程师干的活从写代码变成了别的东西

一开始他们用一个超长的AGENTS.md文件,把所有规则都写进去告诉 Agent。很快就发现不行。上下文窗口有限,一个大文件把任务本身的空间都挤没了。当所有规则都「重要」的时候,Agent 对哪条规则都不上心

文件很快过时,没人维护,Agent 开始被一堆不再成立的规则误导

后来改了。AGENTS.md缩到 100 行,只当一个目录。架构文档、设计决策、技术规范,全部拆成独立文件,Agent 需要什么就加载什么

但最有意思的变化是思路上的

OpenAI 给 Agent 的代码库设了极其严格的分层依赖规则。业务代码只能单向调用,越界就被系统切断,合并都合并不进去。Anthropic 在 Harness 里设了三个角色:规划师拆需求,生成器写代码,评估器做验收。评估器直接打开产品去点击测试,发现不对直接打回

这些约束有一个共同的特点:人没有告诉 Agent 应该怎么做,人只告诉它哪里不能做

想想看,这个转变其实挺微妙的。从「你应该这样写代码」到「你随便写,但这条线不能碰」。从主动指导变成被动约束。原因说白了就是,人也不知道 Agent 具体每一步应该怎么做,人只知道边界在哪

一直都是人的问题

回头看这三个阶段,会发现一个有点尴尬的规律

Prompt Engineering 阶段,人不会跟模型说话。Context Engineering 阶段,人不知道该给模型什么信息。Harness Engineering 阶段,人不知道怎么指挥 Agent 做对,只能划一条线说「这里不许过」

瓶颈从来都在人身上。只是每个阶段的表现形式不一样

模型一代比一代强。从 GPT-3.5 到 GPT-5.4,以及各家的最新版本,能力一直在涨。但更强的模型并没有让问题消失,反而让问题换了个样子出现

Anthropic 升级模型之后发现,之前为了对抗「上下文焦虑」设计的重置机制可以去掉了,新模型自己能处理。但同时冒出来的新能力又需要一套全新的 Harness 来配合

模型越强,人需要做的事情反而越多。做的事不一样了而已

从写提示词,到选信息,到设计约束和环境。人的角色在持续后退,从前线退到中台,从中台退到后台。但人一直都在

踏马

回到开头的话题。马具的功能说白了就两件事:约束和引导。让马的力量朝正确的方向走,同时保护马自己不受伤害

Agent 跑长任务的时候,你冲它吆喝一嗓子(Prompt),它可能跑了,但方向不一定对。你把草料备好、路况摸清、装备配齐(Context),它跑得确实好了一些,但跑远了还是会偏。你给它套上挽具和缰绳(Harness),力量就被物理性地约束在正确的通道里了

最潮的仔,都是踏马的

Minghao 骑马去酒厂

有一家公司做了189 年的 Harness,叫爱马仕。1837 年在巴黎开的马具工坊。他们家创始人有一条产品哲学:「我们的第一个客户是马」。从被约束者的体验出发来设计约束,这条经验放到 Agent 身上一个字不用改

巧的是,最近 AI 圈还真火了一个叫Hermes的 Agent。开源的,跑在你自己的服务器上,slogan 写的是「an agent that grows with you」

Agent with harness,也是很踏马的

说不准半年之后又会冒出一个新的带 Engineering 的词。到时候再来看,是哪种新的马具

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人穷能卑微到什么地步?网友说:一个男人两千块买了我三个晚上!

人穷能卑微到什么地步?网友说:一个男人两千块买了我三个晚上!

黯泉
2026-04-14 12:13:04
妈妈穿秀禾出席儿子婚礼,前后换了3套礼服,网友:新娘要吃苦了

妈妈穿秀禾出席儿子婚礼,前后换了3套礼服,网友:新娘要吃苦了

离离言几许
2026-04-28 07:13:26
5999元起,华硕把轻薄本卷成了"六边形战士"

5999元起,华硕把轻薄本卷成了"六边形战士"

全栈遛狗员
2026-04-29 16:57:56
因一字之差,男子误将100万元转到非洲!账户主人以为遇到网络诈骗,多次挂断民警电话,拉黑微信;经半个多月沟通终追回

因一字之差,男子误将100万元转到非洲!账户主人以为遇到网络诈骗,多次挂断民警电话,拉黑微信;经半个多月沟通终追回

台州交通广播
2026-04-29 22:09:23
美国在国民党豢养的鹰犬终于不装了!不仅卖台,还疯狂攻击大陆

美国在国民党豢养的鹰犬终于不装了!不仅卖台,还疯狂攻击大陆

胡同里有只猫A
2026-03-13 17:46:01
菲律宾的求援来了!万万没想到生死关头,中方泼了一盆冷水

菲律宾的求援来了!万万没想到生死关头,中方泼了一盆冷水

介知
2026-04-30 04:07:40
炸裂!杭州爬山撞破男友闺蜜双重背叛

炸裂!杭州爬山撞破男友闺蜜双重背叛

童童聊娱乐啊
2026-04-29 14:28:16
破案了!杜锋为何赛后赶紧跑回更衣室原因找到,球迷点评一针见血

破案了!杜锋为何赛后赶紧跑回更衣室原因找到,球迷点评一针见血

南海浪花
2026-04-29 10:52:42
出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

霹雳炮
2026-03-14 22:49:47
男人出轨,大多是为了满足生理需求,而女人出轨,大多是蓄谋已久

男人出轨,大多是为了满足生理需求,而女人出轨,大多是蓄谋已久

加油丁小文
2026-04-25 14:00:03
浙江证监局:对杭州富毓投资有限公司采取出具警示函措施

浙江证监局:对杭州富毓投资有限公司采取出具警示函措施

界面新闻
2026-04-29 16:25:34
一天30000辆,比亚迪彻底爆了!

一天30000辆,比亚迪彻底爆了!

蒋东文
2026-04-28 21:31:23
弗洛伦蒂诺压力过大,皇马或计划出售姆巴佩?

弗洛伦蒂诺压力过大,皇马或计划出售姆巴佩?

K唐伯虎
2026-04-29 08:29:05
中国联通推出全新手机套餐品牌“魔方”,自由组合,阶梯定价,39元起

中国联通推出全新手机套餐品牌“魔方”,自由组合,阶梯定价,39元起

TMT流程审计
2026-04-28 10:35:38
赵心童世锦赛出局,传递三大信号!输在运气,中国统治斯诺克更近

赵心童世锦赛出局,传递三大信号!输在运气,中国统治斯诺克更近

刘哥谈体育
2026-04-30 03:12:26
5月1日起安徽医院大改!挂号住院结算全换新,少跑腿少花钱

5月1日起安徽医院大改!挂号住院结算全换新,少跑腿少花钱

健身狂人
2026-04-29 15:16:16
迪马利亚:穆里尼奥在更衣室连C罗都敢喷,他是天才也是“疯子”

迪马利亚:穆里尼奥在更衣室连C罗都敢喷,他是天才也是“疯子”

夏侯看英超
2026-04-29 23:12:46
苏州一对情侣,谈了7年,女子提了18次分手,分手后在街头痛哭!

苏州一对情侣,谈了7年,女子提了18次分手,分手后在街头痛哭!

川渝视觉
2026-04-17 22:13:14
意大利议会批准:捐赠航母

意大利议会批准:捐赠航母

环球时报国际
2026-04-30 00:20:31
仅落后于梅西、阿圭罗,小蜘蛛跻身阿根廷球员欧冠射手榜前三

仅落后于梅西、阿圭罗,小蜘蛛跻身阿根廷球员欧冠射手榜前三

懂球帝
2026-04-30 05:05:35
2026-04-30 06:20:49
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
412文章数 51关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

特朗普:美国同伊朗正在通过电话进行谈判

头条要闻

特朗普:美国同伊朗正在通过电话进行谈判

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

游戏
艺术
时尚
教育
手机

平等曹飞所有老玩家的危机合约,为何是二游高难玩法最高的山?

艺术要闻

许家印收藏的字

夏天穿维希格,原来这么好看

教育要闻

《告同仁书》读出职场戾气:毁了教师幸福感

手机要闻

子系迭代旗舰集体涨价:标准版起步就是4000元 机圈变天了

无障碍浏览 进入关怀版