网易首页 > 网易号 > 正文 申请入驻

Agent已进入Harness驱动时代

0
分享至



近日,AI技术圈一个热议的话题是,Anthropic公司意外暴露了旗下AI编程工具Claude Code的完整源代码,代码数量超过51.2万行。这些泄露的代码虽未展示了颠覆性新算法,却完整暴露了头部厂商的Agent工程实践。

4月10日,Pokee.ai创始人朱哲清做客由锦秋基金发起的“Deep Talk with Builders”的线上闭门,分享了“从Claude Code的泄漏看Harness Engineering和当下Post-training”的话题。

他认为,Anthropic这套架构高度适配Claude模型,而直接迁移到其他模型效果会显著下降,但其Harness设计思想、组件化结构、与后训练(Post-training)深度绑定的思路,对自研Agent具有极强的借鉴价值。

过去三年,大模型从单纯API能力,进化为产品核心模块;行业也从“模型外壳公司”,走向Harness驱动的复杂Agent系统——模型不再是唯一核心,工具调用、执行环境、上下文管理、验证机制共同决定最终效果。

Harness是什么?它直译是马具,缰绳。如果说大模型是一匹蓄势待发的烈马,Harness就是人类牵引、驾驭这匹烈马的缰绳。随着人工智能正式进入Harness驱动的时代,对于使用者来说,真正稀缺的能力,不在模型里面,在模型外面——如何找到一副趁手的缰绳,以及驾驶者心中清晰准确的目的地。

本文基于朱哲清的分享内容,经AI总结梳理,并人工校对,力求呈现这次分享的精华内容。



Harness可理解为驱动模型的整套工程架构,它的核心作用是把模型能力最大化,而非单纯输出tokens。Claude Code的Harness清晰拆解为六大核心组件:

1. 多层级System Prompt(系统提示)

现代System Prompt已远不止“你是一个有用的助手”,而是超大规模、分层、可缓存的复杂指令集:

  • 固定缓存部分:包含Agent身份、Co指令、工具定义、语气规范、安全策略,大小可达十几万token,任何改动都会失效缓存、大幅增加成本与耗时;
  • 动态可替换部分:会话状态、当前时间、可读取文件、代码包依赖等,随任务灵活切换;
  • 工程实践:通过A/B test对不同用户微调Prompt,精准优化任务完成率、降低错误率。

对比来看,Claude Code的架构更简洁,模型注意力负担更低、幻觉更少;而OpenAI相关架构更复杂,需读取大量文件,易引发记忆幻觉。

2. Tool Schema(工具规范)

工具定义直接决定调用准确率,核心设计要点:

  • 内置核心工具:文件读写/编辑、Bash、Web批处理等基础工具在模型训练阶段就完成适配,推理时无需额外提供工具描述;
  • 权限与安全:企业级场景拒绝第三方无权限校验的工具,避免恶意操作;
  • 并行工具调用:可提升执行速度,但后训练难度极高——并行调用无先后依赖,训练时易出现时序错位,Reward信号难以对齐。

3. Tool Call Loop(工具调用循环)

这是Harness最核心部分,也是训练与推理一体化的关键:

  • 规划模式(Plan Mode):长链路任务先理解任务、梳理文件系统、明确可用工具,生成执行方案,再进入执行;避免盲目试错(如反复调用不可用搜索引擎)、减少无效token消耗;
  • 执行模式(Execute Mode):在沙盒(Sandbox)中按规划执行工具,获取结果闭环;
  • 核心价值:消除长链路执行中的中间错误,降低重试成本,但也让规划能力的训练更难——规划好坏的Reward信号易被执行环节噪声干扰。

4. Context Manager(上下文管理器)

解决百万级token上下文的高效利用问题:

  • 采用指针索引式Memory:不直接存储完整内容,仅记录文件指针与主题标签;
  • 后台自动合并、去重、关联文件;
  • 现状:仍处于启发式阶段,无法完美解决多文件跨链路推理问题(如关联文件被遗漏),暂无端到端最优解。

5. Sub Agent(子智能体)

主流多智能体协作缺乏理论保障:无共享目标、无通用训练算法,只能“各自训练、随缘配合”。

主-子Agent架构本质是分层强化学习:

  • 主Agent为子Agent定义子任务(Option),子任务终结状态作为主Agent下一步起点;
  • 共享KV Cache与输入上下文,子Agent执行后仅追加结果,不额外增加token消耗,成本远低于串行执行;
  • 典型落地:字节ContextFormer等工作思路与此高度一致。

6. Verification Hooks(验证钩子)

解决模型“自我美化、虚报完成”的问题:

  • 强模型存在自我偏好,自评准确率远高于互评,易主动“说谎”而非单纯幻觉;
  • 工程方案:引入后台分类器,只看工具执行结果、忽略模型生成文本,脱离生成偏差做客观校验;
  • 作用:无需完全可验证的Reward,即可实现轻量化、优雅的执行结果校验。



传统RL(强化学习)训练环境与推理环境严重割裂,而Harness实现了训练-生产环境的一体化:工具调用序列=轨迹步,测试运行与分类闸门=Reward信号,用户任务=完整Episode。

围绕上述六大组件,Post-training(后训练)形成六大核心方向:

1. System Prompt(系统提示词)驱动行为对齐

System Prompt 会明确任务目标、Token 预算与可用工具策略,从而大幅约束模型的行为空间,让强化学习只需在限定范围内学习最优执行模式。我们可以基于 System Prompt 中的规则设计评分体系,让模型在更干净、更少分支的轨迹下进行近似端到端训练,稳定输出符合预期的行为。

2. 长链路工具调用端到端训练

抛弃传统“单步快照式训练”,改为完整轨迹训练

  • 记录每一步执行结果,获取过程Reward与最终任务Reward;
  • 聚焦长链路稳定性,保证几百步工具调用的整体准确率,而非仅单步调用正确。

3. Plan-Execute一体化训练

Harness消除规划与执行间的噪声:

  • 预先锁定规划中的工具链路,无额外人工干预层;
  • 执行结果由分类闸门客观校验,规划的Reward信号更清晰;
  • 实现规划能力可训练,避免“只执行、不规划”的粗放模式。

4. Memory Compression专项训练

将上下文压缩作为独立任务:上游模型输出压缩记忆,下游任务执行效果作为校验标准;目标是保留核心信息,不影响下游任务成功率。

5. 子Agent协同编排训练

针对超长输出(代码/文档百万token场景):

  • 主Agent不直接生成内容,而是编排子Agent,分配任务与Prompt;
  • 子Agent并行执行后合并结果,主Agent做校验;
  • 依赖Harness实现底层进程控制,避免读写冲突与执行失败。

6. 多目标联合强化学习

现代RL pipeline大幅延长,需同时优化六大模块:

  • 工具调用无幻觉、分类校验准确、上下文压缩有效、多Agent无掣肘、规划合理、验证可信;
  • 行业从算法收敛走向百花齐放,各环节需专属训练算法,多目标融合成为核心难题。

首先是人才需求的转变。Prompt Engineering已不再是独立核心,做好Harness可完成70%工作。因此,兼具AI理解、后端工程、基础设施能力的复合型人才将会更受欢迎,而纯Prompt工程师竞争力则会大幅下降。

其次是市场格局的重构。在模型厂商与垂直领域企业挤压下,中间“模型外壳公司”,仅剩两条可行路径,要么拥有顶尖模型与基础设施能力,要么在垂直领域独有数据/经验壁垒(如高频交易、行业专属知识)。

第三,真正的Agent落地正走向私有化、高安全、端到端一体化。对于企业来说,优先复用成熟Harness设计,结合垂直场景做定制化,聚焦安全与私有化落地,才能实现Agent真正规模化商用。

Claude Code泄露的核心价值,不在于代码本身,而在于揭示了Agent已进入Harness驱动时代。模型能力只是基础,工程架构、执行环境、多智能体协同、验证机制才是决定上限的关键。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰接班人自曝只睡三小时,压力很大,但公司稳定!网友:现代版诸葛亮...

张雪峰接班人自曝只睡三小时,压力很大,但公司稳定!网友:现代版诸葛亮...

品牌新
2026-04-16 20:03:27
大料!许家印的背后金主,也栽了!

大料!许家印的背后金主,也栽了!

财经要参
2026-04-16 13:31:31
我醉后对女上司说:再扣工资我就娶了你,第二天她把我叫到办公室

我醉后对女上司说:再扣工资我就娶了你,第二天她把我叫到办公室

千秋文化
2026-04-16 20:15:29
中国公司将推出全球首款可量产、能量密度达500Wh/kg的固态电池

中国公司将推出全球首款可量产、能量密度达500Wh/kg的固态电池

知新了了
2026-04-16 14:12:29
为什么国际油价跌了20%,国内油价只降5%?

为什么国际油价跌了20%,国内油价只降5%?

生命可以承受之轻
2026-04-16 18:49:12
24小时3尸4命!河北男子因彩礼谈崩灭门女友家,最高法核准死刑!

24小时3尸4命!河北男子因彩礼谈崩灭门女友家,最高法核准死刑!

奇思妙想草叶君
2026-04-16 13:15:13
江苏最新癌情发布!需警惕这几种癌

江苏最新癌情发布!需警惕这几种癌

句容发布
2026-04-16 09:15:07
就这张照片,他已经秒杀了绝大多数有钱人

就这张照片,他已经秒杀了绝大多数有钱人

动物奇奇怪怪
2026-04-16 15:22:15
4年战争,乌克兰杀疯了!海陆空无人武器全面进化,打到莫斯科已成现实

4年战争,乌克兰杀疯了!海陆空无人武器全面进化,打到莫斯科已成现实

网易新闻出品
2026-04-16 13:47:19
灵隐寺事件,远非低智表象那么简单

灵隐寺事件,远非低智表象那么简单

林中木白
2026-04-16 17:34:07
俄罗斯和阿塞拜疆同意妥善处置阿客机坠机事件

俄罗斯和阿塞拜疆同意妥善处置阿客机坠机事件

环球网资讯
2026-04-15 22:52:40
广西靖西一地多名男子持手电筒拦车,当地镇政府:他们想当路霸,警方已到场处理

广西靖西一地多名男子持手电筒拦车,当地镇政府:他们想当路霸,警方已到场处理

潇湘晨报
2026-04-16 15:55:11
罗技鼠标会导致电脑严重卡顿!前脚骂了玩家又辱男,现在又曝出软件重大缺陷

罗技鼠标会导致电脑严重卡顿!前脚骂了玩家又辱男,现在又曝出软件重大缺陷

爆角追踪
2026-04-16 23:50:53
71.5%!历史性暴跌,以贷养贷的泡沫崩了

71.5%!历史性暴跌,以贷养贷的泡沫崩了

月满大江流
2026-04-16 13:54:38
“灵隐寺僧人是日本人、间谍”?抖音通报

“灵隐寺僧人是日本人、间谍”?抖音通报

观察者网
2026-04-16 17:58:07
苹果首次成为全球手机市场第一!份额21%,三星20%,这回是真的了

苹果首次成为全球手机市场第一!份额21%,三星20%,这回是真的了

数码Antenna
2026-04-16 11:52:53
投诉公交提前发车,竟丢了工作?松原男子称个人信息遭泄露,单位被施压后将其解雇

投诉公交提前发车,竟丢了工作?松原男子称个人信息遭泄露,单位被施压后将其解雇

大风新闻
2026-04-16 16:07:03
男子杀害同村小伙埋尸院中,后担心罪行败露又将姑父灭口,13年后终落网

男子杀害同村小伙埋尸院中,后担心罪行败露又将姑父灭口,13年后终落网

大风新闻
2026-04-16 20:30:05
任正非小女儿代言华为炸场!网友:代言人都自研,你们拿什么和我争...

任正非小女儿代言华为炸场!网友:代言人都自研,你们拿什么和我争...

品牌新
2026-04-16 12:10:00
匈牙利撤军:人还没走,茶就凉了

匈牙利撤军:人还没走,茶就凉了

寰宇大观察
2026-04-16 17:20:43
2026-04-17 04:36:49
霞光AI实验室 incentive-icons
霞光AI实验室
陪跑AI创业者,服务AI创业全球化
2文章数 0关注度
往期回顾 全部

科技要闻

赵明:智驾之战,看谁在大模型上更高效

头条要闻

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

头条要闻

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

体育要闻

皇马拜仁踢出名局,但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

海尔与医美女王互撕 换血抗衰谁的生意?

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

数码
游戏
健康
艺术
手机

数码要闻

荣耀史上最短发布会,发布荣耀史上最强MagicBook数字系列

《荒野大镖客3》最全新情报!前传还是新故事?

干细胞抗衰4大误区,90%的人都中招

艺术要闻

你绝对想不到!这幅油画背后的美丽故事!

手机要闻

OPPO Find X10:8000mAh超大电池+双2亿影像,中屏机皇实锤!

无障碍浏览 进入关怀版