网易首页 > 网易号 > 正文 申请入驻

Anthropic推Harness框架 AI长程开发效率翻倍

0
分享至

当所有人都在盯着大模型参数竞赛时,Anthropic悄悄放出了一套能让AI效率翻倍的“隐形引擎”。真正的AI工业化革命,从来不是模型有多强,而是怎么让模型持续做对事。这套名为Harness的执行框架,到底藏着怎样的AI工程化密码?



从“单次生成”到“连续作业”,AI长程开发的核心痛点

在Harness框架出现之前,AI开发的瓶颈早已不是“能不能生成代码”,而是“能不能持续生成正确的代码”。很多开发者都有过类似经历:让AI写个简单脚本没问题,但要它连续几小时构建完整应用,大概率会中途跑偏——要么上下文过载导致逻辑混乱,要么自我评估过于宽松把bug当成果。

Anthropic Labs团队成员Prithvi Rajasekaran的观察更直接:当任务超过30分钟,普通AI Agent的失败率会飙升至70%以上。核心问题出在两个层面:一是模型的“上下文焦虑”,当对话接近上下文窗口极限时,会下意识提前收尾;二是“自我评估偏差”,AI对自己生成的内容天然宽容,很难客观发现问题。

这也解释了为什么此前的AI开发大多停留在“玩具级”——单次生成的代码或许能用,但要支撑工业化级别的连续作业,必须有一套能“管住”AI的运行机制。

AI长程开发的本质,是在不确定性中建立确定性的执行路径。




三层Agent架构,把“生成-评估-规划”拆成专业分工

Harness框架的核心突破,是借鉴GAN的对抗思路,把AI的“生成”和“评估”能力拆解开,构建了一套由planner(规划者)、generator(生成者)和evaluator(评估者)组成的三层Agent系统。这套架构的精妙之处,在于用专业分工解决了AI的“能力边界问题”。

  • Planner:把模糊需求变成可执行的产品规格——它能将用户的一句话提示,扩展成包含16个功能点的完整开发计划,甚至能主动在规格中嵌入AI能力点,比如为游戏制作器加入AI辅助关卡生成功能。
  • Generator:专注单次任务的精准执行——它会把大任务拆成一个个独立的sprint,每轮只聚焦一个功能点,通过结构化文件交接上下文,避免了长对话带来的信息损耗。
  • Evaluator:像专业QA一样严格把关——它会通过Playwright直接与运行中的应用交互,从功能完整性、代码质量到视觉设计进行全维度测试,甚至能写出像人类工程师一样的详细评审意见。

在前端设计测试中,这套架构让Claude的设计质量提升了47%:原本只会生成“安全牌”布局的AI,在evaluator的多轮反馈下,能迭代出带有3D空间感的博物馆官网界面。每一轮迭代都像一场专业设计评审,AI在批评中逐渐学会了“审美”。



20分钟vs6小时,成本换不来的质量鸿沟

最能体现Harness价值的,是那个经典的2D复古游戏制作器对比测试:单Agent版本20分钟完成,花费9美元;Harness版本耗时6小时,花费200美元。但两者的输出质量,差的已经不是一星半点。

单Agent版本看起来有模有样,但核心的试玩模式完全失效——实体根本无法移动,代码逻辑从根上就断了。而Harness版本不仅实现了完整的游戏运行功能,还额外加入了精灵动画系统、行为模板、AI辅助生成等高级功能。最关键的差异在于,Harness版本的AI真的能像人类开发者一样,在迭代中修复bug、优化体验。

测试数据显示,Harness框架能让AI长程开发的成功率从32%提升至89%,相当于把一个新手开发者直接升级成了资深工程师。这种提升不是靠更强大的模型,而是靠更科学的工程化方法——就像同样的原材料,用不同的流水线生产,出来的产品天差地别。



模型越强,Harness越重要?框架与模型的动态平衡

随着Claude Opus 4.6的发布,很多人开始质疑:当模型本身已经具备百万级上下文和自适应推理能力,Harness这样的框架是不是会逐渐被淘汰?Prithvi Rajasekaran给出了相反的答案:模型越强,Harness能发挥的空间越大

Opus 4.6的发布反而推动了Harness的简化——因为模型的上下文焦虑问题得到缓解,框架可以去掉复杂的上下文重置机制,让AI在单次会话中完成更长时间的连续作业。但planner和evaluator的核心地位反而得到了强化:当模型能处理更复杂的任务时,更需要专业的规划来明确方向,更需要严格的评估来保证质量。

这种动态平衡揭示了AI工程化的本质:模型是引擎,框架是方向盘。引擎越强大,越需要精准的方向盘来控制方向。Harness的价值从来不是“弥补模型的不足”,而是“放大模型的能力”——让原本只能做简单任务的AI,能承担起工业化级别的复杂开发工作。



从“玩具级AI”到“工业级智能体”,Harness的未来想象

Anthropic的Harness框架,本质上是AI工程化从“实验性”走向“工业化”的标志。它证明了一个道理:AI的工业化落地,从来不是等模型足够强,而是要先建立起能让模型持续发挥能力的工程体系

这套思路已经在行业内得到验证:OpenAI用类似的Harness架构,实现了0行人工代码、5个月交付100万行生产级代码;Atos用Harness打造的AIOps系统,让55%-75%的线上事故能自动解决;Stripe的“Minions”AI大军,每周能全自动合并1300+代码请求。

当我们还在讨论大模型参数的时候,真正的行业玩家已经开始布局AI的“驾驭工程”。未来的AI开发,或许不再是“选哪个模型”,而是“怎么用框架让模型发挥最大价值”。而Harness,就是这场革命的第一个里程碑。

现在的问题已经不是“AI能不能做复杂任务”,而是“我们能不能设计出足够好的框架,让AI持续做对复杂任务”。毕竟,能让AI连续工作6小时的,从来不是模型的参数,而是背后的工程智慧。

#ClaudeCode##Agent架构##harness#

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
正告台独:中国收复的是土地,不是所有人!

正告台独:中国收复的是土地,不是所有人!

阿七说史
2026-03-28 15:23:20
毛主席提议落选的国旗,网友感叹:寓意很伟大,但确实不合适

毛主席提议落选的国旗,网友感叹:寓意很伟大,但确实不合适

微史纪
2026-03-28 12:49:01
张雪峰女儿亲自辟谣!父母恩爱没离婚,回应三个问题,口才很意外

张雪峰女儿亲自辟谣!父母恩爱没离婚,回应三个问题,口才很意外

离离言几许
2026-03-27 14:42:23
办公室不雅行为!摄像头忘关视频曝光,这些人把“体面”丢了一地

办公室不雅行为!摄像头忘关视频曝光,这些人把“体面”丢了一地

就一点
2026-03-29 00:19:23
重庆某设计院员工带头罢工被辞退,辞退员工把领导眼镜打飞了!

重庆某设计院员工带头罢工被辞退,辞退员工把领导眼镜打飞了!

黯泉
2026-03-29 20:11:11
伊朗伊斯兰革命卫队称美以大学将成“合法袭击目标”

伊朗伊斯兰革命卫队称美以大学将成“合法袭击目标”

新京报
2026-03-29 07:26:06
体检都出毛病了,连马拉松参赛资格都被取消,当事人硬是不信邪。

体检都出毛病了,连马拉松参赛资格都被取消,当事人硬是不信邪。

岁月有情1314
2026-03-29 08:19:26
公司不敢明说:45岁以上的员工,其实是最难辞退的

公司不敢明说:45岁以上的员工,其实是最难辞退的

中国民航人
2026-03-28 19:46:35
定了!公安部正式官宣,6月1日起全国推行10项便民新措施

定了!公安部正式官宣,6月1日起全国推行10项便民新措施

混沌录
2026-03-28 20:14:21
4万股民懵了!002538突遭ST,明起停牌

4万股民懵了!002538突遭ST,明起停牌

大众证券报
2026-03-29 11:34:12
打不过就道德绑架!以色列一市长痛哭怒斥战争,丝毫没有悔过之意

打不过就道德绑架!以色列一市长痛哭怒斥战争,丝毫没有悔过之意

沧海旅行家
2026-03-27 15:07:47
大陆放话:不管台湾当局点不点头,厦金大桥照建不误,直达金门

大陆放话:不管台湾当局点不点头,厦金大桥照建不误,直达金门

汪镛的创业之路
2026-03-28 10:24:01
印尼0-7惨败,中国队确定出线,携手日本队晋级

印尼0-7惨败,中国队确定出线,携手日本队晋级

体育一点就通
2026-03-29 14:20:31
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
国际观察|胡塞武装“扣动扳机”,伊朗摊牌了吗

国际观察|胡塞武装“扣动扳机”,伊朗摊牌了吗

新华社
2026-03-28 21:49:36
广东大龄光棍老李相亲遇奇葩,女方带3娃上门赖着不走,要他接盘

广东大龄光棍老李相亲遇奇葩,女方带3娃上门赖着不走,要他接盘

捣蛋窝
2026-03-29 17:27:49
黄仁勋最新惊人观点:英语专业将血洗计算机,文科成AI时代新贵族

黄仁勋最新惊人观点:英语专业将血洗计算机,文科成AI时代新贵族

南宗历史
2026-03-28 19:31:50
沙特油轮绕开霍尔木兹抵达日本:世界油阀,被一脚踹开了!

沙特油轮绕开霍尔木兹抵达日本:世界油阀,被一脚踹开了!

老马拉车莫少装
2026-03-29 11:19:25
中年男人无妻是啥体验?网友:没钱苦一辈子,跟结婚不结婚没关系

中年男人无妻是啥体验?网友:没钱苦一辈子,跟结婚不结婚没关系

带你感受人间冷暖
2026-03-28 17:20:05
为什么要加入CPTPP?啃不下这6块硬骨头,未来中国可能会很难!

为什么要加入CPTPP?啃不下这6块硬骨头,未来中国可能会很难!

世界圈
2026-03-28 12:25:46
2026-03-29 22:16:49
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
448文章数 8038关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

动车被困隧道内停车断电4个小时 乘客:有人紧张晕倒

头条要闻

动车被困隧道内停车断电4个小时 乘客:有人紧张晕倒

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

张凌赫事件持续升级!官方点名怒批

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

房产
艺术
时尚
手机
健康

房产要闻

首日430组来访,单日120组认筹!海口首个真四代,彻底爆了!

艺术要闻

314米!温哥华第一座超高层摩天楼,像“海绵礁”

伊姐周日热推:电视剧《冬去春来》;电视剧《你是迟来的欢喜》......

手机要闻

旧手机回收价暴涨五六倍引关注,央视揭秘涨价背后主要原因

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版