网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI也能换岗了！Anthropic教智能体交接班，不怕长任务断片

2025-12-02 12:53:48　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：元宇

【新智元导读】如何让没有长时记忆的AI，完成持续数小时的复杂任务？Anthropic设计出一个更高效的长时智能体运行框架，让AI能够像人类工程师一样，在跨越数小时的任务中渐进式推进。

假如你雇佣了一支24小时轮班的工程师团队，要求他们一起开发一款复杂应用。

但有一个奇怪规定：每位工程师一上班就完全忘记上一班做过什么，只能从零开始重新干。

无论他们技术多强，工作多努力，这个项目恐怕也做不成。

而这正是「长期运行智能体」在现实中遭遇的真实困境：

「上下文窗口一关，AI就失忆」。

模型没有真正的长期记忆，所有判断都依赖当下能看到的文本片段，上下文窗口一满或被关掉，就像白板被擦掉一样。

这种「记忆缺陷」，让智能体做不了长工程，一旦任务需要持续数小时、跨越多轮对话窗口时，这样的问题就会暴露出来。

由于上下文窗口有限，而大多数复杂项目无法在单一窗口完成，因此智能体必须找到一种能够跨越多轮编码会话的有效机制。

近日，Anthropic通过「偷师」人类工程师，形成了一套适用于长期运行智能体的有效框架。

https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

双智能体架构

模仿人类优秀工程师的日常习惯

Claude Agent SDK是一个强大而通用的智能体框架，它不仅擅长编码，还能查资料、调工具、规划步骤、执行任务。

它拥有上下文管理能力，比如上下文压缩（compaction），能让智能体在不耗尽上下文窗口的前提下继续干活。

但仅靠上下文压缩还不够。

在开箱即用的情况下，即使Opus 4.5这样顶级的编码模型，如果只给它一个「去做一个claude.ai的克隆网页」这样的模糊大指令。然后让它在SDK里跨多个上下文窗口反复执行，它依然很难完成一个真正能上线的Web应用。

在这个过程中，Claude经常会出现两类常见的失败模式：

第一种，它经常一次试图做太多事。

比如，一次性把整个应用写完。结果常常中途耗尽上下文，留下未完成、无文档的半成品功能，进入下一次会话时，就不得不猜测之前发生了什么。

第二种，错误判断「项目已完成」。

这通常出现在项目后期。当一些功能已经实现时，后来启动的智能体往往会扫瞄现有成果，然后直接宣布项目已经完成。

为了解决这个问题，研究人员将问题拆成两部分：

第一步，需要在初始环境中搭建好提示词要求的全部功能基础，让智能体能按步骤、按功能推进。

第二步，每次会话中的智能体必须每次推进一小步，同时将环境保持在「干净状态」。

即能随时安全合并到主分支：没有明显bug、代码整洁、有清晰文档，开发者随时可以继续加新功能。

按照这种思路，Anthropic为Claude Agent SDK设计了一个双组件方案：

初始化智能体（Initializer Agent）

第一次会话用一个专门提示词，让模型设置初始环境：生成init.sh脚本、claude-progress.txt工作日志文件，以及一个初始Git提交。

编码智能体（Coding Agent）

在后续会话中接手工作，每次只推进一小步，并为下一轮工作留下清晰信息。

这种模式的关键突破点在于找到一种方式，让每次会话在没有历史上下文的情况下也能快速理解当前项目状态，而claude-progress.txt文件与Git历史正好能做到这点。

这一灵感来自优秀软件工程师的日常工作习惯。

环境管理「三板斧」

如何让「接班」的智能体快速上手？

初始化智能体要搭建好所有未来编码会话需要的环境上下文，包括功能清单（Feature List）、渐进式推进（Incremental Progress）、测试（Testing）。

功能列表

为避免智能体一次性写完整个应用或过早宣布项目完成，研究人员让初始化智能体将用户的初始提示，扩展成一个完整的功能需求文件。

例如，在claude.ai克隆示例中，它写出了超过200个功能，如「用户可以打开新对话、输入消息、按下Enter，并看到AI回复」。

这些功能一开始都标记为「failing」，让后续智能体清楚还有哪些功能没完成。

研究人员要求编码智能体只能修改passes字段的状态，并明确强调：「不允许删除或修改测试，否则可能导致功能缺失或出现bug。」

反复试验，研究人员最终选用JSON格式，这是因为比起Markdown文件，AI更不容易误删或覆盖JSON内容。

渐进式推进

在初始环境搭建好之后，编码智能体会被要求一次只做一个功能的小步骤改动。

这种渐进式推进，对于解决智能体一次做太多事的问题非常关键。

同时，每次修改后保持环境的「干净」也很重要。

实验发现，最有效的方法是要求模型把改动通过描述性的信息提交到Git，并在progress文件中总结进展。

这样，模型就能方便地回滚错误改动，恢复稳定代码状态。

这些方式能够大幅提升效率，因为智能体不再需要花大量时间猜测之前发生了什么。

测试

此外，研究人员还观察到一个大问题：

Claude经常在没有充分测试的情况下，把功能标记为完成。

这是因为，如果不提供明确指令和工具，Claude的「测试行为」大多会停留在「代码层面」，而不是「完整用户流程层面」。

比如，它会改代码、跑单元测试、甚至用curl测一下开发服务器，但这些操作只能证明「代码大致能跑」，并不能保证整个用户操作流程从头到尾是顺畅可用的。

如果我们明确要求它使用浏览器自动化工具，并像真实用户一样进行端到端测试，它在Web应用场景中通常表现得很好，很多原本容易漏掉的bug都能被发现出来。

Claude通过Puppeteer MCP服务器在测试claude.ai克隆版时截取的屏幕截图

因为很多问题只有在「真实运行、真实点击」时才会暴露，而不是从代码文本上就能看出来。

当然仍有一些限制，比如模型本身的视觉能力有限，浏览器自动化工具无法识别所有场景。

比如，通过Puppeteer MCP，Claude现在看不到浏览器自带的alert弹窗。

对于那些「点一下按钮就弹个原生alert，再根据用户点击决定后续行为」的功能，Claude在自动化测试时就很难完整覆盖，也更容易出问题。

快速上手

通过上述机制，每次编码智能体启动时都会先执行一套简单但实用的步骤：

运行pwd看看自己工作在什么目录，只能编辑这个目录里的文件。
阅读 git 日志和进度文件，了解最近做了什么。
阅读功能列表，并选择最高优先级且未完成的功能。

这种方式每次都能为Claude节省不少Token，因为它不必重新思考如何测试代码。

研究人员还让初始化智能体编写一个init.sh脚本，用于启动开发服务器，并在实现新功能前跑一次基本的端到端测试。

在claude.ai克隆项目中，智能体会先启动本地开发服务器，然后用Puppeteer MCP打开新对话、发送消息、接收回复。

这样Claude能立即判断项目是否处于异常状态，并马上修复bug。

如果它直接开始做新功能，只会让情况更糟。

因此，一个典型的会话通常会从类似这样的助手消息开始：

目前的双组件架构已显著提升了全栈 Web应用开发的稳定性，但仍然有许多开放问题。

其中最关键的一点是：

不清楚是否一个通用编码智能体就足够强，还是应该采用多智能体架构。

比如专门的「测试智能体」「质检智能体」或「代码清理智能体」。

这一框架主要针对Web应用进行了优化，但很可能其中一些经验同样适用于科研、金融建模等需要长时间运行的智能体任务。

参考资料：

https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

AI硬件会记忆了，别只是高级录音笔

虎嗅APP 2026-07-21 21:26:10
0 跟贴 0
“千问办公”或将登场，阿里集中火力，AI办公入口之争再升级，群雄博弈“未来生产力定义权”

每日经济新闻 2026-07-23 22:35:04
0 跟贴 0

AI时代下，如何重新审视我们当下的教育？

虎嗅APP 2026-07-23 21:16:28
0 跟贴 0

800万人围观！虾爹给Agent套上循环，让它自己跑起来！

机器之心Pro 2026-06-17 12:13:35
0 跟贴 0
日均10万亿！商汤Token工厂“大暴走”，还要挺进太空

智东西 2026-07-23 18:21:11
0 跟贴 0

AI行业告别“最强模型”崇拜

钛媒体APP 2026-07-23 16:41:20
0 跟贴 0

OpenAI的AI为何会“越狱”？，它只是太认真地完成了任务

虎嗅APP 2026-07-23 21:18:09
1 跟贴 1
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0

AI时代的风险守恒：制造成本下降，执行风险爆炸

虎嗅APP 2026-07-24 03:00:32
0 跟贴 0
腾讯的野心藏不住了

虎嗅APP 2026-07-24 01:43:06
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
我买了个OBD盒子，发现自己的车每小时生成25GB数据，并向17个服务器“告密”

硅屿手记 2026-07-23 19:54:10
0 跟贴 0
29国抢着落上海，日本砸万亿另起炉灶，美财长坐不住：最怕当老二

小彭的灿烂笔记1 2026-07-23 07:43:05
0 跟贴 0
29国签约新组织落户中国，日本另起炉灶特朗普怕当老二

寥落如辰星 2026-07-23 15:24:36
1 跟贴 1
16台机柜，追平高铁驱动功率？数据中心供电拐点来了

量子位 2026-06-26 10:05:00
0 跟贴 0
软考：高级软件架构师学习笔记——信息安全技术基础知识

每天五分钟玩转人工智能 2026-07-23 23:04:11
0 跟贴 0
踩中梁文锋说的AGI关键一步！这款模型两周ARR破千万美元

智东西 2026-07-23 19:33:46
0 跟贴 0
取次硅谷懒回顾，半缘DeepSeek半缘Kimi

数字力场 2026-07-22 23:30:18
5 跟贴 5
关注 | 多地机关单位宣布：“处长”改“科长”、“科长”改“股长”

天津广播 2026-07-23 09:53:39
10561 跟贴 10561
美军首次部署英伟达最先进AI服务器，黄仁勋：AI将成为国防体系重要支柱

薛定谔的BUG 2026-07-23 16:36:34
1 跟贴 1
车主称跨境自驾车机"被锁"超30小时极氪回应

每日经济新闻 2026-07-23 17:57:02
12859 跟贴 12859
土木、医学、力学，三款智能体同台“炫技”

中国青年报 2026-07-21 20:34:12
0 跟贴 0
从工业设计到合唱指挥，这场智能体展示让文理工艺“破圈”相遇

中国青年报 2026-07-21 20:25:14
0 跟贴 0
俄年造12万套组件，每周可投1600枚滑翔炸弹，乌军反制难在哪

兵器观察员 2026-07-21 16:20:04
1 跟贴 1
智能体从「单兵作战」到「精锐团队」 -2

机器之心Pro 2026-04-28 16:56:00
0 跟贴 0
微软确认Xbox Live大面积瘫痪，或为《光环》新作无法提前游玩主因

山月不知2 2026-07-24 02:26:04
0 跟贴 0
《勒芒终极赛》付费Joker惹众怒：月付8美元，最差成绩直接清零

峡谷一级保护废物 2026-07-24 00:47:22
0 跟贴 0
智源干湿闭环实证，大模型智能体可能带来生物安全风险

界面新闻 2026-07-22 18:35:19
0 跟贴 0
厂家将一百元跟线缆一起包装，纸币上的编码与线缆编码一致，网友：这是专门用于防伪的

星沙时报 2026-07-21 17:19:06
3 跟贴 3
Unity 7宣布12月B测且承诺“无缝升级”，这次真不用重新学引擎了？

峡谷一级保护废物 2026-07-21 16:45:28
0 跟贴 0
建造一座半开放式厨房——焊接顶部框架并铺设波纹铁皮屋顶

机械女孩 2026-07-21 12:10:16
1 跟贴 1
首都机场塔台指令太准，国航刚起飞，另一架就穿跑道！

逗比收容所 2026-07-22 15:31:30
1 跟贴 1
全县都网购不到榴莲、车厘子，商家拒绝发货！男子频繁下单高价水果，用AI修成坏果后“仅退款”，导致当地被电商平台列为“高风险区”

金羊网 2026-07-23 09:22:27
4149 跟贴 4149
西班牙国脚加维回应赛后遭殴打：他们不应被追加停赛，足球确实包含这种激烈甚至粗野的部分，最好的解决方式是在比赛中红牌罚下，到此为止

三湘都市报 2026-07-23 10:25:54
599 跟贴 599
击败强敌！中国女排3比2胜美国女排，闯进世界女排联赛四强

澎湃新闻 2026-07-23 21:46:28
1384 跟贴 1384
爸爸吃了女儿的零食女儿高歌一曲之后突然一声“阿哒” 网友：好可爱的小女孩打之前还先鞠个躬

海外网 2026-07-23 11:26:23
120 跟贴 120
王虹获奖后感言：很幸运能够在合适的时间遇见合适的人，得到正确的引导

澎湃新闻 2026-07-23 23:16:27
457 跟贴 457
当两米一的吕布遇到一米七的貂蝉，这就是王者游戏“建模”走进现实吗？

理想之声 2026-07-21 15:33:22
0 跟贴 0
佛得角门将，身价暴涨十倍

大风新闻 2026-07-23 10:11:06
2289 跟贴 2289
詹姆斯最后的决定，其实早就没有悬念了

上观新闻 2026-07-24 04:30:04
3 跟贴 3

我国越来越多的人患新冠？建议：停止食用“4物”，保护肺部

我国越来越多的人患新冠？建议：停止食用“4物”，保护肺部

阿兵科普

2026-07-22 21:05:44

1982 年，飞行员黄植诚和马红成婚，8 年后她借出国名义在美国失联。安保人员搜查住所，卧室内查获的物件让人震惊

1982 年，飞行员黄植诚和马红成婚，8 年后她借出国名义在美国失联。安保人员搜查住所，卧室内查获的物件让人震惊

磊子讲史

2026-07-15 12:02:40

吸取俄罗斯曾经教训，台海之战可能成为人类史上第一场零伤亡战争

吸取俄罗斯曾经教训，台海之战可能成为人类史上第一场零伤亡战争

离离言几许

2026-07-24 01:04:39

正式退出，蒯曼新决定，和孙颖莎分道扬镳

正式退出，蒯曼新决定，和孙颖莎分道扬镳

泥说体育

2026-07-23 09:33:33

“20多万本金，4个月亏了2万多！”不少网友吐槽：说好的中低风险……多家理财公司紧急发声

“20多万本金，4个月亏了2万多！”不少网友吐槽：说好的中低风险……多家理财公司紧急发声

19楼

2026-07-23 21:44:26

演员寇占文，被悬赏！

肥东论坛

2026-07-24 00:13:08

前所未有的人工智能失控事故！中方救场

前所未有的人工智能失控事故！中方救场

环球时报国际

2026-07-23 07:48:23

两性心理学：男人一生都在找一个会玩、敢玩他的女人，他不喜欢顺心的也不喜欢贤妻良母，男人这辈子只会栽在两种女人手里

两性心理学：男人一生都在找一个会玩、敢玩他的女人，他不喜欢顺心的也不喜欢贤妻良母，男人这辈子只会栽在两种女人手里

心理观察局

2026-07-24 06:24:05

新冠又来了

南风窗

2026-07-20 12:39:20

孩子爱你入骨的6种表现，如果你中了三条，不用怀疑，你很幸福

孩子爱你入骨的6种表现，如果你中了三条，不用怀疑，你很幸福

户外阿毽

2026-07-23 17:13:28

长辈哪句话让你愣了很久？网友：结婚前，我爸让我把家里钥匙还他

长辈哪句话让你愣了很久？网友：结婚前，我爸让我把家里钥匙还他

夜深爱杂谈

2026-07-23 20:46:12

国足球员身价更新！王钰栋继续领跑，武磊仅25万欧，李昊成最大惊喜

国足球员身价更新！王钰栋继续领跑，武磊仅25万欧，李昊成最大惊喜

兵哥篮球故事

2026-07-23 16:18:29

最牛美女处长，1000天和男上司开房410次，临时工晋升财务副处长

最牛美女处长，1000天和男上司开房410次，临时工晋升财务副处长

三石记

2026-06-26 07:16:19

方正县为日军开拓团立碑，五壮士怒砸石碑，他们最终结局如何

方正县为日军开拓团立碑，五壮士怒砸石碑，他们最终结局如何

唠叨说历史

2026-06-24 14:08:47

冉莹颖此前的诉苦事件突然反转，知情人曝出破产真实缘由，她曾和圈内老总交往十分紧密

冉莹颖此前的诉苦事件突然反转，知情人曝出破产真实缘由，她曾和圈内老总交往十分紧密

手工制作阿歼

2026-07-22 02:49:34

世联赛大冷门！中国女排3-2美国，赛后球员评分，庄宇珊并非最佳

世联赛大冷门！中国女排3-2美国，赛后球员评分，庄宇珊并非最佳

侃球熊弟

2026-07-23 22:04:13

英国公开赛战报：首日中国4胜8负收官，再爆大冷四冠王3-4一轮游

英国公开赛战报：首日中国4胜8负收官，再爆大冷四冠王3-4一轮游

小彭美识

2026-07-24 05:21:06

寿命与体重的关系被发现：60岁后，这样的体重刚刚好，你达标没？

寿命与体重的关系被发现：60岁后，这样的体重刚刚好，你达标没？

展望云霄

2026-07-23 09:05:06

武汉东湖闹剧大反转！网传印度游客洗澡排污？官方辟谣全程打脸

武汉东湖闹剧大反转！网传印度游客洗澡排污？官方辟谣全程打脸

小徐讲八卦

2026-07-23 09:11:38

詹姆斯+浓眉！被拒！詹姆斯的下家，基本确定了...

詹姆斯+浓眉！被拒！詹姆斯的下家，基本确定了...

詹姆斯吧

2026-07-23 15:15:29

AI产业主平台领航智能+时代

15769文章数 66966关注度

往期回顾全部

科技要闻

中国数学家王虹、邓煜获菲尔兹奖

头条要闻

女副部王峻被处理：大搞权钱交易泄露工作秘密

头条要闻

女副部王峻被处理：大搞权钱交易泄露工作秘密

体育要闻

勇士24岁的MVP，也是个勒布朗？

娱乐要闻

梁朝伟汤唯19年后境遇反转

财经要闻

梁文锋当不成赛博圣人

汽车要闻

满配华为乾崑六件套东风奕派M8限时权益价16.58万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

房产

数码

健康

游戏

旅游要闻

去拉合尔放风筝（旅人心语）

房产要闻

狂抢111轮，溢价39%，楼面价刺破9500！海口土拍杀疯了！

数码要闻

AMD展示最强AI加速器MI455X：台积电2nm工艺

我是不是中风高风险人群？快速自测

魔兽世界：禁止评分意欲何为？玩家道破真相，提高参团速度是核心

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版