网易首页 > 网易号 > 正文 申请入驻

嘘,Claude正在「做梦」!睡一觉疯狂进化,一夜暴涨6倍战力

0
分享至


新智元报道

编辑:好困 桃子

【新智元导读】Claude开发者大会来了!这一次,Anthropic让Agent学会了「做梦」,两次干活的间隙自动反刍记忆、自我进化。配合多Agent兵团作战和自动评分官,AI任务完成率直接暴涨6倍。

就在刚刚,Anthropic让AI学会做梦了!


Code with Claude旧金山开发者大会上,Anthropic真的给Claude托管智能体加了一个叫Dreaming的功能——

AI可以在两次工作的间隙,像人类进入REM睡眠一样,自动回顾历史会话、整理碎片记忆、发现隐藏规律。

一觉醒来,直接满级。


同时发布的还有Outcomes(自动评分)和多智能体编排(multiagent orchestration)。



让Claude睡一觉,醒来自己变强

任何用过AI Agent的人都知道一个痛点,Agent干活时会往记忆库里写东西,但这些记录是零散的、递增的。

跑了几十次会话之后,记忆库里一团糟,重复条目、过时信息、前后矛盾的内容堆在一起。

Agent自己意识不到这个问题,因为它们每次只看到当前会话的局部视角。

而Dreaming就是来解决这件事的。


它是一个定时运行的异步任务,会同时读取Agent现有的记忆库和过去最多100个会话的完整文字记录,然后生成一个全新的、经过重新梳理的记忆库。

具体做三件事:(1)合并重复项;(2)用最新值替换掉过时或矛盾的条目;(3)从历史会话中挖掘出Agent自己没注意到的宏观规律。

熟悉神经科学的人会立刻反应过来,这就是人脑REM睡眠在干的事。

白天大脑吸收原始信息存成短期记忆,夜间REM阶段把当天经历重放一遍,强化有价值的连接、丢弃无用信息、整合成长期记忆。

Anthropic的工程师显然也想到了这层对应关系,所以直接把功能叫做Dreaming。

1968年菲利普·K·迪克问了一个问题,「仿生人会梦见电子羊吗」?58年后,Anthropic给出了一个工程层面的回答。


值得注意的是,这里还有一个关键设计。

Dreaming永远不会修改输入的原始记忆库。它生成的是一个全新的输出记忆库,开发者可以先审查结果,不满意就直接丢弃。

也就是说,你对AI的「梦境」有完全的控制权,可以选择让它自动生效,也可以人工审核后再决定是否采纳。


AI做梦,全程直播

具体来说,Dream任务进入running状态后,会暴露一个session_id,开发者可以流式订阅这个会话的事件流,实时看到AI正在读取哪条记忆、正在写入什么新条目。如果发现问题,还可以随时「叫醒」(取消)。

换句话说就是,你趴在AI的床边,看着它做梦。

跑完之后,底层会话会被归档保留,事后还能回看完整的「梦境记录」。

更关键的是,开发者可以通过instructions字段告诉AI「做什么梦」。

由于输入记忆库不会被修改,理论上你可以对同一份记忆跑多次Dreaming,每次聚焦不同主题,产出不同维度的整理结果。

Agent交完卷,还有一个评分官在等着

光会做梦还不够,干活的质量谁来把关?

这就是Outcomes的作用。


开发者可以写一套评分标准,描述「什么算交付成功」,然后系统会分配一个独立的评估器,在它自己的上下文窗口中对Agent输出进行打分。

由于评估器和干活的Agent完全隔离,因此不会被Agent自身的推理过程带偏。

只要它发现问题,就会精准指出需要修改的地方,并让Agent重新打磨再跑一轮。

此时,开发者还可以设置最大迭代次数来控制成本。

根据Anthropic的内部测试,相比标准prompt循环,Outcomes把任务成功率提升了最高10个百分点。越难的问题,提升越明显。

在文件生成场景下效果更直观,docx文档任务成功率提高8.4%,pptx幻灯片提高10.1%。

这个功能对主观质量评估同样有效。

比如文案语气是否符合品牌调性,设计稿是否遵循视觉规范,这类以前必须靠人盯的活儿,现在Agent自己就能对照标准反复打磨。

一个Agent搞不定,那就组队上

第三件套是多智能体编排。

逻辑很简单,当任务太大或太复杂,单个Agent搞不定时,让一个主智能体(lead agent)把总任务拆成多个小块,分别派发给搭载不同模型、不同提示词、不同工具的专家级子智能体。


这些子智能体基于同一个共享文件系统并行工作,各自的成果汇总到主智能体的全局上下文中。

主智能体可以在工作流进行到一半时随时找其他智能体对齐进度。

过程中,开发者还能在Claude控制台里追溯每一步细节,哪个Agent干了什么、先后顺序、决策理由,全部可见。


6个着陆点砸了2个,睡一觉全修好了

大会上,Anthropic用一个月球采矿无人机着陆任务,把三个功能一口气串了起来。

第一步,搭兵团。

Commander作为主Agent统筹全局,底下挂两个专家Agent:Detector负责地质探测,判断采矿点是否值得开采;Navigator负责导航,判断地形哪里可以安全降落。


第二步,定标准。

Outcomes评分标准就是一个普通的Markdown文件,几行文字写清通过条件:软着陆速度≤2.0 m/s、地面不能有巨石和陨石坑、剩余燃料≥5%。


第三步,跑模拟。

大屏上同时显示6个着陆点的实时状态。

结果,4个绿色LANDED,但Site 3以398 m/s的速度直接砸了(红色CRASH),Site 4也没达标。整体安全评分67%。


这个结果,显然是不合格的。

于是,她打开Claude控制台的Dreams页面,选了Opus 4.7模型,点击「Start dreaming」,让Dreaming跑了一整夜。


Opus 4.7花了8分钟,从530万token的历史会话中蒸馏出一份98行的「Lumara Descent Commander's Playbook」,覆盖危险规则、悬停扫描流程、燃料底线、中止走廊等维度。每条规则都标注了来源于哪次任务。


第二天早上回来,用升级后的记忆库重新跑了一轮模拟。

原来失败的2个站点全部修复,原来成功的4个没有倒退。

整个过程,就是在控制台里按了几下按钮。


Harvey用完涨了6倍,靠的就是这三件套

托管智能体平台从4月公测以来,核心卖点一直是「你别自己搭Agent基础设施了,我帮你托管」。

但光托管运行环境还不够,Agent要真正好用,必须解决三个问题——

1. 跨会话的记忆衰退

2. 不稳定的输出质量

3. 单Agent搞不定的复杂任务

这次,Dreaming解决第一个,Outcomes解决第二个,多Agent编排解决第三个。三件套一起上,把Agent从「能跑」推向「能用」。

早期客户已经在验证这套组合拳。法律AI公司Harvey用上Dreaming后,任务完成率飙升了大约6倍。

目前,Dreaming作为研究预览版上线,支持Claude Opus 4.7和Claude Sonnet 4.6,需要申请权限。Outcomes和多Agent编排已进入公测。

费用方面,托管智能体在标准API token费率之外,额外收取每会话小时0.08美元的运行时费用。有开发者算过账,24个Agent每天跑8小时,光运行时就是15.36美元/天,还没算token。

One More Thing

算力自由

同一天还有一个重磅消息。

Anthropic官宣与SpaceX达成协议,租下马斯克Colossus 1数据中心的全部算力,共22万张GPU。

Dreaming一次跑530万token,多Agent并行开工,Outcomes反复迭代打分,全都是吃算力的重活。22万张GPU,正好给托管智能体这套服务兜底。


同时,「算力自由」也带来了更直接的用户福利——

·Claude Code五小时使用限额即刻翻倍。

·取消Pro/MAX中,Claude Code高峰时段限制额度削减。

·Opus API速率限制大幅上涨。

今天,Anthropic给AI装上了REM睡眠,但这场梦才刚开始做。

迪克当年真正想问的,或许不是仿生人会不会做梦,而是做完梦之后,它还算不算机器。

参考资料:

https://claude.com/blog/new-in-claude-managed-agents

https://x.com/claudeai/status/2052067399088664981

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小宝与王某雷,谁探访花的数量更多?

小宝与王某雷,谁探访花的数量更多?

挪威森林
2026-01-31 12:15:26
丧葬畸形攀比!有网友哭诉邵阳老人过世6天花一百来万,引发共鸣

丧葬畸形攀比!有网友哭诉邵阳老人过世6天花一百来万,引发共鸣

火山詩话
2026-05-07 08:54:39
《陈翔六点半》人走茶凉,赚不到钱球球退出,根本原因早就注定了

《陈翔六点半》人走茶凉,赚不到钱球球退出,根本原因早就注定了

汪巗的创业之路
2026-05-06 12:26:17
搞不明白,这么漂亮的女神,为何却一直单身。

搞不明白,这么漂亮的女神,为何却一直单身。

喜欢历史的阿繁
2026-05-07 11:04:03
曝国际足联要价不是20亿而是40亿!央视最多只给5.5亿 差距悬殊

曝国际足联要价不是20亿而是40亿!央视最多只给5.5亿 差距悬殊

念洲
2026-05-06 23:06:44
郑智违规违纪,被处罚

郑智违规违纪,被处罚

第一财经资讯
2026-05-07 13:25:33
俄乌战争以来曝俄军首次大规模败退!乌克兰炸毁俄后勤大桥

俄乌战争以来曝俄军首次大规模败退!乌克兰炸毁俄后勤大桥

项鹏飞
2026-05-05 19:02:50
16岁游客玩瀑布秋千坠亡后续:家属已和解,知情人曝景区赔偿金额

16岁游客玩瀑布秋千坠亡后续:家属已和解,知情人曝景区赔偿金额

娱乐圈圈圆
2026-05-06 17:33:41
48小时连收两大利好,日本举国狂欢,中国联合国当众炸锅

48小时连收两大利好,日本举国狂欢,中国联合国当众炸锅

近史博览
2026-05-06 14:42:13
《中餐厅》黄晓明翻车!戴假头套,热天穿毛衣,10年也炒不出一个菜

《中餐厅》黄晓明翻车!戴假头套,热天穿毛衣,10年也炒不出一个菜

八卦王者
2026-05-07 11:26:04
高市草苗,跪了!

高市草苗,跪了!

燕梳楼频道
2026-05-07 13:06:24
湖人G2伤情报告出炉,东契奇把话挑明,老詹迎来神级里程碑

湖人G2伤情报告出炉,东契奇把话挑明,老詹迎来神级里程碑

世界体育圈
2026-05-07 08:52:37
新车刚出厂就已老化,汽车用钢陷入低价低质内卷!

新车刚出厂就已老化,汽车用钢陷入低价低质内卷!

金投网
2026-05-06 17:02:47
台官员曝赖清德成功返台内幕,大陆出手阻止未果,背后有难言之隐

台官员曝赖清德成功返台内幕,大陆出手阻止未果,背后有难言之隐

共工之锚
2026-05-07 00:04:56
新华时评|安全红线不容侥幸逾越

新华时评|安全红线不容侥幸逾越

新华社
2026-05-06 22:45:05
电视剧《主角》定档,由张艺谋监制,张嘉益、刘浩存、秦海璐等主演;王菲献唱同名主题曲,“大秀”秦腔

电视剧《主角》定档,由张艺谋监制,张嘉益、刘浩存、秦海璐等主演;王菲献唱同名主题曲,“大秀”秦腔

极目新闻
2026-05-07 11:58:54
男团八强出炉:国乒VS韩国!中国香港止步,雨果2胜率队过关

男团八强出炉:国乒VS韩国!中国香港止步,雨果2胜率队过关

烧体坛
2026-05-07 05:55:14
有没有哪个国家从低生育率回升到更替水平?

有没有哪个国家从低生育率回升到更替水平?

何亚福
2026-05-06 11:58:20
出乎外界意料!除中国外,还有多国退出世界杯买单,国际足联急了

出乎外界意料!除中国外,还有多国退出世界杯买单,国际足联急了

丁丁鲤史纪
2026-05-06 16:13:35
别轻视小人物:20个历史血泪教训,强者多亡于蝼蚁

别轻视小人物:20个历史血泪教训,强者多亡于蝼蚁

小莜读史
2026-05-06 20:15:38
2026-05-07 14:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15151文章数 66843关注度
往期回顾 全部

科技要闻

凌晨突发!马斯克租22万块GPU给“死敌”

头条要闻

美国博主自发抵制:不想收钱抹黑中国

头条要闻

美国博主自发抵制:不想收钱抹黑中国

体育要闻

阿森纳巴黎会师欧冠决赛!5月31日开战

娱乐要闻

小S阿雅重返大S母校,翻看大S毕业照

财经要闻

特朗普:美伊“很有可能”达成协议

汽车要闻

理想为什么不做轿车,有了解释……

态度原创

旅游
数码
亲子
教育
手机

旅游要闻

“五一”接待游客252.37万人次,酉阳文旅市场人气口碑双丰收

数码要闻

Q1全球平板排名:苹果还是霸主,华为第三,小米第五

亲子要闻

2026年上海幼儿入园报名验证、小学报名今起开始

教育要闻

新传考研名词解释:社会抗争行为

手机要闻

三星首款阔折叠手机!Galaxy Z Fold 8 Wide官方演示来了

无障碍浏览 进入关怀版