网易首页 > 网易号 > 正文 申请入驻

嘘,Claude正在「做梦」!睡一觉疯狂进化,一夜暴涨6倍战力

0
分享至


新智元报道

编辑:好困 桃子

【新智元导读】Claude开发者大会来了!这一次,Anthropic让Agent学会了「做梦」,两次干活的间隙自动反刍记忆、自我进化。配合多Agent兵团作战和自动评分官,AI任务完成率直接暴涨6倍。

就在刚刚,Anthropic让AI学会做梦了!


Code with Claude旧金山开发者大会上,Anthropic真的给Claude托管智能体加了一个叫Dreaming的功能——

AI可以在两次工作的间隙,像人类进入REM睡眠一样,自动回顾历史会话、整理碎片记忆、发现隐藏规律。

一觉醒来,直接满级。


同时发布的还有Outcomes(自动评分)和多智能体编排(multiagent orchestration)。



让Claude睡一觉,醒来自己变强

任何用过AI Agent的人都知道一个痛点,Agent干活时会往记忆库里写东西,但这些记录是零散的、递增的。

跑了几十次会话之后,记忆库里一团糟,重复条目、过时信息、前后矛盾的内容堆在一起。

Agent自己意识不到这个问题,因为它们每次只看到当前会话的局部视角。

而Dreaming就是来解决这件事的。


它是一个定时运行的异步任务,会同时读取Agent现有的记忆库和过去最多100个会话的完整文字记录,然后生成一个全新的、经过重新梳理的记忆库。

具体做三件事:(1)合并重复项;(2)用最新值替换掉过时或矛盾的条目;(3)从历史会话中挖掘出Agent自己没注意到的宏观规律。

熟悉神经科学的人会立刻反应过来,这就是人脑REM睡眠在干的事。

白天大脑吸收原始信息存成短期记忆,夜间REM阶段把当天经历重放一遍,强化有价值的连接、丢弃无用信息、整合成长期记忆。

Anthropic的工程师显然也想到了这层对应关系,所以直接把功能叫做Dreaming。

1968年菲利普·K·迪克问了一个问题,「仿生人会梦见电子羊吗」?58年后,Anthropic给出了一个工程层面的回答。


值得注意的是,这里还有一个关键设计。

Dreaming永远不会修改输入的原始记忆库。它生成的是一个全新的输出记忆库,开发者可以先审查结果,不满意就直接丢弃。

也就是说,你对AI的「梦境」有完全的控制权,可以选择让它自动生效,也可以人工审核后再决定是否采纳。


AI做梦,全程直播

具体来说,Dream任务进入running状态后,会暴露一个session_id,开发者可以流式订阅这个会话的事件流,实时看到AI正在读取哪条记忆、正在写入什么新条目。如果发现问题,还可以随时「叫醒」(取消)。

换句话说就是,你趴在AI的床边,看着它做梦。

跑完之后,底层会话会被归档保留,事后还能回看完整的「梦境记录」。

更关键的是,开发者可以通过instructions字段告诉AI「做什么梦」。

由于输入记忆库不会被修改,理论上你可以对同一份记忆跑多次Dreaming,每次聚焦不同主题,产出不同维度的整理结果。

Agent交完卷,还有一个评分官在等着

光会做梦还不够,干活的质量谁来把关?

这就是Outcomes的作用。


开发者可以写一套评分标准,描述「什么算交付成功」,然后系统会分配一个独立的评估器,在它自己的上下文窗口中对Agent输出进行打分。

由于评估器和干活的Agent完全隔离,因此不会被Agent自身的推理过程带偏。

只要它发现问题,就会精准指出需要修改的地方,并让Agent重新打磨再跑一轮。

此时,开发者还可以设置最大迭代次数来控制成本。

根据Anthropic的内部测试,相比标准prompt循环,Outcomes把任务成功率提升了最高10个百分点。越难的问题,提升越明显。

在文件生成场景下效果更直观,docx文档任务成功率提高8.4%,pptx幻灯片提高10.1%。

这个功能对主观质量评估同样有效。

比如文案语气是否符合品牌调性,设计稿是否遵循视觉规范,这类以前必须靠人盯的活儿,现在Agent自己就能对照标准反复打磨。

一个Agent搞不定,那就组队上

第三件套是多智能体编排。

逻辑很简单,当任务太大或太复杂,单个Agent搞不定时,让一个主智能体(lead agent)把总任务拆成多个小块,分别派发给搭载不同模型、不同提示词、不同工具的专家级子智能体。


这些子智能体基于同一个共享文件系统并行工作,各自的成果汇总到主智能体的全局上下文中。

主智能体可以在工作流进行到一半时随时找其他智能体对齐进度。

过程中,开发者还能在Claude控制台里追溯每一步细节,哪个Agent干了什么、先后顺序、决策理由,全部可见。


6个着陆点砸了2个,睡一觉全修好了

大会上,Anthropic用一个月球采矿无人机着陆任务,把三个功能一口气串了起来。

第一步,搭兵团。

Commander作为主Agent统筹全局,底下挂两个专家Agent:Detector负责地质探测,判断采矿点是否值得开采;Navigator负责导航,判断地形哪里可以安全降落。


第二步,定标准。

Outcomes评分标准就是一个普通的Markdown文件,几行文字写清通过条件:软着陆速度≤2.0 m/s、地面不能有巨石和陨石坑、剩余燃料≥5%。


第三步,跑模拟。

大屏上同时显示6个着陆点的实时状态。

结果,4个绿色LANDED,但Site 3以398 m/s的速度直接砸了(红色CRASH),Site 4也没达标。整体安全评分67%。


这个结果,显然是不合格的。

于是,她打开Claude控制台的Dreams页面,选了Opus 4.7模型,点击「Start dreaming」,让Dreaming跑了一整夜。


Opus 4.7花了8分钟,从530万token的历史会话中蒸馏出一份98行的「Lumara Descent Commander's Playbook」,覆盖危险规则、悬停扫描流程、燃料底线、中止走廊等维度。每条规则都标注了来源于哪次任务。


第二天早上回来,用升级后的记忆库重新跑了一轮模拟。

原来失败的2个站点全部修复,原来成功的4个没有倒退。

整个过程,就是在控制台里按了几下按钮。


Harvey用完涨了6倍,靠的就是这三件套

托管智能体平台从4月公测以来,核心卖点一直是「你别自己搭Agent基础设施了,我帮你托管」。

但光托管运行环境还不够,Agent要真正好用,必须解决三个问题——

1. 跨会话的记忆衰退

2. 不稳定的输出质量

3. 单Agent搞不定的复杂任务

这次,Dreaming解决第一个,Outcomes解决第二个,多Agent编排解决第三个。三件套一起上,把Agent从「能跑」推向「能用」。

早期客户已经在验证这套组合拳。法律AI公司Harvey用上Dreaming后,任务完成率飙升了大约6倍。

目前,Dreaming作为研究预览版上线,支持Claude Opus 4.7和Claude Sonnet 4.6,需要申请权限。Outcomes和多Agent编排已进入公测。

费用方面,托管智能体在标准API token费率之外,额外收取每会话小时0.08美元的运行时费用。有开发者算过账,24个Agent每天跑8小时,光运行时就是15.36美元/天,还没算token。

One More Thing

算力自由

同一天还有一个重磅消息。

Anthropic官宣与SpaceX达成协议,租下马斯克Colossus 1数据中心的全部算力,共22万张GPU。

Dreaming一次跑530万token,多Agent并行开工,Outcomes反复迭代打分,全都是吃算力的重活。22万张GPU,正好给托管智能体这套服务兜底。


同时,「算力自由」也带来了更直接的用户福利——

·Claude Code五小时使用限额即刻翻倍。

·取消Pro/MAX中,Claude Code高峰时段限制额度削减。

·Opus API速率限制大幅上涨。

今天,Anthropic给AI装上了REM睡眠,但这场梦才刚开始做。

迪克当年真正想问的,或许不是仿生人会不会做梦,而是做完梦之后,它还算不算机器。

参考资料:

https://claude.com/blog/new-in-claude-managed-agents

https://x.com/claudeai/status/2052067399088664981

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大S年轻时房间曝光,太过诡异引人不适,难怪有人曾说活不过50岁

大S年轻时房间曝光,太过诡异引人不适,难怪有人曾说活不过50岁

草莓解说体育
2026-05-11 20:49:33
台湾42岁老师性侵6年级小学生,4个月9次 生下一孩,判17年仍不服

台湾42岁老师性侵6年级小学生,4个月9次 生下一孩,判17年仍不服

墨策史
2026-06-01 01:30:05
媒体报道称,万斯向土耳其泄露以色列武装库尔德人对抗伊朗的计划

媒体报道称,万斯向土耳其泄露以色列武装库尔德人对抗伊朗的计划

山河路口
2026-06-06 21:58:42
情侣分手可以多不体面?评论区笑发财了

情侣分手可以多不体面?评论区笑发财了

阿康四岁啦
2026-06-06 11:09:40
Nature:中国论文为何总爱挂多个通讯作者?

Nature:中国论文为何总爱挂多个通讯作者?

双链生信
2026-06-06 22:06:08
多款新能源汽车售价小幅上调 芯片涨价影响选装价格

多款新能源汽车售价小幅上调 芯片涨价影响选装价格

环球网资讯
2026-06-07 07:10:29
追觅也许以后再也崩不了老头啦!

追觅也许以后再也崩不了老头啦!

晨晨商业日记
2026-06-07 11:48:01
汪峰这次真的栽了!深夜别墅密会新欢,清空动态稀释股权?

汪峰这次真的栽了!深夜别墅密会新欢,清空动态稀释股权?

悠悠说世界
2026-06-04 09:25:47
樊振东被央媒催婚一年,女神身价超20亿,放弃百万带薪假

樊振东被央媒催婚一年,女神身价超20亿,放弃百万带薪假

汪镛的创业之路
2026-06-07 04:10:02
人社部官宣,7月1日起统一实施,在职和退休人员都受益,来看看

人社部官宣,7月1日起统一实施,在职和退休人员都受益,来看看

社保小达人
2026-06-07 10:54:23
弗格:一直跟着张镇麟走就会有冠军拿,这是我的秘诀

弗格:一直跟着张镇麟走就会有冠军拿,这是我的秘诀

懂球帝
2026-06-06 19:49:26
中国一年51万人确诊肠癌!建议:不管多大年纪,记住6个护肠方法

中国一年51万人确诊肠癌!建议:不管多大年纪,记住6个护肠方法

健康之光
2026-06-06 15:25:09
中央再发铁令!领导干部出现这15种情形 , 将不能再担任现职!

中央再发铁令!领导干部出现这15种情形 , 将不能再担任现职!

职场资深秘书
2026-06-05 15:16:24
“盛装都比不上她穿校服”,小学长发女生颜值亮了,男同学害羞

“盛装都比不上她穿校服”,小学长发女生颜值亮了,男同学害羞

熙熙说教
2026-06-05 19:36:12
《主角》刘四团30万包专场,秦娥醒悟,她低估了刘红兵的深情!

《主角》刘四团30万包专场,秦娥醒悟,她低估了刘红兵的深情!

石辰搞笑日常
2026-06-06 20:58:48
2026年全国统一高考今天开考

2026年全国统一高考今天开考

澎湃新闻
2026-06-07 07:17:03
70到80岁这10年,别跟任何人,包括你的老伴、子女,分享这两件事

70到80岁这10年,别跟任何人,包括你的老伴、子女,分享这两件事

心理观察局
2026-06-03 06:24:04
雅鲁藏布江项目公布后,欧美NGO组织跳出来了,忽悠印度搞事情

雅鲁藏布江项目公布后,欧美NGO组织跳出来了,忽悠印度搞事情

抽象派大师
2026-06-07 04:18:20
太阳报:曼城主持人因采访瓜迪奥拉,二人结下深厚友谊

太阳报:曼城主持人因采访瓜迪奥拉,二人结下深厚友谊

懂球帝
2026-06-07 07:40:09
特朗普称愿见伊朗领导人:我们杀他父亲、妻儿,我不是他喜欢的人

特朗普称愿见伊朗领导人:我们杀他父亲、妻儿,我不是他喜欢的人

小彭的灿烂笔记1
2026-06-06 07:39:06
2026-06-07 12:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15405文章数 66914关注度
往期回顾 全部

科技要闻

SpaceX上市倒计时 员工开始讨论“买豪宅”

头条要闻

中美都有人提"忘恩负义的人" 中方连对方名字都不想提

头条要闻

中美都有人提"忘恩负义的人" 中方连对方名字都不想提

体育要闻

上海男篮时隔24年夺冠,恐怖的在后面?

娱乐要闻

小S后悔发起日本旅行,再晒照悼念姐姐

财经要闻

SpaceX上市前夕,忙着干三件大事

汽车要闻

奥迪全新超跑Nuvolari登场 千匹混动性能拉满

态度原创

亲子
手机
艺术
公开课
军事航空

亲子要闻

4所公办幼儿园报名要家长提供工资流水,云南祥云致歉

手机要闻

苹果iOS 27前瞻:Siri、AI,均迎来超大变化!

艺术要闻

日本写实画家作品《ARIA》

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美以伊战争100天 美或用冻结的伊朗资产赔偿海湾盟友

无障碍浏览 进入关怀版