网易首页 > 网易号 > 正文 申请入驻

AI学会梦里干活!Claude发布3大进化,Dario:单人公司10亿美金爆发

0
分享至



今天的 Code with Claude 大会,Anthropic 一口气发了一堆东西。

做梦、成果评估、多 Agent 协作,这三项功能正式上线到了 Claude Managed Agents。其中成果评估和多 Agent 协作已经直接可用,做梦则需要单独申请访问权限。

但在所有发布里,有一个功能是从源码泄露就开始被人惦记的——今天它终于上线了。

那就是“做梦”。

从源码泄露到正式上线

几个月前,Claude Code 源码意外泄露,开发者社区里有人在代码里发现了一个正在开发的功能,名字叫 Dreaming。当时大家都在猜这是什么东西,有人说是某种记忆压缩,有人说是后台自动优化,众说纷纭。

用过 Claude 长期项目的人都有一个感受:用的时间越长,Agent 的表现反而开始变奇怪。它会忘记之前学到的东西,或者记住了一堆相互矛盾的信息,有时候同一个问题给出截然不同的答案。

这不是模型变笨了,是 memory 出了问题。

Agent 在每次工作 session 中会往 memory store 写东西,记住自己学到了什么——这个工具怎么用、这个用户喜欢什么格式、这个任务有什么坑。但时间长了,memory 里会堆满重复条目、过时信息和相互矛盾的记录。就像你用了三年的 Notion 笔记库,打开来全是冗余和过期内容,找有用信息反而比没有笔记库更难。

Dreaming 解决的就是这个退化问题。

它是一个在 session 之间运行的异步任务,读取现有的 memory store 和过去最多100个 session 的记录,然后生成一个全新的、整理好的 memory store:重复的合并,过时的替换成最新值,还能从多个 session 的交叉分析中发现新模式。

Anthropic 官方的描述是:memory 让 Agent 在工作中记住学到了什么,dreaming 让 Agent 在工作间隙想明白这些经验意味着什么。一个是即时学习,一个是反思整理。

这个类比非常准确。人类睡觉的时候大脑并没有停下来,而是在整理白天的记忆、巩固学到的东西、处理没解决的问题。Anthropic 给 Agent 设计的 Dreaming,逻辑完全一样。

还有一个设计细节值得注意:做梦不会修改原始数据。输入的 memory store 保持原样,输出写到一个新的 store 里,不满意可以直接丢掉。这个设计很克制——你不用担心 Agent“梦游”把重要记忆搞乱了。

目前支持 claude-opus-4-7和 claude-sonnet-4-6两个模型,耗时取决于输入量,通常几分钟到几十分钟,按标准 API token 费率计费。想试的话需要单独申请,申请地址:https://claude.com/form/claude-managed-agents

成果评估:Agent 干完活,自己给自己打分

以前让 Agent 干活,最大的问题不是干不完,而是干完了你不知道干得好不好,还得人工检查。

成果评估(Outcomes)把这个检查环节自动化了。

逻辑是这样的:你写一份评分标准(rubric),Agent 干完活之后,一个独立的 grader 会对着 rubric 逐项打分。这个 grader 运行在独立的上下文窗口里,不会影响 Agent 的工作上下文。如果判定某些条目没达标,会把具体差在哪里反馈给 Agent,Agent 拿着反馈改,改完再评,直到全部达标或者迭代次数用完——默认3次,最多20次。

Anthropic 内部测试的数据:outcomes 比标准 prompting loop 的任务成功率高了最多10个百分点,在文件生成任务上,docx 成功率+8.4%,pptx 成功率+10.1%。越难的任务提升越明显。

配合同时推出的 Webhooks,你可以定义好 outcome,让 Agent 去干,干完了 webhook 通知你,完全不用盯着看。这才是“AI 员工”该有的工作方式——你布置任务、定标准、等结果,中间不用管。

已经有公司在生产环境跑这套东西了。Wisedocs 是一家医疗文档质检公司,用 outcomes 的 rubric 对照内部质检标准审核文档,实测数据是 AI 加人类协作比纯人类审核快了50%,多抓了30%的错误。法律科技公司 Harvey 用 Managed Agents 协调长文法律文书起草,加了 dreaming 之后完成率涨了大约6倍。

多 Agent 协作:像一个小型项目组

第三个功能是多 Agent 协作(Multiagent Orchestration),说白了就是让一群 Agent 分工干活。

当工作太复杂,一个 Agent 搞不定,系统会让一个 lead agent 把任务拆成几块,分给不同的 specialist agent 并行处理。每个 specialist 有自己的模型、prompt 和工具集,在自己的 session thread 里工作,上下文互相隔离。但它们共享同一个文件系统——一个 agent 写了文件,另一个 agent 能读到。

线程是持久的,lead agent 可以回头找之前调用过的 agent 继续聊,那个 agent 还记得之前做了什么。在 Claude Console 里可以追踪每个 agent 的每一步操作,谁做了什么、什么顺序、为什么这么做,全程可见。

有一个有意的限制:只支持一层委托。Lead agent 可以调用其他 agent,但被调用的 agent 不能再调用下一层。Anthropic 在“能力”和“可控性”之间做了明确的取舍,防止 agent 链式调用失控。

已经有公司在生产环境跑这套东西了。Netflix 的平台工程团队用 multiagent 并行分析几百个 build 的日志,只浮出反复出现的问题模式,忽略一次性噪音。

写作工具 Spiral 用了一个很聪明的模型分层方案:Haiku 当领队接需求、问跟进问题,然后把写作任务分给 Opus 的子 agent 干,要多个稿件就并行跑,用 outcomes 对着编辑标准和用户个人风格给每篇稿子打分,不达标不交。

在推特上,开发者Simon Willison在直播时提到,演示里有Commander、Detector、Navigator三个agent协作处理复杂任务,分工明确、并行执行。这套机制现在已经进入公测,开发者可以直接上手试。

Dario 说的那句话

大会上,Dario 说了一句话,此前就在开发者社区里传得很广的话:

AI 时代会出现单人创造10亿美金营收的公司。

这话放在两年前听着像吹牛,但放在今天的数据面前,你会觉得它没那么离谱。

Lovable,一个 AI 应用构建工具,两年不到做到4亿美金 ARR。Base44,一个人做的 AI 应用构建器,6个月内做到100万美金 ARR、30万用户,然后以8000万美金现金卖给了 Wix。

还有一个叫 Medvi 的案例——一个人用 AI 写代码、生成广告、处理客服、分析业务,14个月做到18亿美金营收的轨道上,没有投资人,没有团队。

Cursor 正在冲刺500亿美金估值,Claude Code 自己上线12个月市场份额12.5%,年化收入25亿美金。

这些数字背后的逻辑是一致的:传统意义上,一家公司要做到10亿美金营收,需要销售、客服、运营、技术……少则几百人,多则几千人。这不是因为创始人不够聪明,而是因为人类的时间和精力有上限,一个人能管理的复杂度有天花板。

但如果 Agent 真的能持续自主运行——帮你写代码、跑测试、处理客户问题、管理供应链——那个天花板就不一样了。一个人能调度的“工作量”,理论上可以无限扩展。

Dario 不是在说“AI 会帮你赚钱”这种空话,他是在说,组织结构本身会被重写。

当然这个预测有很多前提:Agent 的可靠性要足够高,出错率要足够低,用户对 AI 自主决策的信任要建立起来。这些都还在路上。但今天发布的 Dreaming、Outcomes、Multi-agent,恰好就是在往那个方向铺路。

把这些放在一起看

做梦解决了 Agent 记忆退化的问题,成果评估解决了“干完了谁来检查”的问题,多 Agent 协作解决了“复杂任务一个人搞不定”的问题。

三个功能,解决的是同一件事:让 Agent 真正能独立工作,而不只是“你问我答”。

Anthropic 一直被外界贴着“安全派”的标签,相比 OpenAI 的激进显得更保守。但今天这些东西放在一起,你会看到一家公司在非常系统地铺路——不是在做功能,是在搭基础设施,为一个“AI 真正能独立工作”的世界做准备。

Dario 说单人公司10亿美金不是梦。今天发布的这些,是他给这句话的注脚。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
第一次感受到维C的“杀伤力”,2块钱一瓶,就能搞定8个麻烦事

第一次感受到维C的“杀伤力”,2块钱一瓶,就能搞定8个麻烦事

室内设计师有料儿
2026-05-09 10:26:26
一厕所配图露骨:男厕“手握香蕉剥开”,女厕“手抠切开的西柚”

一厕所配图露骨:男厕“手握香蕉剥开”,女厕“手抠切开的西柚”

川渝视觉
2026-05-11 21:34:56
“到底是哪个天才想出的在北京种月季?”

“到底是哪个天才想出的在北京种月季?”

新浪财经
2026-05-11 17:55:50
难以置信!网传大学教授点外卖被骑手教育,反怼其“提鞋都不配”

难以置信!网传大学教授点外卖被骑手教育,反怼其“提鞋都不配”

火山詩话
2026-05-11 16:17:16
新能源汽车维修遭垄断,4400万车主选择权被锁

新能源汽车维修遭垄断,4400万车主选择权被锁

第一财经资讯
2026-05-11 16:52:11
伟伟道来 | 奇怪的海战,吊诡的僵持

伟伟道来 | 奇怪的海战,吊诡的僵持

经济观察报
2026-05-11 13:07:05
保级悬念仍在!英超还剩最后两轮,热刺领先西汉姆联2分

保级悬念仍在!英超还剩最后两轮,热刺领先西汉姆联2分

懂球帝
2026-05-12 05:10:18
柳岩在某个综艺里一个“弯腰”的动作,收视率飙升,弹幕瞬间刷爆

柳岩在某个综艺里一个“弯腰”的动作,收视率飙升,弹幕瞬间刷爆

可乐谈情感
2026-05-12 03:07:25
武汉大学终于硬气了,余思月真人曝光,她无缘继续留在OPPO公司

武汉大学终于硬气了,余思月真人曝光,她无缘继续留在OPPO公司

平老师666
2026-05-11 23:21:51
张本美和不再沉默!说出全日本不想承认的事实:孙颖莎没任何弱点

张本美和不再沉默!说出全日本不想承认的事实:孙颖莎没任何弱点

老黯谈娱
2026-05-12 01:34:24
难怪日本女乒敢冲金牌,原来主教练是他,是马琳师兄却落选国家队

难怪日本女乒敢冲金牌,原来主教练是他,是马琳师兄却落选国家队

以茶带书
2026-05-11 16:27:51
凌晨外出复印失联的西宁17岁高中女生已找到,亲属:属意外溺亡

凌晨外出复印失联的西宁17岁高中女生已找到,亲属:属意外溺亡

极目新闻
2026-05-11 19:13:31
坚决抵制!国际足联天价转播权被拒绝后,直接把中文从官网除名

坚决抵制!国际足联天价转播权被拒绝后,直接把中文从官网除名

南方健哥
2026-05-11 22:55:35
王曼昱哭了登热搜第一!两度致谢莎莎情真意切 陈熠何卓佳都哭了

王曼昱哭了登热搜第一!两度致谢莎莎情真意切 陈熠何卓佳都哭了

颜小白的篮球梦
2026-05-11 07:50:35
女子硕士入学清华后参与智力测验,仅得25分,回应:无论是学习、工作、创业,我都没有遇到困难,但我居然智力中下

女子硕士入学清华后参与智力测验,仅得25分,回应:无论是学习、工作、创业,我都没有遇到困难,但我居然智力中下

扬子晚报
2026-05-11 07:48:21
传来大消息,暴涨开启

传来大消息,暴涨开启

隔壁老投
2026-05-11 14:23:42
刘三姐“全裸演出”引争议,张艺谋惹怒全网

刘三姐“全裸演出”引争议,张艺谋惹怒全网

营销头版
2026-05-10 20:09:26
公安局局长张安疆同志离世后,一个令人震惊的消息出现了!

公安局局长张安疆同志离世后,一个令人震惊的消息出现了!

李昕言温度空间
2026-05-11 21:53:03
中方官宣特朗普访华,行程多了一天,美专家:是他主动想去中国

中方官宣特朗普访华,行程多了一天,美专家:是他主动想去中国

史料布籍
2026-05-11 15:54:56
冲上热榜第一!世乒赛结束数小时,外媒提到樊振东,现场一片沉默

冲上热榜第一!世乒赛结束数小时,外媒提到樊振东,现场一片沉默

大秦壁虎白话体育
2026-05-11 20:29:50
2026-05-12 05:44:49
鲸选AI incentive-icons
鲸选AI
最新AI产品化与商业化案例速递
156文章数 38关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

间谍引诱国企人员进色情场所 拍艳照要挟对方加入

头条要闻

间谍引诱国企人员进色情场所 拍艳照要挟对方加入

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

宗馥莉罢免销售负责人 部分业务将外包

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

房产
艺术
时尚
数码
军事航空

房产要闻

产业赋能教育!翰林府与北师大的这场签约,绝不那么简单!

艺术要闻

人民币78岁了!你见没见过的人民币,都在这里!

今年夏天最流行的5双凉鞋,配裙子绝美!

数码要闻

荣耀600系列全解读:肖战代言、幸运星设计、2亿影像,值得冲吗?

军事要闻

特朗普:伊朗的回应“完全不可接受”

无障碍浏览 进入关怀版