网易首页 > 网易号 > 正文 申请入驻

“10周的工作量,AI只用4天!”Anthropic发布会全程实录:你引以为傲的复杂工程,在模型眼里只是个玩具

0
分享至


出品丨AI 科技大本营(ID:rgznai100)

如果你错过了几天前 Anthropic 最新举办的 “Code w/ Claude” 开发者大会,那你可能正在错过软件工程史上最大的一次范式转移。

整场大会的核心信息只有一个:AI 模型的能力正在呈“指数级”增长,但大多数企业的开发模式仍停留在“线性”阶段。为了帮开发者抹平这道鸿沟,Anthropic 祭出了三大杀手锏:更强的底层模型、全新的Claude Platform代理编排能力,以及彻底颠覆日常开发的Claude Code桌面端。


在这场 Keynote 里,Anthropic 请出的几乎都是自家产品和工程团队的一号位:首席产品官 Ami Vora 先把背景讲透,研究产品负责人 Dianne Penn 解释模型层为什么还会继续爆发,Claude Platform 团队用一场科幻感拉满的月球无人机演示,把multi-agent、outcomes 和 dreaming这些新能力一次摊开;到了 Claude Code 环节,Cat Wu 和 Claude 负责人 Boris Cherny 则把另一条线彻底讲明白——同步编程正在退到后台,能持续跑任务、自动修 PR、自动处理 CI 报错的异步开发流,开始成为新的默认选项。

下面我们就按这条主线往下看:Anthropic 到底想怎么定义下一代开发流,Claude 平台和 Claude Code 分别把哪一部分往前推了一大步。

Ami Vora:大家早上好!很高兴见到各位,感谢大家的到来。

回想我今天为什么站在这里,思绪不禁回到了我第一次成功运行代码的那一刻。我并非从小就接触编程,我在阿巴拉契亚山脉的山脚下长大,没自己组装过电脑,甚至不怎么玩电子游戏。我第一次尝试构建复杂的项目,是在大学的计算机科学课上。那已经是很久以前的事了,当时我们还得排队登录服务器,因为只有它算力够强,跑得动我们的光线追踪程序。


在座的有些人对那番场景肯定不陌生:服务器的嗡嗡声、隔夜披萨和咖啡的混合气味,还有无窗地下室机房特有的味道。但我依然记得按下“编译”键后等待结果的那种心情——当发现程序真的跑通时,那种纯粹的喜悦、发现新大陆的激动、如释重负的轻松,以及意识到自己在这个世界上创造出前所未有之物的震撼。正是那种感觉让我彻底着迷,也是我今天站在这里的原因。

时代变了。当年我只能在大学机房排队求取的东西,如今世上的任何人、在任何地点、任何时候都能唾手可得。无需排队,没有怪味,也没有门槛,但那种激动、喜悦与如释重负的感觉却原封未动。我知道在座的很多人深有同感。常有人对我说:“Claude 让我感觉自己拥有了超能力。” 这是我最爱听的评价。

我们正在目睹大家如何施展这种超能力。比如,Stripe 的开发基础设施负责人 Scott MacVicar,他的团队有5 万行 Scala 代码必须转写成 Java,才能升级 JDK。他们最初估算这需要耗费工程师整整 10 周的时间。结果他们用了 Claude,只花了4 天就全部搞定。

有时,速度的意义不仅仅在于效率,更在于它能触达的彼岸。Felicia Curcuru 是 Binti 的联合创始人兼 CEO,她的软件系统专门协助社工为寄养儿童寻找家庭。处理文件、上门走访、资质审核……今年,她的团队利用 Claude API,把社工从繁琐的文书中解放出来,让整个寄养家庭的资质审批流程足足缩短了 20 天。20 天——这绝不仅仅是一个冷冰冰的效率指标,这意味着一个孩子能提前 20 天拥有一个家。

这种激动、喜悦、轻松和发现新事物的震撼,是我从大家身上听到的共鸣。但我猜,在座各位体验它的方式各不相同。你们当中,有人每天都在技术的最前沿冲浪;有人在努力带动身边的人一起进化;还有人来到这里,是因为和我一样,感觉到了脚下技术板块的剧烈运动,想看清未来的图景。相信我,我经常在一个早上就能体会到上述所有的情绪。我常常带着计划来上班,到了午休时就把计划撕得粉碎,因为又有新突破发生了。这感觉耳熟吗?

当我们退后一步,看看这些模型进化的速度有多快时,这一切就说得通了。在 Anthropic,我们常把“指数级跃升”挂在嘴边。我想这正是我们当下的集体感受。大家还记得吗?仅仅两年前,模型领域的终极目标,还是写出一封像样的电子邮件,我们就已经谢天谢地了。一年前,我们站在这个舞台上,头条是 Opus 4,当时“让一个智能体(Agent)在无需人类干预的情况下连续运行一小时”还像是一个登月计划。

然而六个月前,智能体已经可以整晚跑端到端的任务,我们每天醒来就能验收成果。就在上个月,Mythos 通读了 OpenBSD 的整个源代码树,揪出了一个潜伏了 27 年、躲过了人类审查、模糊测试和静态分析长达近三十年的漏洞。技术飞跃的幅度越来越大,而间隔的时间却越来越短。

尽管模型的能力正呈指数级爆发,但大多数组织应用 AI 的方式却依然按部就班。这就导致“AI 能做什么”和“AI 真正在帮人类解决什么”之间,出现了一道鸿沟。弥合这道鸿沟,将模型的能力转化为普通人解决问题的利器——正是开发者的使命。这正是你们正在做的事,而且成效斐然。在 Claude 平台上,API 的调用量同比激增了近17 倍;在 Claude Code 上,开发者平均每周花在运行 Claude 上的时间已达20 小时

和你们一样,我们最近也处于疯狂交付的状态。我们希望大家今天离开时,脑海中能有一幅清晰的未来图景,这样你们就能未雨绸缪,与我们一起乘上指数级爆发的东风。我要先声明,今天我们没有新模型要发布。今天的主题是——我们如何让产品更好地为您服务,以便您能为整个世界弥合这道鸿沟。今天上午,我们将为大家展示它的全貌。

首先,Dianne 将谈谈我们的基石——模型层。她将分享更多关于我们前沿模型的进展和未来规划。在 Claude 平台上,我们将对 Claude 托管智能体(Managed Agents)进行重大更新,包括:目标导向(Outcomes)、模型造梦(Dreaming)以及多智能体协同(Multi-agent orchestration)。Angela 和 Katelyn 将为大家演示平台是如何帮您包揽底层基础设施,让您免受繁文缛节之苦的。在 Claude Code 方面,Cat 和 Boris 将指导您如何使用诸如 Routines 等新原语(primitives),让 Claude Code 能够自我提示(prompt itself),哪怕您不在电脑前它也能继续干活。

但这一切,最终都要回归到你们,以及你们即将创造的产品上。因为绝大多数人一辈子都不会去调用 Claude API,更不会打开终端输入“Claude”。他们只会通过你们在 Claude 平台上构建的产品来体验 AI。无论那是一位用 Canva 探索新灵感的设计师,一位用 Legora 飞速搞定法律文书的律师,还是任何一位使用世界顶尖编程智能体的开发者。感谢你们,是你们塑造了 AI 在世人眼中的模样。我们永远无法单枪匹马地构建出解决所有人问题的所有工具,这只能依靠你们。

为了表达我们的感激之情,我们带来了一个好消息。从今天起,我们将提高 Claude Code 和 Claude 平台开发者的速率限制(Rate limits),助你们一臂之力,继续为世界弥合鸿沟。具体来说,我们不仅为 Pro、Max、Team 和基于席位的 Enterprise 计划翻倍了 Claude Code 的 5 小时速率限制,还大幅提升了 Claude Opus 的 API 限制

之所以能做到这一点,是因为我们扩大了算力合作版图——我们正在与SpaceX合作,满载调用他们 Colossus 1 数据中心的全部算力。我们将把这些资源直接投资给独立开发者和小型团队。随着时间推移,我们将继续探索各种途径帮您发挥 Claude 的最大潜能,无论是现有的算力合作,还是未来更激进的押注。

感谢各位今天的到来。感谢你们与我们携手,共同定义 AI 在现实世界中的模样。感谢你们,把超能力交到了大众手中。接下来,有请我们研究产品团队的负责人 Dianne。谢谢!

Dianne Penn:谢谢 Ami。我是 Dianne,2023 年加入 Anthropic。从 Claude 2 开始,我见证了每一个模型的诞生。如果有人在数的话,我们已经把横跨 Haiku、Sonnet、Opus 和现在的 Mythos 的 18 个 Claude 版本,带给了像你们一样的用户和开发者。

我们曾绞尽脑汁,既想让 Opus 3 完美遵循 JSON 格式,又要让它成为编写长篇代码的王者。在 Sonnet 3.5 New(也就是大家现在终于习惯叫的 Sonnet 3.6)上,我们教会了 Claude 如何安全地操作计算机。到了 Sonnet 3.7,它有时候表现得稍微有些“急功近利”,于是我们找到了合适的方式将其开放给用户和开发者,让你们能摸透它的脾气。去年的这个时候,我们利用 Claude 4 在思维推演(thinking dials)和测试时算力(test-time compute)的调节上找到了完美平衡。我们从未放慢脚步。在过去的 12 个月里,我们向开发者和用户交付了 8 款前沿模型。每一代都在前一代的肩膀上跃升,让你们能写出更优雅的代码,让你们构建的产品走得比以往任何时候都远。


模型层是今天大家将听到的所有创新的底座。这是最核心的共识。随着模型智商的跃升,你们的起跑线也随之前移,你们能做到的事情将突破想象。在 Anthropic,我们常提“指数级跃升”,Ami 刚才也提到了。对我而言,它的意义在于:当模型变聪明时,你们能为用户打造的应用场景也会呈指数级爆发。比如,拥有自主规划能力的“智能体编程”,其颠覆性远远大于简单的“代码补全”。以此类推,新产品和新体验会开辟新市场,把整个蛋糕做大。

在研究团队眼里,“指数级跃升”绝不是单纯刷 SWE-bench 的跑分。它关乎于创造并追踪那些我们不刻意设计就不存在的全新能力:工具调用、接管计算机操作系统、根据问题难度自适应的思维深度;能在成百上千个步骤中不忘初心的智能体循环;以及能让 Claude 吸收全新知识的超长上下文窗口。这些能力绝不局限于写代码。今天的 Claude 已经能生成并迭代视觉设计,能分析和创建复杂的业务交付物,还能在充满不确定性的商业领域游刃有余。这都是因为底层的模型大脑变得足够聪明、足够强壮,撑起了这一切。

当你们基于 Claude 进行开发时,你们踩在那条最先创造出这些能力、并花了最长时间打磨其稳定性的模型产品线上。让我用最新发布的 Opus 4.7 给大家举个实际的例子。编码智能体公司 Amp 把他们所有的“智能模式”都迁移到了 Opus 4.7 上,因为它不仅跑分碾压全场,更重要的是,他们发现可以直接砍掉很多冗余的脚手架和工具——因为模型已经聪明到不需要这些辅助了。乐天(Rakuten)在他们的基准测试中跑了我们的模型,解决的生产环境工程任务数量达到了原来的三倍。Intuit 则发现,Opus 4.7 甚至能在规划阶段自己揪出自己的逻辑漏洞,自我纠错,回溯重演,最终交出一份执行速度更快、极其清爽的代码。

Opus 4.7 发布的第二天,我们就推出了 Anthropic 实验室的“Claude Design”,这是我今年最钟爱的项目之一。大家已经开始用 Claude Design 和 Claude Code 的组合拳来生成生产级别的 UI 界面了。这是因为 Opus 4.7 拥有极佳的视觉审美品味,懂得拿捏分寸,能在遵循你设计原则的同时呈现出绝佳的细节。在日常交流中我们也常听到,大家喜欢用 Claude,是因为它不仅能听懂你分配的任务,还能察觉出哪里不对劲,甚至敢于反问、质疑你的前提假设。

当然,身为开发者的我们心知肚明,现在的模型还是半成品,还在进化中。它们有时会被极其低级的问题绊倒,在塞入大量上下文时也会“断片儿”。但正因如此,这一切才令人兴奋,感谢你们陪我们一起走这条路。

向大家透露一点我们正在攻克的目标:首先是更高阶的判断力和更卓越的代码品味。这意味着未来的 Claude 能稳稳接住复杂的、完全自主的工程项目。其次是让人感觉深不见底的上下文窗口,配合高质量的记忆库,让模型在处理长时间轴任务时游刃有余,且越做越好。最后是多智能体协同,驱动由多个 Claude 分身组成的智能团队,协作完成那些单个实例永远无法独自消化的宏大目标。

我评估模型智商进步的一个核心维度是“任务视界(Task horizon)”——即一个模型能够脱离人类干预、自主工作并持续改进成果的时间长度。去年今日,模型只能自主工作几分钟。而现在,在座的很多人和我一样,手里的智能体经常能连续跑上好几个小时。到了明天,我们将拥有能主动出击、时刻在线、且绝对不会“迷失自我”的智能体。

作为开发者,我们该如何看待这一切?指数级跃升不会停止,所以你们在构建产品时,必须锚定“未来即将涌现的能力”,而不是局限于当下版本的 Claude 能做什么。因为新一代模型将比你我现在手里的强大得多。过去,我们得靠堆砌各种脚手架来给旧版 Claude“打补丁”;现在,脚手架的作用是去“放大”模型的智慧。过去,你得精心设计复杂的迭代循环,投喂各种工具,苦苦研究重试机制;现在,这些都可以内化为模型自身的思考与执行逻辑。你们已经能窥见未来的模样了——Opus 的预览版Mythos,就是这条指数曲线上的下一个爆点,而且跨度极其惊人。

因此,我们所有人和模型打交道的方式都需要重塑。

在 Anthropic,我们总结了以下几点:首先,为下一个版本的 Claude 做设计,而不仅仅是现在的。无数次的历史经验告诉我们,最终赢家总是那些优化了架构、随时准备拥抱下一次智力爆发的开发者,而不是那些死磕当下那点微小准确率的人。这就要求你们去建立更苛刻的评估体系,去构建那些在今天看来近乎异想天开的原型。因为只有这样,当指数级曲线悄然跃升时,你们才会第一时间察觉——嘿,那个昨天还跑不通的东西,今天突然自己跑通了!这往往是个信号:你挖到了一个能惊艳用户的宝藏。

那些把 Claude 用到极致的团队都明白一个道理:模型的升级,就是商机的爆发。他们早就搭建好了自动化评估、精简的脚手架框架,以及别人尚未察觉的、充满野心的原型系统,从而让每次升级的成本降到最低。

我们坚信,随着模型越来越聪明,在座的各位开发者将拥有极大的先发优势,去试水新场景,去创造让人尖叫的新产品,最终定义新市场,把蛋糕做大。接下来 Katelyn 和 Angela 将向你们展示的所有工具,都将让这一切从梦想变为现实。非常感谢大家!

Angela Jiang:模型的能力正呈指数级爆发,但企业的运作却依然按部就班。对于企业来说,能不能真正驾驭这条指数曲线,成为了生死攸关的考验。究竟是什么拦住了企业跟上步伐的脚步?说到底,就是两大难题。第一个难题是:拿到满意的结果(Outcomes)还是太难了。你得做大量的提示词优化、工具重构、外围工程的搭建……要让模型准确驶入你想要的轨道,依然要耗费无数心血。

Katelyn Lesse:没错。第二个难题是:你想跑得快,但又想稳稳地扩大规模。现在科技圈卷得飞起,你必须跟上节奏。但要赢,质量也得跟上。做个原型(Prototype)很容易,但在生产环境里规模化(Scale)却难如登天。我们构建 Claude 平台,就是为了给你们提供所需的一切:既能拿到出色的成果,又能兼顾速度与规模。平台上配备了专门针对 Claude 模型调优的 API 原语,为您搭建和扩展智能体系统提供了现成的基础设施,并赋予您操作这些系统的绝对控制权。

Angela Jiang:就是这样。如果回看我们经常从企业那里听到的痛点,我和 Katelyn 最常听到的就是:企业极度渴求高智商的模型,但同时必须压低成本。为了解决这个问题,我们推出了“导师策略(Advisor strategy)”。它的实现非常简单,你只需在 Messages API 中更新你的工具数组(tools array)即可。我们提供了一种分离“执行”与“指导”的智能体架构:在执行层,你可以挑一个小模型,成本很低;但当这个小模型卡壳、需要建议时,它可以直接去向大模型“请教”。

Katelyn Lesse:在实际应用中,这意味着你可以让 Haiku 或 Sonnet 级别的模型去干体力活,让 Opus 作为导师在背后坐镇。当我们运行“Sonnet 执行 + Opus 指导”的架构时,我们发现 Sonnet 的表现远超它单兵作战的时候。但更震撼的是,整个流程算下来的成本,甚至比单独跑 Sonnet 还要便宜,因为 Opus 的一语道破,让 Sonnet 少走了很多弯路。Eve Legal 就是一个绝佳的例子,他们使用了导师策略后告诉我们,他们用只有原来五分之一的成本,做出了前沿大模型级别的质量。

Angela Jiang:这太棒了。我们特别喜欢这种玩法,因为你可以把它完美应用到“免费增值(Freemium)”的商业模式中。在给用户提供免费体验时,你肯定要控制成本,但同时又不想降低体验质量。在那些并发量极大、ROI 计算极其严苛的场景里,这一招简直是杀手锏。

好,成本和效果的问题解决了,那 Katelyn 刚才提到的“速度与规模化”这对死对头呢?最近,我们推出了Claude 托管智能体(Claude Managed Agents)。这是一套将智能体运行环境与企业级基础设施完美绑定的方案。使用它,团队从原型跑通到上线生产环境,往往只需要几天时间。与我们合作的团队,在托管智能体的加持下,交付速度实打实地提升了 10 倍。

托管智能体另一个让我们引以为傲的地方,是它出厂自带了许多行业最佳实践。比如,在构建智能体时,最核心的铁律之一就是给它装上“记忆(Memory)”。这样智能体就能记住用户的偏好,在每一次交互中越来越懂你。但从头手写一个记忆系统是很痛苦的,所以这成了一个我们开箱即用的功能,而且它与 Claude 是天然适配的。同时我要向大家保证:当智能体生成记忆时,这些数据完全归你所有,你可以随时把它打包带走到任何你想去的地方。

Katelyn Lesse:Notion 就是基于托管智能体构建产品的教科书级案例。他们既要速度又要规模,所以果断选择了这套方案。他们在产品内部内置了触发 Claude 智能体的功能,去处理那些耗时长、极度复杂且需要自主运行的任务。

Angela Jiang:那个功能超酷的。今天,我们要给 Claude 托管智能体注入三项极其硬核的新特性: 我们将引入“多智能体协同(Multi-agent orchestration)”,让你能组建智能体舰队来攻克复杂难关。 我们将引入“目标导向(Outcomes)”,允许你精确定义什么是“成功”,然后 Claude 会像咬死猎物的猎犬一样,不断迭代直到达成目标。 我们还将引入“模型造梦(Dreaming)”。这个功能让我们非常兴奋——通过“造梦”,Claude 获得了自主学习的能力。它能在空闲时回顾之前的会话,反思自己漏掉了什么技能、该吸取什么教训,然后自动把这些经验刻进自己的记忆库里。与其站在这里干讲,不如我们直接给大家来个现场演示吧。Katelyn,我们开始吧。


Angela Jiang:我和 Katelyn 被今天早些时候发布的消息彻底激发了灵感。Opus 的 API 限制放宽了,我们最近又经常和某家太空公司的人混在一起。所以我们俩一拍即合,决定虚构一家我们自己的初创公司,叫 Lumara。在 Lumara,我们要做的是开发一款智能体软件,实现无人机在月球上的自动着陆。我们对速度和规模有着病态的追求,所以毫无疑问,我们要把它建在 Claude 托管智能体上。

Katelyn Lesse:没错。假设我们拿下了第一个客户,这位虚构的金主爸爸想把无人机降落在月球上,去开采虚构的矿产。这是一个庞大且野心勃勃的工程,尽管我们满怀梦想,但我俩都不是航天工程师。所以我们迫切需要一群极其硬核的智能体来帮我们干活。我们打算把刚才提到的三大新功能全融进去。我们已经为客户打了个样,现在我将用 Claude API 的命令行工具(CLI),向大家演示我们是如何配置的。

首先,活儿太重,所以我们要派多名智能体上阵。大家请看我们为客户配置的智能体阵容:第一位是“指挥官”,核心职责是大局统筹,确保任务顺利;第二位是“探测员”,负责寻矿,找出那些富含高纯度矿物的着陆点;最后是“领航员”,负责平稳驾驶无人机,确保安全触陆。

现在,我把“指挥官”设置为另外两位智能体的协调员。正如 Angela 所说,在运行过程中,指挥官会拉起一个主会话,而每个子智能体都在自己独立的线程中运行,拥有独立的上下文窗口。这是一个极其精妙的设计:我们发现,让它们独立思考,最后再将结果汇总给指挥官,能得到最棒的效果。

Angela Jiang:完美的“多智能体”运作。接下来,我们把“目标导向(Outcomes)”加进去。我们的客户对接下来的任务有极其苛刻的验收标准。我们希望客户能用最直白的方式定义这些标准,然后我们派出一个“阅卷智能体(Grader agent)”,死死盯住结果。其实,“目标导向”的配置只需要一个极其简单的 Markdown 文件。大家看这个文件,一点都不复杂,上面清晰列出了任务成功的硬指标:无人机必须软着陆;着陆点地势必须平坦;最关键的一点,必须保留足够的返程燃料,确保无人机能安全回到地球。为了将这份评分标准注入系统,我现在向会话发送一个事件,把这套标准确立为我们的“目标导向”。

Katelyn Lesse:在运行时,就像 Angela 提到的,系统在后台单独切出了一个“阅卷人”。这个阅卷智能体会在整个会话过程中冷酷地进行评估:这次的执行是否达标了?当然,系统有可能一把过(one-shot),但更大概率它需要经过几轮试错和迭代。大家看 Angela 高亮的地方,你可以自行设定允许它迭代的最大次数。

Angela Jiang:现在我们集齐了多智能体和目标导向,是时候跑一跑测试了。客户给了我们 6 个潜在着陆点的数据,让我们跑模拟看看情况。我现在切到 Lumara 的控制台界面,大家可以看到我针对这 6 个点运行了模拟。

Katelyn Lesse:成绩相当不错。这是整个系统第一次跑出来的结果。融合了多智能体架构和目标导向功能后,大家可以看到,6 个地点里它完美搞定了 4 个。但在 3 号和 4 号点位上,显然还差了点火候。作为两个合格的创始人,我们骨子里就有种想要优化系统、不断攀峰(hill climbing)的冲动。通常来说,持续优化是一个非常折磨人的过程,你得拆解大量的逻辑。但今天我们要演示,只需用“模型造梦(Dreaming)”功能,优化就是弹指一挥间的事。

Angela Jiang:昨天跑完模拟后,我们对结果不满意。于是我们进入了 Claude 开发者控制台的“造梦(Dreaming)”界面。大家看,我只需要点一下这个写着“Dream”的小按钮,选择一个记忆库。随后,一个专门负责造梦的智能体会去翻阅所有历史的模拟会话,把学到的血泪教训全部写进记忆里。这样,当我们今天再跑新会话时,系统就能直接调用这些深刻的教训了。我昨晚让它做了一场梦,这就是它昨晚沉淀下来的东西。它往记忆库里写了大量的认知,太震撼了。最核心、最关键的是,这个智能体居然主动撰写了一份“降落攻略(descent playbook)”!这意味着我们未来跑的所有任务,都能把这套攻略当作外挂来用。这份攻略里甚至包含了它从以往任务中提炼出的极具前瞻性的启发式算法(heuristics)。这是一份极其硬核的降落宝典。昨晚做完梦后,我今天早上回到 Lumara 的控制台,在升级后的系统上重新跑了一次模拟。

Katelyn Lesse:太绝了!我们不仅成功实现了系统优化(hill climb),之前表现优异的指标一点没掉,反而是那两个拖后腿的着陆点,这次表现堪称完美。而为了完成这种深度的优化,我们付出的努力仅仅是让 Angela 在控制台里点了一个叫“Dream”的按钮。

Angela Jiang:完美。让我们总结一下:今天我们在现场演示里给大家看的所有东西,都已经上线了 Claude 平台,大家现在就可以去用。“多智能体协同”、“目标导向”、“模型造梦”——这三板斧让 Claude 托管智能体(Managed Agents)变得前所未有的强大。你可以用它来搭建具有深度思考能力、能在生产环境中规模化部署的智能体系统。无论你是要在月球上全自动降落无人机,还是想打造下一个商业帝国,Claude 托管智能体都在你身边,帮你搭建业务护城河,解决那些曾经无解的难题。现在,我们把舞台交给 Cat 和 Boris,他们会告诉你,Claude Code 是如何让写代码这件事重新变得性感又好玩的。

Cat Wu:谢谢。Angela 和 Katelyn 刚刚向大家展示了,Claude 平台是如何弥合“模型能力”与“企业实际落地的智能体”之间的落差的。在 Claude Code 团队,我们也面临着一个相似的挑战:我们想要弥合“模型的极限潜能”与“每一位开发者实际能用它做到什么”之间的落差。

首先,我想对在座的所有开发者说声谢谢。感谢你们在 Sonnet 3.7 还是最强模型、当我们的产品还有些粗糙的时候,就敢把 Claude Code 接入你们的生产数据库。你们的支持,是我们团队每天像打了鸡血一样冲进办公室、拼命迭代 Claude Code 的动力。

让我们从 Claude Code 为什么存在说起。软件开发的形态正在被实时重构。Claude Code 的使命,就是替大家扫平从“一个绝妙的点子”到“把产品推向市场”之间的所有障碍。为了实现这一目标,我们打造了能榨干模型前沿算力的工具,并将它无缝递到每一位构建者的手中。我们并不觉得手里已经攥着一张画好的完美路线图去指导大家;相反,我们更像是并肩攀岩的队友,与大家一起向着无人涉足的险峰进发,在实践中摸爬滚打,探索通途。我们与你们一同成长,伴随 AI 能力的爆发一同前行,并肩跨越那些未知的挑战。

我还记得一年前,我给 Claude Code 布置一个任务后,我会死死盯着它试图修改的每一行代码。我会对每一个权限请求弹窗进行极其苛刻的审查,不厌其烦地告诉它哪里好哪里不好。我就像牵着学步孩童的手一样,一步步牵着它,直到结果符合预期。有时一个稍微复杂点的任务,我得点上 100 甚至 200 次确认,才能拿到最终成果。但现在呢?你们中的绝大多数人都挂上了“自动挡(auto mode)”。你们直接把权限下放给 Claude,自己去喝杯咖啡,等它干完一大票活、抛出一个 PR(拉取请求)的时候,再去瞅一眼。

在过去的一年里,我们大大拓宽了大家使用 Claude 的场景。我们从终端(Terminal)起步,打入了 IDE(集成开发环境),现在,我们又推出了桌面版。起初只有 CLI(命令行界面),这依然是骨灰级硬核玩家的心头好,他们喜欢极简的纯文本界面,追求绝对的控制权和自定义能力。接着我们推出了 IDE 插件,因为很多开发者希望保留强大的智能体,但同时想在编辑器里直观地追踪每一行代码的变更。最后,基于大家对更直观的可视化交互的强烈呼声,我们知道下一步该往哪走了。

我们发布了全新的载体:Claude Code 桌面版。它专为那些渴望沉浸式大屏图形界面的开发者量身定制。它内置了预览功能,你可以眼睁睁看着 Claude 把你的 App 一行行搭起来;侧边栏充当了你的“舰队控制塔”,你可以俯瞰所有的智能体;它还支持渲染图像和富文本输出。我们把桌面版设计成了一个绝对的“中控台”,不仅能管理你本地的会话,连云端远程的会话也能尽收眼底。哪个智能体卡壳了,哪个准备就绪了,一目了然。顺便说一句,无论是 IDE 插件还是桌面版,底座都是 Claude Agent SDK——这正是你们中许多人已经在用的那个 SDK。

很多企业已经让 Claude Code 的工具全员覆盖(wall-to-wall)。在我们 Anthropic 内部,这让每位工程师产出的 PR 数量暴增了 200%,同时代码质量的红线没有丝毫降低,而这还是在我们工程团队规模急剧扩张的背景下实现的。我们正与大家一起,在重新定义“软件工程”未来的模样。既然面对的是全新的挑战,我们决定用 Claude 驱动的自动化魔法去一一攻克它们。

我给大家过几招。以下是我们听取社区反馈后,与大家共同打磨出的利器。

你们反馈说,代码审查(Code Review)太耗时间了。于是我们推出了“代码审查器”。它会派出一支智能体特种部队,替你死磕那些致命的 Bug。现在成千上万家公司每天都在用它,包括我们 Anthropic 所有的内部团队。

你们反馈说,想随时随地写代码。于是我们推出了“远程控制”,并把 Claude Code 塞进了 iOS 和 Android 的 Claude App 里。灵感一来,随时随地发起任务。你再也不用端着个处于休眠边缘的笔记本在走廊里晃悠,也不用被死死钉在办公桌前。你现在完全可以去公园散个步,摸摸草地,同时代码还能继续跑。

你们反馈说,在 CI(持续集成)测试失败、处理审查意见、解决代码冲突上耗费了太多心血,简直成了 PR 的保姆。于是我们加了“自动修复(Auto-fix)”。它就像个隐形哨兵,监听这些事件,一旦有错它主动提补丁,确保你的 PR 永远是一片赏心悦目的绿色。

你们反馈说,每次有新的 Jira 工单或者客户报 Bug,你们都得手动召唤 Claude Code 去处理。于是我们想,为什么不搞个“Routines(例程)”呢?配置一次,一劳永逸。无论是监听 Webhook、API 事件,还是定时执行,它都会自动帮你把 Claude Code 唤醒。不再需要人工干预,交给 Claude 就行。

最后,你们反馈说,功能迭代太快了,连你们自己的安全团队都查不过来了。于是我们开发了“Claude Security”。它会在夜深人静时扫描你们整个代码库,一旦嗅到漏洞,自动唤醒 Claude Code 去进行修复。

所有的这些原语组合在一起,构筑了抵御未来工程风暴的城墙。我刚才提到的这一切,今天大家全都能用上。最让我感到兴奋的是,很多公司在整个组织的维度上,彻底接纳并应用了这套体系。

先说说 Shopify。他们支撑着全球数以百万计商家的电商帝国。他们把 AI 的血液注入了整个工程组织的动脉,甚至改变了公司的文化基因。在 Shopify,Claude Code 是全员标配,不仅工程师在用,设计、产品、数据科学团队也在用。他们把它直接织进了自己的平台,以惊人的规模构建内部工具。他们的应用 AI 总监 Andrew McNamara 是这么评价的:“速度简直快到离谱。Claude Code 彻底重塑了我们构建内部工具的范式。”

再看 Mercado Libre(美客多),拉美最大的电商霸主,服务上亿买家。他们有一支两万三千人的工程师大军,所有人都在用 Claude Code 运行项目。当这种规模的组织发生质变时,工作的形态就彻底变了。工程师们开始把智能体像巡航导弹一样,瞄准那些常年无人问津、根本没时间去管的陈年技术债。在人类的监督下,它已经审查了超过 50 万个 PR,翻新了超过 9000 个应用程序。他们的技术负责人 Oscar Mullin 立下了一个 Flag:在今年第三季度,实现 90%的自动化编码和全智能体驱动的 PR 循环。

在整个行业中,类似的声音不绝于耳。但我最喜欢的其实不是这组数字,而是我们在交流时发现,很多经理、甚至是 VP 级别的高管,又重新挽起袖子,亲自下场去代码库里“弄脏双手”了。Claude Code 把写代码的乐趣,重新交还给了那些过去十几年只看路线图和做审查的高管手中。这在整个行业都在发生。数以百万计的开发者正在以比过去更高的质量,交付海量的产品。

说了这么多,这玩意儿跑起来到底是什么感觉?让我们掌声有请 Claude Code 业务负责人 Boris Cherny 带大家一探究竟!

Boris Cherny:在开始演示之前,我想先掏下心窝子。今天我们展示的所有东西,对我来说依然充满着魔力感。我每天都在倒腾 Claude Code,哪怕在 Anthropic 内部,我们也经常互相甩截图,惊叹大家用 Claude 做出的各种骚操作。老实说,能和大家在这个探索的旅程中同行,我感到无比兴奋。

今天,我非常激动能再给大家展示几个硬核案例。很遗憾,我们不能所有人都去造月球无人机。所以在接下来的演示中,假设我们是 Acme Pay(一家支付基础设施公司)的工程师。我们启动 Claude 桌面版。首先从一个单线任务开始。在这个会话中,Claude 的任务是给 Acme 的商户后台添加一个“退款”功能。它正在构建一套全量的实现逻辑:包含幂等性(idempotency),防止重复的 Webhook 让商户被扣两次钱;涵盖 Acme 所有运营区域的多币种处理机制;以及为合规团队准备的审计日志。它写完了代码,现在准备自己验证自己的工作。Claude 调起了商户后台,触发了一笔退款。啊哦,界面上没有弹出成功提示(success toast)。这是一个极其隐蔽的边缘测试用例。Claude 捕捉到了这个失败,顺藤摸瓜,发现问题出在乐观更新(optimistic update)的竞态条件上。它动手修补了逻辑。在它判定任务完成之前,它甚至会在浏览器里再跑一遍验证。

现在,让我们把视角拉远。这个会话并不是在孤军奋战。它只是无数个同时并行运行、被同时管理的会话之一。在 Claude 桌面版中,你现在可以开启“上帝视角”,俯瞰你所有的 Claude Code 会话。哪个正在狂奔,哪个卡住了需要你拍板,哪个已经提了 PR 并合并完毕,尽收眼底。“盯着它一行行写代码”这种同步编码模式,将只是未来开发场景中的冰山一角。我们坚信,未来的趋势是,海量的代码将以“异步”的方式被生产出来。这就是为什么我们死磕“自主验证(verification)”的原因。如果 Claude 能自己检查自己的作业,你完全可以让它去跑,自己去干别的事,回来直接验收完美运行的成果。

就拿我个人来说,我现在大部分的代码,其实都是 Routines(例程)帮我写的。我不再亲自给 Claude 写提示词了,我的工作变成了“创建一个去给 Claude 下发提示词的 Routine”。在座的各位工程师,大家可以把它理解为“高阶函数(higher-order function)”。而 Routines,就是一种高阶提示词。就拿刚才那个“退款功能”的演示来说吧,其实是一个同事大半夜在 GitHub 上提了个 Issue。一直在后台监听代码库的 Routine 逮住了这个更新,异步唤醒了 Claude,把活儿派给了它。有了 Routines,开发者可以布下天罗地网的异步自动化机制,然后每天早上醒来,看着一堆准备好被 Merge 的 PR 喝咖啡。这就是我们的 Routines 管理界面。你可以让它定时跑,可以通过 Webhook 唤醒它,甚至可以通过随意的 API 调用去触发它。它不仅能跑在你的本地机器上,还能跑在远端云服务器上。

我们再看最后一个功能。也就是 Cat 刚才提到的“CI 自动修复”。它的任务,就是给刚才上一个会话提交的 PR 当保姆。它要一路护送这个 PR 杀进生产环境。代码审查和安全审查甩过来的修改意见?它自动修复。CI 飘红了?它自动修复。代码合并不了起冲突了?它自动 Rebase。大家看刚才发生了什么:CI 因为网络超时闪退了。Routine 秒醒,把脉发现这是个已知的基建网络抖动,直接重跑了任务,绿灯放行。说个秘密,其实在 Claude Code 自己的代码库里,我们不仅让它重试,我们还要求它每次都去顺手把根本原因给修了。这样一来,负责这个 PR 的工程师这辈子都不会看到令人窒息的红叉。这部分烂摊子,彻底从他们肩上卸下来了。

这就是范式的转变。默认的操作不再是“我要去给 Claude Code 写提示词”,而是“我要让 Claude 去给 Claude Code 写提示词”。刚才大家看到的这些,包括 Routines 和最新版的 Claude 桌面端,今天全量上线。我们已经迫不及待想看大家上手把玩,并听到你们的反馈了。我们希望这些功能,能彻底抹平你的灵感与产品上线之间的鸿沟。

今天所有的演讲,其实都在指着同一个方向。Dianne 展示的能力跃升曲线,Angela 和 Katelyn 演示的会自我评分、自我进化的智能体,以及 Cat 和我刚刚向大家秀的肌肉。这是同一个故事的三个切面。模型的能力已然降临,剩下的唯一悬念,是我们用多快的速度把它投入战场。我强烈建议大家在接下来的时间里,尽情去探索这三个层面:如果你在评估模型,去听研究团队的分享;如果你在为用户构建系统,去参加 Claude 平台的环节;如果你想把 Claude 深植于日常的开发流,就去 Claude Code 的工作坊。一头扎进去,深挖它,和我们一起构建未来吧。谢谢大家!

(投稿或寻求报道:zhanghy@csdn.net)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳夫妻囤存储芯片:5个月后身价狂涨320亿元

深圳夫妻囤存储芯片:5个月后身价狂涨320亿元

快科技
2026-05-12 11:18:38
以色列人做梦都想不到,一场战争打掉了自己未来50年的国运?

以色列人做梦都想不到,一场战争打掉了自己未来50年的国运?

小嵩
2026-04-08 16:09:20
梁靖崑婆媳同框,颜值气质不输明星

梁靖崑婆媳同框,颜值气质不输明星

陈意小可爱
2026-05-11 15:15:58
7999元起!坚果新激光投影值不值?

7999元起!坚果新激光投影值不值?

IT之家
2026-05-12 21:00:14
曼联动态:6000万中场正式同意加盟,巴萨名宿力劝买断拉什福德

曼联动态:6000万中场正式同意加盟,巴萨名宿力劝买断拉什福德

夜白侃球
2026-05-12 09:32:23
尼日尔撕毁4亿美元合同,并驱逐中方高管,我方暗藏后手漂亮反击

尼日尔撕毁4亿美元合同,并驱逐中方高管,我方暗藏后手漂亮反击

诡谲怪谈
2025-04-30 22:17:42
男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

心理观察局
2026-05-04 08:20:08
杭州一女子在“月子中心”花30万住42天,饭菜竟是炸薯条、冻鸡翅,床上爬小黑虫!女子傻眼了

杭州一女子在“月子中心”花30万住42天,饭菜竟是炸薯条、冻鸡翅,床上爬小黑虫!女子傻眼了

散文诗歌诗词悦读
2026-05-07 20:47:45
大陆不同意台湾参加世卫大会,绿营急了,绿营官员还想到大陆参会

大陆不同意台湾参加世卫大会,绿营急了,绿营官员还想到大陆参会

DS北风
2026-05-12 17:10:07
就是他了!BBC确认,穆里尼奥与皇马进行最终谈判,头号目标也是唯一目标

就是他了!BBC确认,穆里尼奥与皇马进行最终谈判,头号目标也是唯一目标

懂个球
2026-05-12 23:15:58
摊牌了!中美博弈只剩两条路:要么中国让产业,要么美国弃霸权

摊牌了!中美博弈只剩两条路:要么中国让产业,要么美国弃霸权

趣味萌宠的日常
2026-05-10 09:18:58
戒烟第13天:简直逆天了,搞懂这背后的原理,你也可以3秒戒掉

戒烟第13天:简直逆天了,搞懂这背后的原理,你也可以3秒戒掉

红中本人
2026-05-11 19:55:01
震惊!沈阳外卖小哥全款提奥迪A6引争议,评论炸锅,观点争锋相对

震惊!沈阳外卖小哥全款提奥迪A6引争议,评论炸锅,观点争锋相对

火山詩话
2026-05-10 09:52:37
老佛爷:我任内本该拿14座西甲,已做视频列出本赛季被偷的18分

老佛爷:我任内本该拿14座西甲,已做视频列出本赛季被偷的18分

懂球帝
2026-05-13 02:45:07
国际足联终于慌了!紧急推出全新方案,世界杯版权迎来重大转机

国际足联终于慌了!紧急推出全新方案,世界杯版权迎来重大转机

佳佳说奇事故事
2026-05-12 18:33:22
英如镝直播怒斥巴图:改名宋骁,半年不回私信想当大伯?

英如镝直播怒斥巴图:改名宋骁,半年不回私信想当大伯?

陈意小可爱
2026-05-12 09:28:38
不是玄学!家里若现这4大怪象,恭喜住进聚宝盆,有一条就偷着乐

不是玄学!家里若现这4大怪象,恭喜住进聚宝盆,有一条就偷着乐

手工制作阿爱
2026-05-09 01:32:24
被抓后家中查出20吨黄金,秘密移民国外?赵本山私生活谣言太离谱

被抓后家中查出20吨黄金,秘密移民国外?赵本山私生活谣言太离谱

做一个合格的吃瓜群众
2026-04-06 17:10:33
当众全裸直面镜头,她反问记者:我敢看你们,你们敢看我吗?

当众全裸直面镜头,她反问记者:我敢看你们,你们敢看我吗?

翰飞观事
2026-04-13 14:29:41
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
2026-05-13 04:35:00
AI科技大本营 incentive-icons
AI科技大本营
连接AI技术的创造者和使用者
2691文章数 7683关注度
往期回顾 全部

科技要闻

宇树发布载人变形机甲,定价390万元起

头条要闻

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

头条要闻

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

体育要闻

骑士终于玩明白了?

娱乐要闻

白鹿风波升级!掉粉20万评论区沦陷

财经要闻

利润再腰斩 京东干外卖后就没过过好日子

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

教育
房产
手机
时尚
军事航空

教育要闻

求求你试试「5+1+1」学习法!!!

房产要闻

穗八条引爆楼市!万博宝藏红盘,五一劲销出圈

手机要闻

Android推新功能“暂停点” 助用户摆脱刷手机上瘾

普通人真该学学如何穿搭!多穿裙子比裤子更时髦,大方提气质

军事要闻

知情人士披露:美国或考虑恢复对伊朗军事行动

无障碍浏览 进入关怀版