![]()
“我现在只用 Claude 指挥其他 Claude。”
整理 | 王启隆
出品丨AI 科技大本营(ID:rgznai100)
最近这一两个月,硅谷正陷入一场被称为“刷 Token(Tokenmaxxing)”的狂热中——算力已彻底取代期权和底薪,成为“第四种薪酬体系”。很多AI 巨头内部甚至设立了“token 消耗量排行榜”来挂钩生产力,逼得亚马逊等公司的部分员工不得不每天运行无效的自动化程序来刷量凑数,而单周烧掉 2100 亿个 Token、单月悄悄跑掉 15 万美元 API 账单的极端数字,更是层出不穷。
在这场技术狂飙的中心,Anthropic 的年度经常性收入(ARR)据传已从一年前的 40 亿美元暴增至450 亿美元,市场需求同比猛增了 80 倍。亲手为这场疯狂提供核心燃料的人之一,正是 Claude Code 的负责人Boris Cherny。
![]()
这位曾在 Meta(Facebook)担任首席软件工程师长达六年、深度负责过 Instagram 服务器架构扩展的技术专家,在编程界更为人熟知的身份是全球畅销书《Programming TypeScript》的作者。2024 年 11 月,Boris 却做出了一个在外人看来近乎“技术背叛”的决定:在个人工作流中彻底停用手动代码编写。如今,他所主导的 Claude Code 乃至其全线产品,自身代码已 100% 由机器自动编写与演化。
前几天,Boris 坐进了 Big Technology Podcast 的演播室,与主持人 Alex 展开了一场细致而冷静的硬核对话。
![]()
金句速览
“我不再写代码,我只指挥 Claude 去向其他 Claude 下达指令”。
“如果你教这个东西去预测下一个词,但不知何故,只要下一个词的难度足够高,模型在最底层就必须被迫学会如何深谋远虑和精密推理”。
在过去的工程时代,耗费巨大人力提升 1% 到 3% 的代码健康度便已是极限。但在 AGI 前夜,引入 Claude Code 使得 Anthropic 每个工程师编写的代码量直接暴增了 250%,且没有牺牲任何系统可靠性指标。
企业切忌过早去优化 Token 成本,而是应当给予员工犯错的安全感。如今打破行业效率天花板的,往往不再是高薪雇佣的核心技术精英,反而可能是原本没有任何编程经验、却利用智能体把自身业务自动化掉的营销人员、会计,乃至医生与电工。
以下为本次访谈的对话实录:
「AI 科技大本营读者专属福利」
免费领100小时云算力券·支持主流 AI 框架与模型部署
咖啡领取地址: https://s.csdn.cn/4nPsOp
![]()
“我以前从未见过如此陡峭的增长”
主持人:先来聊聊 Claude Code 的增长吧。它的增长规模是极其庞大的,我记得在最近的一次活动上,Anthropic 的 CEO 达里奥·阿莫代伊(Dario Amodei)提到,市场对 Anthropic 产品的需求同比暴增了 80 倍。
我还记得去年这个时候和他交谈时,他因为 Anthropic 达到了 40 亿美元的年度经常性收入(ARR)而激动不已。但现在回看,那个数字简直不值一提。目前的数字据说可能已经达到了 450 亿美元,整整翻了十倍,需求涨了 80 倍。
现在的问题是,公司的服务能力跟不跟得上这种需求。跟我们说说 Claude Code 在这庞大需求中占据了多大比重,以及你观察到的需求增长情况,还有这款产品是如何被世界上越来越多的人使用的?
Boris Cherny:我觉得,人们使用 AI 智能体(Agent)和使用 AI 的方式正在发生改变,这不仅仅体现在 Anthropic 的产品上,尤其体现在 Claude Code 上。当然,Anthropic 旗下有很多不同的产品,比如 Claude Code、Claude Chat、Claude Design、Co-work,还有 API 产品。体验 Anthropic 技术的途径有很多。但对很多人来说,Claude Code 是他们接触我们的第一扇门。
当我们最初在内部发布它时,使用量瞬间就飙升了。所以,甚至在我们将 Claude Code 向 Anthropic 之外的任何人发布之前,我们就有一种强烈的预感:这绝对会是个爆款。大概在去年五月,我们发布 Opus 4 和 Sonnet 4 的时候,增长曲线直接变成了指数级。我以前从未见过如此陡峭的增长。然后,随着去年 11 月的 Opus 4.5、今年 2 月的 4.6,再到现在的 4.7,它一次又一次地迎来拐点,指数级增长还在不断加速。
我们团队里有很多在科技行业摸爬滚打多年的老兵,大家都参与过各种超高速增长的产品。在科技圈,人们总是把“独角兽”和“超高速增长”挂在嘴边,但老实说,连我们团队的人都从未见过这样的增长阵势。所以我们现在正绞尽脑汁地想,如何才能让所有人都能继续顺畅地体验这款产品?如何才能确保我们能维持现在的增速,甚至去迎接未来可能更陡峭的增长曲线?在如何实现这一目标以及如何持续扩展服务规模方面,我们正在摸着石头过河,也学到了很多。
主持人:Anthropic AI 模型的大部分使用量都来自 API,对吧?比如一家咨询公司把它应用到银行里,银行再用它来汇总一些计算数据。与 Claude 的聊天机器人相比,API 在使用量、收入等各方面都占据了绝对的大头。今天还是这样吗?还是说 Claude Code 已经后来居上了?
Boris Cherny:现在是齐头并进的状态。对于 Anthropic 来说,C端/B端产品扮演的角色比一年前重要得多。这是毫无疑问的。产品增长正在加速,势头非常猛。同时,API 的业务也在加速,增长同样极快。对我们而言,这两条线我们都在大力投入。
我们必须成为一家产品公司,因为对于一个 AI 实验室来说,打造产品有很多重要的理由。其实在早期,这一点并不明确。在 Anthropic 成立的最早期,甚至在我加入之前,内部还在激烈辩论:我们到底该不该做产品?这真的是件有意义的事吗?事实证明,它非常有意义,不仅能抢占用户心智,更重要的是为了安全。
从根本上说,我们存在的使命是研究 AI 安全。而产品为我们提供了更好的工具来实现这一目标。同时,我们团队规模不大,世界上绝大多数的应用我们是不可能亲自去做的,对吧?这就是为什么我们还必须提供一个平台,提供托管的智能体、API 和 SDK 等各种产品,让其他人可以在此基础上进行开发,而现在也有成千上万家企业正是这么做的。
主持人:听到你用“齐头并进”来回答这个问题,挺有意思的。我猜你现在是不打算透露哪边占比更大了。
Boris Cherny:目前可能还不行。
主持人:既然你没有明确说“API 更大”——也许它确实更大,但你用了“齐头并进”这个词,这本身就说明 Anthropic 的自营产品正在经历爆炸式的增长。
现在我们已经铺垫好了背景:这是一款呈指数级增长的产品。显然,我们也看到 Anthropic 的收入随着这款产品同步呈指数级增长。这是你构思、打造并至今仍在负责的产品。
我想可能有些观众会问:“那么,Claude Code 到底是什么?”我们的大多数观众显然知道它是什么。我原本想,该怎么用一句简单的话来定义它呢?我写的是:这是一种用大白话来构建网站和软件的方式。但在来演播室的路上,我又觉得,这好像有点把它说小了。如果是你,你会怎么描述它?
Boris Cherny:我觉得这个描述其实挺精准的。
主持人:好吧,那就采纳这个说法。
Boris Cherny:我觉得,当很多人想到 AI 时,他们脑海中浮现的是聊天机器人。对于工程师来说,在大约一年半前我们开始研发 Claude Code 之前,AI 在他们眼里也就是个聊天机器人。那是当时大多数人对 AI 的认知。但我们在某个时刻意识到,模型在写代码和使用工具方面变得极其出色。而这些正是我们一直训练模型去掌握的能力。这在很长一段时间里都是我们的研究方向。大概在一年半前,这项技术开始具备了真正的商业价值。
所以在 Claude Code 上,我们下了一个赌注,彻底偏离了当时全世界写代码的传统方式。因为当时所有人写代码,本质上都是在使用一个高级的文本编辑器,而我们认为,我们能做的远不止于此,我们可以创造一种前所未有的全新模式。这绝对是一场豪赌。于是我们推出了 Claude Code。让 Claude Code 区别于当时所有聊天机器人的核心在于:Claude Code 能够使用工具。这就是最大的不同。用聊天机器人,你只是在跟它来回对话;但一个智能体(Agent),而 Claude Code 就是一个智能体,它是可以调用你的工具的,对吧?
主持人:我们能快速界定一下这里的“工具”吗?如果我理解错了请纠正我,工具可以是从使用浏览器,到登录 Cloudflare 然后在那边设置一个智能体的任何东西,对吧?所以,重点不再是这个产品本身能做什么,而是它能登录什么系统,然后结合网上五花八门的产品替你做什么。
Boris Cherny:没错。它可以连接你所有的各种工具。它能使用你的浏览器,能控制你的电脑。甚至像在桌面上编辑一个文件这么简单的事。一年半前,没有任何一款 AI 产品能真正做到这一点。但这却是 Claude Code 最先掌握的能力之一。它可以在你的桌面上编辑文件;如果你的桌面乱七八糟,它可以帮你整理归类。只要你愿意授权,Claude Code 和 Co-work 就能拥有这种访问权限。
这真的很神奇。这看似微小的差别,彻底颠覆了人们使用这款产品的方式,也完全重塑了这款产品能为你创造的价值。
主持人:我觉得如果要深挖这里的根本逻辑,那就是 AI 似乎已经从一个“超级自动补全机”进化了。因为在最底层,AI 其实就是在预测下一步是什么。如果你把机器学习应用在大型数据集上,它是在预测你是否会拖欠房贷,以及银行是否该批这笔贷款。在句子里,它是在预测下一个词。在代码里,它是在预测序列里的下一段代码,我觉得那算是第一代的 AI 产品逻辑。
但你现在谈论的是,机器在接到你的自然语言提示后,能够自己去写代码、挂载工具,然后替你把活儿干了。如果我理解错了请指正,但这里的应用场景似乎已经发生了转变:一开始是开发者接入 Claude Code 来写代码,这群人推动了产品的爆炸式增长;但随后出现了一股次生力量,那就是像我这样的非技术人员。我们也可以通过指挥 AI 智能体(也就是 Claude Code)来为自己搭建工作流软件或网站。或者,通过像 Claude Co-work 这样可能算作更易上手的“姐妹产品”来接管你的电脑,对它说:“既然你能访问我的浏览器,也知道我喜欢订什么样的航班,我几周后要去印度,帮我把机票订了吧。”
Boris Cherny:是的,完全正确。我最近刚好就用 Co-work 订了一堆机票。这个月我要飞很多地方,因为我们马上要在伦敦和东京举办“Code with Claude”活动,中途还有其他几站。我当时就跟 Co-work 沟通说:“好的,我需要在这些时间点出现在这些地方。”那是一趟包含五站的长途旅行,要飞很多城市。我告诉它:“这是大致的行程,你去翻翻我的邮件和日历,帮我核对一下,确保我没漏掉什么。”结果它查完邮件后,竟然发现我漏了两站,还有几个日期我记错了。然后我让它去订机票,接着我就去忙着敲代码工作了。一小时后我回来,它已经订好了八趟航班和五家酒店。其中有一家酒店的位置不太对,我让它重新换一家,它瞬间就搞定了。就这么简单。
其实,我每次用 Co-work 和 Claude Code 都会做这类测试。我有一些自己常用的测试用例,随着模型的升级,我会用不同的模型反复测试这些常见任务。这是我迄今为止得到的最完美的结果。当 Co-work 结合了 Opus 4.7 模型,它在处理这类任务时展现出了一种难以言喻的魔力。
我觉得对我来说最困难的一点是,随着模型的不断进化,你必须不断重塑自己对它能力的预期。如果你去问一年前用过该模型的人,尤其是工程师,他们可能会说:“哦,它写代码不太行,我不敢让它一次写超过几行代码。”因为一年前的模型确实就是那个水平,它还不够强大。但如果你把时间快进到今天,让这些人坐下来试试新模型——现在越来越多的工程师正在这么做——那完全是截然不同的体验。它的能力已经发生了翻天覆地的变化。
我觉得这是我用过的第一项每个月都能在能力上实现阶跃式突破的技术。作为这项技术的用户,其实是很有挑战性的,因为你必须不断重新学习、不断重新尝试。你必须始终保持“空杯心态”,带着新手的眼光去重新审视这项技术,让它去尝试以前它做不好的事情,因为下一个版本的模型可能就能完美搞定了,对吧?
![]()
从引进工具到生产力提升的鸿沟
主持人:所以我觉得这就是你所描绘的愿景:以前你使用技术时,你是受制于软件界面的。软件公司为了规模化而设计产品,结果就是你得到了一堆对你可能毫无用处的功能。即使你很清楚自己想要什么,每次预订东西时还是得在那些花里胡哨的界面里绕来绕去,而且网站也不会记住你的偏好。
现在范式转变了。你拥有了一个智能体,它能主动出击替你办事,并能按照你的心意重塑你的在线体验。我认为这就是人们如此狂热的原因,也是你们产品爆炸式增长的根源。
但现在,我想给这个论点做个压力测试,提出一些让我感到好奇的问题:这里面到底有多少是真实的刚需,又有多少只是大家对潜力的盲目狂热,或许我们该面对一下现实。
第一个问题是,现在的需求确实极其庞大,但问题是,这里面有多少是纯粹的真实需求,又有多少是被“游戏化”催生出来的虚假繁荣?在硅谷内外,现在流行一种叫做“刷 Token(Token maxing)”的做法。我确信你听说过。就是公司下达指令,要求员工尽可能多地运行 AI 智能体来消耗大量的 AI Token。然后,那些消耗 Token 最多的员工会在排行榜上获得奖励,或者以此来完成公司规定的“AI 交互指标”(而非实际的物理工作指标)。所以,我想听听你对“刷 Token”现象的看法,你觉得这在你们产品的总使用量中占了很大比例吗?
Boris Cherny:嗯,我不认为“刷 Token”占了很大的比例。我的看法是这样的,在加入 Anthropic 之前,我曾在一家大型科技公司工作,也就是 Facebook(Meta)。
主持人:那可正是目前在搞“刷 Token”的公司之一啊。
Boris Cherny:没错,没错。当时我的职责之一,就是负责 Meta 旗下所有应用(比如 Facebook、Instagram、WhatsApp)的代码健康度。我们之所以关注代码健康度(本质上就是代码质量),是因为如果代码质量极高,工程师的生产力就会提升。我们有一个庞大的团队专门致力于提升生产力。
在大模型出现之前,在 Claude 出现之前,你可能要辛苦工作很长一段时间,才能在一年内看到每个工程师的生产力提高个 1%、2% 或 3%。那在当时已经算是相当大的进步了,而且来之不易。你基本上得尝试无数个想法,最终才能找到某个能像这样稍微提升生产力的方法。
而 Claude 带来的是什么呢?现在许多公司,包括 Anthropic 自身以及我们最大的客户,都在报告高达百分之几百的生产力提升。我记得我们最近公布的一个数据是:自从引入 Claude Code 以来,Anthropic 每个工程师编写的代码量增长了大约 250%。而且这是在保持代码质量、可靠性等指标不下降的前提下实现的。在没有牺牲这些质量指标的情况下,代码的产出量实现了暴增。
所以,这种级别的生产力冲击,我认为是前所未见的。很多公司都在试图弄清楚:我们该如何获得这种红利?很多公司已经尝到了甜头,而另一些还在摸索。我的建议几乎总是一致的。
第一点,直接给所有人分配 Token,让大家放手去实验。我未必推荐搞“刷 Token”竞赛,但我绝对建议让大家自由探索,不要让他们每消耗一个 Token 都得去申请批准。
第二点,给员工提供心理安全感。因为当人们在进行创新、打造能让自己更高效的工具时,他们实际上是在改变自己的工作流程。他们会尝试一堆想法,有些可能会失败,有些则会成功。所以你要给予员工这种心理安全感,让他们觉得尝试新事物、探索新流程是完全没问题的。
然后,很多公司都会发现一个现象:生产力的飞跃和创新,往往并非来自你预期的那些人。在过去,每个人都能指出来:“这些是我手下最高效的工程师。”但如今,很多突破性的改进往往来自你绝对意想不到的人。可能是在你组织某个角落里的会计,用一种工程师绝对想不到的方式实现了会计工作的自动化。可能是某个营销人员,用你闻所未闻的方式自动化了营销流程。也可能是个刚毕业的软件工程师,随手就做出了一个惊艳的东西。这在以前是根本不可能发生的。
挑战在于,你无法提前锁定这些创新者,你不知道他们是谁,而且结果几乎总是会让你大跌眼镜。所以你该做的就是:让大家去实验,给他们安全感。只有当某种应用场景真正能够规模化时,你再去考虑如何优化它。但千万不要过早地去优化。所以,我不知道以竞争的方式来推动(刷 Token)是否符合某些公司的文化,如果是,那挺好;如果对其他公司来说,他们更愿意通过创造安全感和空间来让工程师自由探索(这正是我们在 Anthropic 的做法),那我觉得也非常棒。这完全取决于公司本身。
主持人:是的。坦白说,我个人就消耗了大量的 Token。我整天都在用这些工具。我觉得 Claude Code 和 Claude Co-work 对我的业务帮助极大。我是一个“超级个体”,虽然这么说有点低估了我的团队,因为我背后有一群人主要以兼职的形式在帮我,但那是另一个话题了。
但我确实会好奇,当我读到这些新闻时,大型企业在这些预算和激励机制中占据了很大比重。(就像我节目一开始问的,这事到底可不可持续?)在某些地方,这种激励机制已经变味了。这是最近《金融时报》的一篇报道:“亚马逊员工使用 AI 工具处理不必要的任务,以夸大使用量得分。
部分员工表示,同事们正利用该软件自动执行额外且不必要的 AI 活动,以增加他们的 Token 消耗量。他们表示,此举反映了在亚马逊出台‘要求超过 80% 的开发者每周必须使用 AI’的指标后,员工面临着采用该技术的巨大压力。”
我跟一位亚马逊员工核实了这件事。他们说:“没错,就是这么回事。”他们告诉我:“我每天都会触发一个运行好几个小时的自动化程序,然后每天再把它删掉,就为了凑够这些指标。”
所以,你刚才说你不认为这种“刷 Token”现象是需求的主要部分。但在你那边,有没有看到什么数据或迹象能表明,这只是个例,而不是大多数地方的普遍现象?
Boris Cherny:这个嘛……我确实不知道有多少公司在搞这种“刷 Token”的操作。我只是略有耳闻,说这是一种趋势。如果你看看 Claude Code 的客户群体,我们拥有海量的客户。所以,绝对不存在“某一家公司撑起了整个使用量”这种情况。完全不是那样。
我想稍微退一步,思考一下这种变革到底是如何发生的?因为我觉得这些公司想要实现的目标——我不想替他们发言,我建议你直接去问他们——但我认为他们试图实现的,很可能是组织变革和业务流程的重塑。你如何让你的公司从 AI 中获益?这通常是很模糊的。它高度依赖于公司本身,因为每家公司都有不同的业务、不同的文化、不同的组织架构和不同的行事风格。
90 年代有一篇《哈佛商业评论》的老文章,我特别喜欢,标题我忘了,大概意思是“电脑都普及了,为什么没人看到生产力的提升?”这在当时是个大问题,对吧?对我们现在来说,电脑能提高生产力是极其显然的常识。但在 90 年代,这并不明显。当时发生的情况是,个人电脑正在被广泛采用,它们正在取代大型机,而且价格变得亲民。所以普通公司和初创企业都能买得起,你不再需要花几百万美元去买一台大型机了。
但当时存在一个挑战和悖论:公司虽然引进了电脑,却并没有看到生产力的提升。到底怎么回事?那篇《哈佛商业评论》的文章提出,为了真正从电脑中获益,你必须围绕电脑重构你整个的业务流程。电脑必须处于你运作方式的核心。如果你依然保留着纸质的文件柜,抽屉里塞满了各种资料,依然依赖纸笔和物理流程,而电脑只是被边缘化地摆在角落里,那你绝对无法从中获益。但如果你扔掉文件柜,清空装满纸张的办公桌抽屉,把电脑放在核心位置,并以此作为所有业务流程的运转中枢,那你就能真正获益。
当时的企业因此分化成了两派。一些公司经历了这种相当痛苦的转型,并从中获得了巨大的回报;而另一些则没有。我觉得现在的情况如出一辙。许多公司都在摸索如何从 AI 的生产力飞跃中分一杯羹,大家都在进行大量的实验,尝试各种不同的方法来寻找破局之道。我不认为存在唯一正确的标准答案。
![]()
“Claude Code 已经 100% 由 Claude Code 自己编写了”
主持人:当我们看到像 Claude Code 和 Anthropic 这样以如此惊人的速度狂飙猛进时,把这些问题摊开来聊一聊,听听你的观点,是非常有益的。好,关于“刷 Token”的话题就聊到这。
现在我们知道,Token 当然就是模型的输出,比如模型输出的单词或词根,以及输入进去的单词和词根,对吧?而这些公司正是据此来收费的,你消耗得越多,需要的数据中心就越庞大,等等。
随着这些模型变得越来越强大,我这么跟你说吧,有时我会怀疑它们是否达到了应有的效率。这些庞大的模型有时为了完成一个任务,即使最终输出的结果很好,也会消耗极多的 Token。人们就会纳闷:这会不会是在变相推高 Token 的消耗量?明明可以是一个非常简单的过程,模型却浪费了无数个 Token,没有以最高效的方式达成目标?
我给你举个例子。我一直在用 Claude Co-work 制作 PPT。它在这方面非常在行。我一直用的是 Opus 4.7 模型。有几次我跟它说:“行了,你做完了,把它导出成 PDF 发给我吧。”结果它就像突然失控了一样。它开始疯狂循环,调用它能用的一切工具,但就是死活导不出那个 PDF。最后我只能不停地提醒它:“不对,你正在做这个 PPT,你知道文件在哪,直接发给我!”然后它才恍然大悟说:“非常抱歉。我刚才钻牛角尖了,纠结于一个其实根本不影响我们的限制条件。文件在这里。”然后它才把文件发出来。
我的意思是,你能谈谈这些模型的效率问题吗?考虑到我们看到的这种爆炸式增长,大家担心其中一部分增长是 Opus 4.7 这种模型在执行基础任务时陷入“死循环”所带来的,这种担忧合理吗?
Boris Cherny:嗯,通常我们在考量模型时,会从几个不同的维度来看。一个是它有多聪明(智能水平),另一个是它有多快(速度),还有一个是它有多高效(效率)。我们通常致力于让这三者齐头并进。但在这三者之中,我认为我们应该首要优化的是智能水平。这是最核心的。所以,即使它稍微牺牲了一点效率,但如果它变得更聪明、能帮你做更多事情,那也是极具价值的。因为效率的优化是后一步的事。我们必须先让它变聪明,然后再让它变高效。这是一个循序渐进的过程。
我们一直在进行大量实验,探索究竟该如何把这种控制权交到用户手里,因为我们并不总是知道最合适的默认设置是什么。有时候在实际使用中,你比我们更清楚怎么选。所以我们提供的一种机制是让你选择模型,比如你可以选 Opus、Sonnet 或者是 Haiku。
主持人:没错。
Boris Cherny:没错,这代表了模型的不同体量,对吧?除此之外,我们还在测试另一种机制,叫做“投入度(Effort)”。Opus 是最大的,Sonnet 居中,Haiku 最小。而“投入度”这个词的字面意思非常直观,就是你希望模型在这个任务上投入多少精力。你可以自己设置。我们有一个推荐的投入度。比如,为了最大化发挥 Opus 4.7 的智能,你应该选择“超高(extra high)”或“最高(maximum)”投入度。但如果你想节省 Token,你可以选择“中等(medium)”或“较低(low)”投入度。这是完全掌握在你手中的控制权。
主持人:是的,我最近在节目里聊过这个话题,当时有位听众留言,我原本认为这些更大的模型总会找到办法变得更高效,比如解决导出 PDF 的问题。但那位听众留言说:“Alex,他们解决不了像 PDF 这种问题的。这是大语言模型(LLM)技术固有的缺陷,这也是阻碍智能体 AI(Agentic AI)实现真正有用和广泛普及的最大障碍。”
我想试着翻译一下他的意思。他想表达的是,我们之前讨论过预测机制,这一切都是基于概率的。它本质上是在预测下一个词。你永远无法从 AI 智能体那里得到两次完全相同的答案。因此,诸如死循环这类问题,是它们工作原理中自带的特性,是无法被修复的。你怎么看?
Boris Cherny:不,我认为这种说法不对。当你思考……好吧,让我们把视角稍微拉远一点。工程师是最早的“吃螃蟹的人”,对吧?一年半前,工程师们就开始使用 Claude Code 了,那时候非技术人员还没有真正意义上开始使用智能体。那是在 Co-work 等产品问世之前。
回想一年半前的 Claude Code,它其实并不怎么好用。我可以用它写一点点代码,但如果我真的放手让它去构建一个完整的功能或整个产品,结果肯定惨不忍睹。它也会犯同样的毛病,比如陷入死循环,代码质量堪忧,或者就算写出来了也不能运行。
但在某个节点,它突然就开始进化了。随着模型的改进和 Claude Code 的迭代,结果变得越来越好。快进到今天,Claude Code 已经 100% 由 Claude Code 自己编写了。Co-work 也是 100% 由 Claude Code 编写的。在 Anthropic 的全线产品中,越来越多的功能完全是由 Claude Code 写出来的。
这也是我们从客户那里听到的反馈。昨天我在创业孵化器 Y Combinator 做了一场演讲,我当时让在场的观众举手。在场的人都在用 Claude Code,我问他们:“如果你们今天 100% 的代码都是用 Claude Code 写的,请举手。”大约有一半的人举起了手。然后我问:“如果你们没有任何代码是用 AI 写的,请举手。”全场大概只有一只手举了起来。那可是一个一百多人的房间啊。
主持人:敬那位头铁的勇士。
Boris Cherny:显然,这种纯手工编码依然有其生存空间。而其他所有人则介于两者之间。他们的大部分代码是用 Claude Code 写的,但不是全部。这就是该模型如今所达到的高度。一年前它还远达不到这个水平,一年前它还不足以胜任这些工作。
所以,这正是你现在在 Co-work 上看到的演进过程。它还处于早期阶段,我们几个月前才刚刚发布。随着产品打磨和模型升级,它会不断变得更强。但这只是万里长征的第一步。我认为,今天每一个使用 Co-work 的人,甚至每一个使用 AI 的人,都依然是早期采用者。世界上有那么多人,绝大多数人还没有真正意义上体验过 AI。所以,我们还有极其广阔的提升空间。
主持人:是的,6 月 18 日我们要在旧金山举办一场活动,里面很多营销物料我都是用 Co-work 赶出来的。当然,我会来回调整。我不会让它一次成型,我会仔细审查它的文案。但我会做一些操作,比如上传我们播客的下载数据来展示节目的增长势头,然后把演讲嘉宾的名字给它。它在处理这些时简直神了:“正在生成招商书。这是活动内容。这是受众画像。这是演讲嘉宾。这是你必须参加的理由。这是联系方式。”简直疯狂,写得太好了。
Boris Cherny:当你第一次使用它,第一次亲眼看着智能体操控你的工具时,你是什么感觉?
主持人:怎么说呢,显然我已经把所有权限都给它开了。我觉得很多人都有过类似的体验:比如有一个 Claude 的浏览器插件,你意识到只有让 Claude 接管你的浏览器并替你操作,你才能获得最大(或者说绝大部分)的便利。那种体验,几乎跟我第一次坐 Waymo(无人驾驶汽车)时一模一样。在前几个转弯时,我紧张得指关节发白,死死盯着,心里盘算着“我该同意它的操作吗?”,仔细阅读屏幕上的每一个字。然后你开始慢慢信任它,你就不停地点“同意、同意、同意”,对吧?坐 Waymo 也是一样,你心想:“好吧,看来这玩意儿不会要了我的命。”五分钟后,AI 在替你开车,而你已经在低头玩手机了。这就是我使用 Code 和 Co-work 的真实体验。这符合你们的观察吗?
Boris Cherny:确实,这也是我自己的体验。我觉得它就像任何一项新技术一样。我最近观察了一位朋友学习使用 Co-work 的过程,她不是工程师。前几天她遇到个问题,笔记本电脑上的语言输入法切换出了点故障,她怎么也搞不定。如果放在以前,她肯定会去求助谷歌:“嘿,我的电脑出了个问题,怎么修?”但这次她直接问了 Co-work。Co-work 回复说:“好的,我来看看。我能使用你的电脑吗?”她说可以,于是 Co-work 接管了电脑。屏幕泛起一阵橙色的光晕,你可以眼睁睁地看着 Co-work 打开设置,检查语言选择器到底出了什么毛病,进行诊断,然后把它修好。你依然坐在驾驶位上,你能看到这一切的发生,你可以监控它。它不是在后台偷偷摸摸进行的。
但这真的太神奇了。换作是我,我的第一反应依然是打开谷歌。所以很有趣,对她来说,她已经习惯向 Co-work 求助了。这其实是我经常有的一种感触。我觉得,对于那些伴随着这些产品一路成长、见证了早期版本的人来说,他们的想象力可能不够大胆。但对于那些第一次接触这些产品的新手,我经常看到他们把 Claude Code 和 Co-work 用在一些我连做梦都想不到的地方。这简直太惊艳了,充满了创造力。我每次看到都能学到很多。
![]()
“大多数晚上,我会同时运行数百个 Claude”
主持人:是的。但如果要说现在的最大痛点,我认为(我也看到你在 X 上回复过别人这个问题)那就是速率限制(Rate limits)。当我看到有人说:“我试过 Claude Code 了,但我大概不会再用了。”通常是因为他们耗尽了 Token 额度,这东西只能让他们爽一个小时。然后他们必须苦等四个小时才能再次使用,于是他们就开始寻找替代品。
你认为速率限制对你们产品的增长造成了怎样的阻碍?如果你们有计划的话,打算如何解决这个问题,让人们不再受制于这些限制?
Boris Cherny:这个……这正是我们正在积极解决的问题。事实情况是,真正触及速率限制的人其实只占极小一部分,这挺让人惊讶的。Pro 用户的触顶比例稍微高一点,但 Max 用户的触顶率其实非常低。我觉得你提到的大家抱怨的情况,主要是由于两件事。一是我们确实曾短暂下调过峰值速率限制,但现在已经回调了,而且我们实际上把速率限制翻了一倍,所以我们现在给了用户更多的额度。但确实有那么一小段时间,我们降低了额度,所以人们撞上了这堵墙。
第二个原因是,Claude Code 的扩展性其实非常强。所以人们可以使用各种插件和集成工具。但其中一些工具在消耗 Token 时效率极低。所以我们一直在努力做的一件事,就是把这些消耗情况透明地展示给你。这样用户就可以自己决定,到底要不要用这个插件?你可以清楚地看到你的 Token 有多大比例是被它吃掉的。
我认为第三个原因是,越来越多的人正在进化为“超级用户”。刚发布 Claude Code 时,大家一次只运行一个 Claude。而现在,在我的电脑上,我可能同时运行五个。而且大多数晚上,我会同时运行数百个 Claude,全部并行工作。是的,几百个,有时候甚至是几千个。这在一年半前是我根本无法想象的。显然,这会消耗海量的 Token。很多人正在探索出这种极其消耗 Token 的新工作流。这基本已经摸到了 Max 计划的极限了。这也是为什么你也可以直接通过 API 计费来使用。如果你就是需要无限量的 Token,你完全可以走 API。很多企业就是这么干的。
主持人:就在不久前,我非常确定,Anthropic 的 CEO 达里奥在暗指 OpenAI 时,谈到了数据中心建设的开销,他后来也公开谈论过这个。他说:“我在数据中心的开销上努力保持克制(虽然依然在斥资数十亿美元建设数据中心以支持你说的这些功能),但其他人(我们认为他指的是 OpenAI)却在 ‘YOLO’(You Only Live Once,意为不顾一切地砸钱狂奔)。”
但现在,OpenAI 也推出了 Codex,你也可以说他们在 YOLO,但他们确实建立起了庞大的数据中心产能。你怎么看这个问题?因为当用户真的撞上速率限制这堵墙时,他们可能转头就去用 Codex 了。竞争可是非常惨烈的。
所以你是怎么想的?Anthropic 内部又是怎么看待这个问题的?毕竟从外界看来,你们在数据中心建设上的这种“克制”,可能会导致你们在这场最重要的产品争夺战中流失用户。
Boris Cherny:嗯。首先,我们的增长速度达到了前所未有的巅峰。Claude Code 的增长正在不断加速。而且我认为,正因为绝大多数人其实很少会触及速率限制,所以这并没有构成一个巨大的危机。对于那些真正受到限制的用户,我们正全神贯注地改善他们的体验。所以我们将 500 的速率限制翻了一倍。我们今天还要宣布,我们将提高每周的速率限制。当然,我们还宣布启用了由马斯克提供的全新 Colossus 超级计算机产能,正是为了服务这些海量涌入的新用户。
主持人:借马斯克之手。
Boris Cherny:借埃隆之手,是的。因为这种增长简直……根本没人能预测到。这远远超出了我们最疯狂的预测。所以对我们来说,最重要的是我们必须服务好我们的用户。我们要确保用户获得极致的体验。我们正在倾尽全力来实现这一目标。
主持人:Codex 的出现让你感到惊讶吗?你如何看待这个竞争对手?
Boris Cherny:我觉得市场上永远不缺模仿者,永远不缺竞争对手。对我来说,这是一种变相的赞美,它只会逼着所有人做得更好。所以,我最关心的,就是尽我们所能,把服务用户这件事做到极致。我们鼓励团队里的每一个人每天都去和用户交流,每天都把产品打磨得更好一点点。这才是我的心之所属。
我们刚才稍微提到了这一点,但我认为我们应该重点强调一下,这项技术的影响力将远远超越聊天机器人。我们聊了订机票,我聊了做营销 PPT。而就在我们录制节目的这周,你们又推出了一个小企业场景的新应用,Claude Co-work 现在可以接管 QuickBooks 并替你做账了。这最终会走向何方?我是说,你认为大方向的路线图,最终会把你们引向哪里?
Boris Cherny:对于 Claude Code 和 Co-work,我们目前在构思几个大方向。第一个主题是提升智能水平。我认为这几乎完全取决于模型本身。随着模型的进化,我们可以承担越来越宏大的任务。在编程领域,过去是一次写一行代码,现在是构建完整的功能甚至整个产品。对于 Co-work 来说,它刚起步不久,最初只能帮你写个文档,现在已经能订机票、串联多种工具、甚至帮你做 QuickBooks 账目了。这个前沿边界正在以极快的速度不断推进。
我们也在思考如何让 Claude Code 执行更长时间的任务。我们最近上线了一个叫“自动模式(Auto mode)”的功能。自动模式本质上是为了取代那些烦人的“权限确认弹窗”。以前,每当模型想使用一个工具时,Claude 都会问你:“我可以使用这个工具吗?”通常你都会点“是”,点多了你就会对这种机械的确认感到厌烦。
主持人:“始终允许”。大家最后都会去点那个按钮。
Boris Cherny:没错,没错。但从安全角度来看,你在授权时保持深思熟虑其实极其重要。我们意识到,由于我们给用户弹出了太多这样的对话框,他们不仅没有深思熟虑,反而产生了“弹窗疲劳”,于是他们就开始无脑点“是”或“始终允许”。而“自动模式”就是我们的解法。这是一种全新的工具调用路由方式。
它的运作原理是:每当 Claude 想使用一个工具时,它会去问另一个 Claude:“使用这个工具安全吗?”正在干活的那个 Claude 只掌握了部分上下文,并不了解全貌。此外,我们还设置了多层安全护栏。我们花了几个月的时间反复打磨,以确保它的绝对安全。我们使用了数千种不同的基准测试和评估手段来验证其安全性。最终我们发现,无论是在实验室环境中,还是现在在真实世界里,这种模式都比我们以前的做法更安全。
所以,对用户来说,这是一个极大的福音,因为你再也不用傻坐在那里一遍遍地点“是”了。而且实际上,结果也更安全了。因为如果在一长串 Claude 请求你执行的指令中,暗藏着一个危险指令,你可能一不留神就点“是”放行了。但如果你使用自动模式去问第二个 Claude,它是绝对不会放行的。所以,这是一个重大的投入方向。
第三大的方向,大概就是并行运行更多的 Claude。关于 Claude,有一件非常酷的事(这也是我们在 Claude Code 早期用户身上就开始观察到的现象),那就是现在很少有人一次只运行一个 Claude Code 了。大多数人都会同时跑好几个,少则几个,多则成千上万个。在 Co-work 上,我们也开始看到同样的趋势。当你越来越放心地让 Co-work 自主运行时,你会启动一个任务,然后再启动第二个任务,然后你去忙别的,你只是在并行处理更多的事情。我认为,在这个领域有巨大的空间去优化体验,让这种多线程操作对用户来说变得更加直观。比如,你该如何操作?什么时候该这么做?对吧?
主持人:这大概也会延伸到我们使用聊天机器人的方式上,对吧?有趣的是,Anthropic 过去跟聊天机器人的关系一直挺微妙的。一开始是技术优先,然后决定做个聊天机器人,发布了 Claude,接着就把重心转向了企业级服务。你看以前的那些数据图表,Claude 总是垫底的。
但现在,你看到 Claude 的使用量正在飙升。我有一个想法,想听听你的意见:聊天机器人的未来,不再是“我问你答”的模式,而是我向你提出一个问题或倾诉一个烦恼,然后聊天机器人会主动建议它可以替我采取什么行动。比如现在我一直在念叨去印度的旅行,我猜未来我得到的反馈会像你刚才说的那样,不再需要我去自己操作订票这个中间步骤,一个更主动的聊天机器人会直接说:“好的,交给我来处理吧。”大方向是这样吗?我的思路对吗?
Boris Cherny:我能预见那样的未来。确实会是这样。
主持人:你们正在研发这个吗?
Boris Cherny:智能体就是未来,我们正在尝试各种不同的实验。我们确实在做一些类似方向的探索。是的。
![]()
“我不写代码了,我只负责给 Claude 写提示词”
主持人:好的。但这些工具的能力终归是有极限的,对吧?人们在谈论“同时并行成千上万个 Claude”的局限性时,有一个很幽默的角度,那就是看看 Anthropic 正在招什么人。
我在 Anthropic 官网上最喜欢的一条招聘启事是:你们在招 Salesforce 管理员。你们还在招募顾问,去帮助企业部署这项技术。很多人将此视为一种心照不宣的承认:这玩意儿的能力也就到这儿了。沃顿商学院的教授伊森·莫利克(Ethan Mollick)是这么说的:“当这些 AI 实验室解散了他们新成立的咨询团队时,你就会知道他们是真的相信 ‘超级人工智能(ASI)’ 要来了。只要还需要人类去弄清楚 AI 有什么用,还需要人类去搞组织变革和系统集成,那人类的饭碗看起来就还挺稳的。”你怎么看?
Boris Cherny:嗯。如果你看看我目前在做的工程工作,我不写代码了。我只负责给 Claude 写提示词。其实,我现在主要做的是,用一个 Claude 去向其他 Claude 下达指令。所以我甚至都不直接和 Claude 对话了,我有个专属的 Claude 在替我和我的 Claude 们沟通。在工程领域,你已经看到一个个体的杠杆率(Leverage)正在发生爆炸式的增长。关键在于一个人能建立多大的业务?一个工程师能支撑多少个产品?在 Anthropic,现在一个工程师所拥有的杠杆率简直令人咋舌。
我认为我们开始在其他领域也看到了同样的现象。我们看到营销人员正在用 Claude 做事;我们也看到前线部署工程师正在用 Claude Code 来构建实施方案;我们还看到了我们的销售团队——在 Anthropic,大概一半的商业化团队在用 Claude Code,另一半在用 Co-work。我觉得每个人都在用这些产品。
所以我们看到的是,尽管个人的杠杆率在飙升,但我们的瓶颈依然是招不到足够多的优秀人才。因为需求实在太疯狂了,有太多太多的东西需要去构建。所以,即便每个人能产出百倍的效能,人才依然是我们最大的瓶颈。
主持人:但我想说,如果有人反驳说,既然这东西这么强大,你大可以对它说:“去看看我的销售团队是怎么运作的,然后用一个提示词把 Salesforce 给我配置好。”人们常举的另一个例子是:“如果 Anthropic 敢让 AI 去处理 IPO 的文书工作,而不是去雇一家投资银行,那我就相信 Anthropic 真的拥有非常强大的 AI。”这些测试标准对你们来说公平吗?
Boris Cherny:呃,我们确实开始看到一些苗头……我们团队里有个人一直在用 Claude 报税。我未必推荐大家这么干,但我承认,我也把我的税务数据扔给 Claude 算过,然后跟我会计师算出来的结果对比了一下,两者非常接近。
主持人:是的,我也干过这事。各位听众,这不是鼓励你们这么做,但这确实是个很有趣的应用场景。
Boris Cherny:没错。但我认为人们在讨论这个问题时,从根本上忽略了一点:最终,总得有一个人去跟 Claude 沟通,要求 Claude 去做这件事。所以,即使 Salesforce 是自动配置好的,即使不是一个人在手忙脚乱地点各种按钮,而是 Claude 在干活,也必须得有人去给 Claude 下达这个指令。如果你需要把 Salesforce 配置成各种复杂的模式,那么“要求 Claude 去做这件事”本身,可能就会变成一份全职工作。当然,在某个时刻,Claude 会变得非常擅长“要求 Claude 去做这件事”。而那个人将变成“要求那个去要求 Claude 做事的 Claude”的人。这条指令链会变得越来越深。但归根结底,你依然需要人类来掌舵。
主持人:但也许在未来,他们的工作就只剩下问一个问题了。
Boris Cherny:是的。但想象一下,能够问出那个正确的问题,这背后蕴含着多么恐怖的杠杆率。
主持人:确实如此。说到点子上了。既然我们聊到了 Salesforce,那我们就不得不聊聊所谓的“SaaS 末日(SaaS apocalypse)”了。随着自动化编程越来越普及,对于哪些软件公司能安然无恙,哪些可能会陷入危机,你有一些非常有趣的观点。你之前谈论过存在的各种不同的“护城河”,以及哪些护城河更重要,哪些变得不那么重要了。趁着我们在聊这个,你能简单分享一下吗?
Boris Cherny:商业领域有一个非常好的分析护城河的框架,叫做“七种力量(Seven Powers)”。这种框架有很多,但这是我最喜欢的一个。我大学其实是学经济学的,没学计算机科学。所以我现在的思维方式,依然是习惯用这些框架来思考问题。
商业中有很多种不同的护城河。有些公司只有一条,有些公司则有多条,就像拥有一个护城河投资组合。比如“规模经济”:随着生产规模的扩大,规模报酬会递增。另一个是“网络效应”:比如像通讯应用,用的人越多,它对每个人的价值就越大。还有“转换成本”,还有“流程优势”等等。
我认为大多数护城河依然会发挥作用,但在未来一年里,它们的相对重要性会发生变化,有些会升值,有些会贬值。我认为会升值的一个护城河是“网络效应”。因为无论代码是谁写的,无论你产品的核心是一个智能体还是别的什么,也无论你的产品里有没有 AI 智能,只要你的产品具备网络效应,它就依然坚不可摧。
而有些护城河则会变得不那么重要。例如“转换成本”。因为如果你想把供应商从 A 换到 B,你只需让 Claude 帮你搞定就行了。而且随着时间的推移,Claude 在这方面会越来越得心应手。所以作为一家公司,你应该思考的是:你的护城河到底是什么?我认为那些最顶级的巨头公司,通常都拥有多条护城河。这绝不是靠单一优势撑起来的。你之所以能达到那种规模,能建立起一个长期坚不可摧的商业帝国,靠的是不断积累这些护城河。你需要很多条。但总之,我会去思考在这里面,什么会变得更有价值,什么会贬值。
主持人:但我觉得,当你审视这些五花八门的软件公司时,如果你正在使用像 Claude Code 这样的工具,是不是几乎所有的护城河都会消融殆尽?因为你完全可以只待在这一个应用里,由它去对接所有的软件,这意味着到最后,其实只剩下了一家软件公司?
Boris Cherny:嗯。我的意思是,未来的演变路径有很多种。你说的这种情况是有可能的,但我感觉有点遥远。因为,打个比方,假设我在用一款聊天软件,我怎么决定用哪款?肯定是我的朋友们在哪款上,我能联系到谁,我就用哪款。所以,即便我能为自己量身定制一款极其完美的聊天应用(这在今天我已经能做到了,我用 Claude Code 几个小时就能写出一个超棒的聊天应用),它依然毫无用处,因为我没法用它跟我的朋友聊天。
主持人:但这正是我想举的例子。完全正确。你可以核实一下我说的对不对:你的聊天应用里会有一个智能体,当你的朋友给你发消息时,它会通知你。我知道你经常在 iPhone 上用 Claude Code,对吧?所以你只会看到通知,然后你直接回复就行了。只要那些公司愿意开放接口,你所有的通讯都有可能集中在这些智能体里。
Boris Cherny:是的。我的意思是,最终呈现给你的可能确实是一个智能体,但底层的通讯是如何发生的呢?比如你看看像 Signal 这样的通讯应用,它使用的是特定的通讯协议。我可以自己建一个应用,也许能使用同样的协议,但我认为它实际上是无法向 Signal 上的其他用户发送消息的。不过你说得对,我可以让一个智能体,通过调用现有的、支持这种操作的应用,来替我完成消息发送。是的。所以,未来到底会如何演变,目前还不得而知。我认为在当下,人们是混合使用各种 App 和智能体的。
但我从根本上相信,随着时间的推移,许多护城河的价值实际上还会不断攀升。你可以想另一个例子,比如台积电(TSMC)或者某种芯片制造商。你看看他们在打造制造工艺上投入了多少心血,在打造那种“成本随规模下降”的工艺上倾注了多少努力,这是一种底层的经济学法则。有很多公司,特别是在制造业,都在做这种“规模越大成本越低”的事情。
对于科技公司来说,基础设施就是如此。如果你构建了极其强大的基础设施,你就能支撑更多的用户,而每个用户的边际成本会随着时间的推移不断下降。如果你拥有这种效应,那么你我能不能自己写 App 就根本不重要了。那依然是一条极其强大的护城河。但我当然也认为,这两种力量目前都在发挥作用。
![]()
“如果杨立昆愿意坐下来跟我一起用 CC 写一个小时代码”
主持人:好的,还有 10 分钟,我还有三个问题。看看我们能不能都过一遍。Anthropic 的创始人之一杰克·克拉克(Jack Clark)最近好像说过,他认为到 2028 年,这些模型有 60% 的概率会开始自我进化。概率或年份可能会有一点偏差,但大致是这个意思。你现在就身处这个代码自动生成的应用中,你也在掌管这个应用。你同意杰克的看法吗?
Boris Cherny:听起来挺靠谱的。是的。看看 Claude Code 现在的编写方式,100% 的 Claude Code 都是用 Claude Code 写的。自从去年 11 月,也就是 Opus 4.5 发布以来,就一直是这样了。
主持人:那听起来就像是一个“极速起飞(Fast takeoff)”的场景啊。你预见到了吗?
Boris Cherny:我觉得,这是有可能的。而这正是 Anthropic 存在的意义。如果你去问任何一位工程师或研究员,他们为什么加入 Anthropic,他们都会告诉你:为了 AI 的安全。因为对我们来说,当我们展望未来的几年时,最重要、也是我们最想为我们的子孙后代把控好的一件事,就是我们要确保这东西是安全的,我们要确保一切向善发展。因为,是的,极速起飞确实是可能的结果之一。
我认为我们目前看到的还不是那种情况。现在 Claude Code 确实在编写自己,但下达提示词的依然是人类。Claude 开始为 Claude Code 下一步该开发什么生成自己的想法,但这些想法并不总是好的,而且目前大部分的创意依然是我提出来的。但在某个节点,这一切将会改变。模型会不断进化,它将变成一个更强大的自我强化循环。
主持人:好的。我特别想听听你对“世界模型(World model)”之争的看法。
支持世界模型的人认为,大语言模型对后果毫无概念,你必须把世界模型内置进去,才能打造出真正有效的智能体。杨立昆(Yann LeCun)就曾说过:“如果没有世界模型,你就不可能构建出可靠的智能体系统。LLM 没有世界模型。它们无法在采取行动之前预测行动的后果。”
按照杨立昆的说法,它们只是盲目行动,至于接下来会发生什么,那就是别人的麻烦了。我最近和 OpenAI 的格雷格·布罗克曼(Greg Brockman)聊过,他基本上完全不接受这种说法,他认为 LLM(直接通过这些文本模型)就是通向通用人工智能(AGI)的正确道路。你站哪边?你是一个坚信必须内置世界模型智能的人,还是认为单靠 LLM 就足够了?
Boris Cherny:如果杨立昆愿意坐下来跟我一起用 Claude Code 写一个小时的代码,我非常乐意向他发出邀请。我很乐意展示给他看。
主持人:那你们真该在我的节目上切磋一下。
Boris Cherny:好啊。然后我很想听听他的真实想法。也许他会改变主意,也许不会。
主持人:行。但你自己的观点呢?
Boris Cherny:你知道的,我是个坚定的产品派。所以我在这方面其实没什么强烈的学术立场。
主持人:好吧,如果你不介意的话,让我再稍微深挖一点。你是做产品的,但我听不止一个人提出过这个观点:如果没有对世界运转方式的认知(就像世界模型那样),LLM 就无法理解这个世界的规律和行为的后果。你用 Co-work 订了多少趟航班?八趟航班和几家酒店。你心里肯定认为它对“后果”是有认知的,否则你绝不会把你的信用卡交给它(我猜你肯定交了)。所以,针对这个具体的论点,你怎么看?
Boris Cherny:我觉得,从我阅读到的 Anthropic 研究人员的论文来看,这些模型的智能程度是令人震惊的。因为就像你一开始说的,它们在最底层做的事情仅仅是预测下一个 Token。所以你会觉得这听起来挺蠢的,这怎么可能孕育出智能呢?但我们实际上发表了大量关于模型如何能够进行规划、如何能够真正进行推理的研究。模型展现出了所有这些极其令人惊讶的行为,而这些行为是你绝对无法从一个仅仅“预测下一个词”的模型身上预见到的。所以,我不会低估它的潜力。
主持人:我觉得我最喜欢的一个例子是它们写诗的时候。当它们在写第一行时,你就能在模型中观察到(这是 Anthropic 的研究)——它们已经在构思下一行了。
Boris Cherny:没错。
主持人:这简直让人匪夷所思,这怎么可能呢?
Boris Cherny:没错。我的意思是,我就是这么理解的。如果换作是我在写诗,我也会这么构思。这太疯狂了。你教这个东西去预测下一个词,但不知何故,如果下一个词的难度足够高,它就必须学会如何深谋远虑,它就必须学会掌握所有这些能力。
主持人:好的,最后一个问题。在我报道科技行业的职业生涯中,每当我看到重大的技术变革正在酝酿时,我有时会产生怀疑。有些变革成功了,有些则沦为了泡沫。我总要问自己:我们怎么确信这就是未来,而不是一场狂热的白日梦?数据表明这是真实的。
但我也在想,你必须对“这种趋势在未来将如何继续演进”的推断保持一丝警惕。认为这是一场“白日梦”的论点是:也许人们只是想要极其简单的界面,他们不介意多点几下屏幕;而在 Claude Code 里敲指令感觉太极客了,它可能很难像吸引开发者那样,去吸引普通的日常用户。你会如何回应这种质疑?
Boris Cherny:我们最近为 Opus 4.7 举办了一场黑客松,其中一位获胜者是个医生,他做了一个 App。参赛的还有电工、木匠,其中很多人根本没有编程经验,但他们用 Claude Code 做出了非常有用的东西。在我们的另一场黑客松中,甚至有人做出了一个初创项目并成功把它卖掉了。
毫无疑问,当我们最初打造 Claude Code 时,它是为工程师量身定制的,而工程师们也很快摸索出了怎么用它。但很快,非技术人员也弄明白了如何用它来创造经济价值。实际上,如果你看看今天的使用情况,很多人根本不是工程师,而且这东西对他们来说太有用了,以至于他们不惜克服重重困难去使用它。甚至在 Co-work 推出之前,人们就为了在终端(Terminal)里安装 Claude Code 而煞费苦心。对很多人来说,那是他们人生中第一次使用终端。
当然,现在的 Claude Code 已经有了桌面端应用、iOS 应用,还有 Slack 小程序。我们提供了很多交互方式。但当初,人们为了用它可是费尽了周折,就因为它的价值太大了。所以对我这个做产品的人来说,这就是检验一个东西是否有用的终极市场测试:是不是有很多人每天都在用它,并且持续每天都在用?答案是肯定的,有海量的人在用,而且这个数字还在不断增长。我总是被人们使用它的各种奇思妙想所惊艳。
主持人:是的,我得承认,连我自己都被我使用这些工具的方式给惊艳到了。我不知道,我们拭目待待接下来会发生什么。我非常期待继续使用它,也非常高兴能有机会和你交流。希望我们以后还能再聊。
Boris Cherny:好的,感谢你的邀请。
免费领取 100 小时 AI 算力|AI科技大本营读者专属福利
加入 AI 开发者计划获取:
✅ AI 算力资源
✅ 官方技术社群
✅ Workshop 与 AI Academy
✅ 开发者专属福利
立即扫码,前 50 名领取瑞幸咖啡(领取地址:https://s.csdn.cn/4nPsOp)
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.