网易首页 > 网易号 > 正文 申请入驻

30小时,1.1万行代码,Claude Sonnet 4.5 做了什么?

0
分享至

全文 2,000字 | 阅读约 6 分钟

Anthropic CPO:谈Sonnet 4.5的设计核心“品味”)

2025 年 9 月 29 日,Anthropic 发布新一代前沿模型:Claude Sonnet 4.5。这款模型的最大亮点,不是性能跑分,而是持续运行能力和任务完整度。

在一次真实测试中,Claude Sonnet 4.5 自主运行 30 小时,完成了一个类似钉钉、飞书的企业聊天应用开发。 核心突破:

AI 不是生成原型,而是真的独自交付产品。

这意味着什么?

AI 第一次完整跑通了一个工程流程,从代码到部署,真正实现了生产级应用的自主开发。

在 AI 编程大战中,风向正在转变。GPT-5 推理能力刚刚引发热议,Anthropic 就凭借 Claude 夺下了“最强编程模型”的宝座。同时发布的还包括 Agent SDK(智能代理开发工具包)、升级版 Claude Code 插件、VS Code 环境集成、长任务恢复系统等一整套工程自动化基础设施。

这一次,Claude 不是来辅助你,而是告诉你:

AI,可以独立承担完整的开发任务了。

(Claude Sonnet 4.5:30小时自主开发完整应用)

“30 小时能干什么?”

在企业场景里,这不是一个惊艳的数字。但对于 AI 模型来说,能连续自主运行 30 小时并完成完整项目,是一道从未被跨过的门槛。

Anthropic 没有发 PPT,也没做演示。他们直接公布了 Claude Sonnet 4.5 的实测表现:生成超 1.1 万行代码,自动构建一个完整的企业聊天应用,直到任务完成才主动停下。

这中间,它做了这些事:

  • 创建数据库并完成配置

  • 注册域名、设置托管

  • 通过 SOC 2 审计流程,确保数据合规

  • 交付可运行、可部署、可测试的完整工程

这一能力,在业内被称为“生产级别”开发,之前从未有模型做到。

✅ 稳定性:从“会写”到“能做”

Anthropic 研究员 David Hershey 在采访中表示:

“在早期测试中,Claude 4.5 能连续处理多个相互关联的复杂任务,不仅不出错,还能自己识别进度、保持节奏。”

Cursor CEO Michael Truell 说:

“这是我见过在长周期任务里表现最稳定的编程模型。”

Windsurf CEO Jeff Wang 看到了更深层的意义:

“Claude Sonnet 4.5 不是升级,是换代。它标志着新一代 AI 编程模型的起点。”

三位行业领袖的共识:长周期任务的稳定性,才是真正的突破。

评测验证:能不能干正事

Anthropic 提供了一组权威数据:

(Claude Sonnet 4.5 在 SWE-bench Verified 评估中名列前茅)

(Claude Sonnet 4.5 是Anthropic 迄今为止最强大的模型)

在 SWE-bench Verified(真实代码修改任务)中,Claude Sonnet 4.5 排名第一,领先 GPT-4 和 Gemini;在 OSWorld(模拟实际电脑操作)中,得分从上一代的 42.2% 跃升至 61.4%,提升近 50%。

这些评测不看模型能生成多少字、答对几道题,而是看它能不能把复杂任务做完做对

✅ 实战反馈:工程师怎么说

Canva 工程团队已经在用 Claude Sonnet 4.5,他们的反馈很真实:

“让它处理代码库工程任务,或生成产品研究模块,它都能做得很完整。”

Anthropic 产品负责人 Dianne Penn 接受采访时坦言,她自己都被惊到了:

“从 GitHub 和 Cursor 那边收到的真实反馈显示,Sonnet 4.5 在浏览器导航、系统操作上的熟练度,比上一代提升了三倍以上。”

这不只是"能理解",而是真能动手干活。

重点突破:可交付

关键不在于模型能跑多久,而在于它真正具备了"完成一件事"的能力。在开发流程中,这有个专业术语:交付

GPT-5 强调推理能力的提升,Claude Sonnet 4.5 则在回答另一个问题:AI 能不能真的撑起一个完整的工程环节

答案是:能了。

第二节|从工具到平台:Agent SDK 带来了什么?

AI 能不能真正落地,靠的从来不只是模型本身。

Anthropic 这次没有只发布 Claude Sonnet 4.5,而是连同一整套基础设施一起上线,名为:Claude Agent SDK

它不是写给研究员的,是写给开发者的。这是一套让你能“组装专属 AI 助手”的完整工具包。

SDK 能做什么?

用它可以:

  • 给 AI 设定明确目标:“帮我把客户信息处理好再导出表格”

  • 管理 AI 的记忆:让它知道上一阶段做了什么,现在该继续什么

  • 分配操作权限:哪些能自主完成,哪些必须等你确认

  • 协调多个 AI:让它们配合完成更复杂的任务

这些看似复杂,其实都是工程里的基础能力,只是以前没人让 AI 来做。

这套工具包原本是 Anthropic 内部使用的,支撑着 Claude Code 的运行。现在他们决定开放给所有开发者:

“我们把支撑 Claude Code 的构建模块打包成 SDK,开发者可以用同一套机制,构建属于自己的 AI 代理。”

通俗点说:你不用从零开发,可以直接基于这套框架,快速搭建适合业务需求的 AI 助手。无论是项目执行器、数据处理工具,还是客户服务机器人,都能实现。

✅ 为什么这一步关键?

这代表一个重要转向:从使用工具,到定制助手

就像过去你用 Excel 处理数据,现在你可以用 Excel 的组件搭建一个专门处理财务的智能工具。

Anthropic 产品负责人 Dianne Penn 直接分享了她的实践:

“我招人时,让 Claude 做深度网络搜索,筛选 LinkedIn 个人资料,生成表格方便我联系。这个流程现在可以打包成一个 Agent,每次打开就能自动运行。”

她还补充道:

“我们过去半年更新 Claude Code 时遇到的工程难题,比如权限管理、记忆存储、错误回滚,都整理进了 SDK。”

有了这套完整工具,Claude Sonnet 4.5 的意义就不一样了:AI 不再只是调用接口的“产品”,而是能嵌入业务流程、真正干活的“角色”。

能力变强是起点,能落地才是终点。

第三节|闭环能力的核心:AI 如何“做完一件事”

很多人对“AI 写代码”的理解,还停留在补全函数、修改 bug。

但 Claude Sonnet 4.5 展示的,是另一个维度的能力:完整跑通一个任务

什么是“闭环”?

在工程领域,“闭环”指的是:从接到需求,到交付成果,整个过程不需要外部干预。

具体到 AI 编程,闭环意味着:

  • 理解任务目标

  • 规划执行步骤

  • 处理中间异常

  • 验证最终结果

  • 自主判断何时结束

这不是写得快,而是“做得完”。

1、从"会做"到"做完"的跨越

Anthropic 研究员 David Hershey 在采访中强调:

“我们关注的不是 Claude 能不能生成某个模块,而是它能不能自己安排顺序、处理中断、补全遗漏。”

这正是闭环能力的核心:过程管理

Canva 测试团队的反馈也印证了这点:

“Claude 处理我们代码库任务时,不光能跟上逻辑,还能理解产品里的复杂规则,在不同功能模块间灵活切换。”

2、从静态到动态的进化

Dianne Penn 在采访中提到了一个对比:

“去年 10 月,Claude 还只能处理静态页面;现在它能完成整套浏览器操作,查日程、整理会议纪要、输出日报。”

产品负责人 Scott White 的比喻更直观:

“Claude 的工作方式,接近一个助理。你要开会,它能查出所有人的空档时间,看数据仪表板,总结成状态更新。”

关键转变在于:从单次响应到持续协作。

✅ 实现闭环的三个支柱

Claude 的闭环能力,依靠三项底层机制:

1. 上下文管理
通过 Agent SDK 的内存系统,记住整个任务的历史状态,避免重复或遗漏。

2. 权限机制
在需要人工确认的环节主动暂停,在可自主完成的部分自动推进。

3. 检查点系统
自动保存进度,出错时能回滚到最近的稳定状态,而不是从头开始。

这三项机制,让 AI 从“工具”变成了“执行者”。

真正的问题不是能力,是信任

当 AI 真的能完整跑完任务,决策权就转移了:不是我要不要用 AI, 而是我要不要让 AI 独立完成这件事。

这不是技术问题,是协作模式的重构。

结语|真正的转折点

Claude Sonnet 4.5 的意义,不在参数升级,不在跑分领先。

而在于:AI 第一次能把完整的工作做完

不是生成几行代码,而是接住任务、自主推进、交付结果。

过去,AI 是辅助工具,人带着它一起做事。现在,Claude 开始回答另一个问题:AI 能不能独立完成一段工作?

这一次,能了。

这次更新真正的信号是:模型竞争的标准变了。不再比谁更聪明,而是比谁更可靠、谁能闭环

这是 AI 落地的分水岭。

现在的问题不是它能不能做到,而是:你准备好把完整任务交给它了吗?

本文由AI深度研究院出品,内容整理自Anthropic 官方博客、TechCrunch、The Verge。未经授权,禁止转载。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料:

https://www.anthropic.com/news/claude-sonnet-4-5

https://www.theverge.com/ai-artificial-intelligence/787524/anthropic-releases-claude-sonnet-4-5-in-latest-bid-for-ai-agents-and-coding-supremacy

https://techcrunch.com/2025/09/29/anthropic-launches-claude-sonnet-4-5-its-best-ai-model-for-coding/?utm_campaign=social&utm_source=X&utm_medium=organic

https://www.youtube.com/watch?v=dGiqrsv530Y

https://x.com/tbpn/status/1972750991742349731

来源:官方媒体/网络新闻

排版:Atlas

编辑:深思

主编: 图灵

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越南的南北鸿沟:一个国家,两个世界

越南的南北鸿沟:一个国家,两个世界

民间胡扯老哥
2026-04-03 02:26:57
重庆广阳岛一飞行器坠落致2伤

重庆广阳岛一飞行器坠落致2伤

界面新闻
2026-04-04 16:39:15
宋代女才子对出“洞中泉水流不尽”,书生妙答下联竟得芳心相许!

宋代女才子对出“洞中泉水流不尽”,书生妙答下联竟得芳心相许!

大运河时空
2026-04-04 08:25:03
商务部:从未组织、参与或运营任何 冠名“投资中国”字样的App应用

商务部:从未组织、参与或运营任何 冠名“投资中国”字样的App应用

每日经济新闻
2026-04-04 08:17:03
安徽6岁女童失踪新进展,当地商户透露更多细节,无卡手机已发现

安徽6岁女童失踪新进展,当地商户透露更多细节,无卡手机已发现

潮鹿逐梦
2026-04-04 18:26:46
伊朗强硬回应特朗普“48小时”通牒:若冲突升级,美以将面临“地狱般”的惩罚

伊朗强硬回应特朗普“48小时”通牒:若冲突升级,美以将面临“地狱般”的惩罚

环球网资讯
2026-04-05 09:09:41
2019年,滴滴司机钟元被执行死刑,死前害怕不已,跪地不停忏悔

2019年,滴滴司机钟元被执行死刑,死前害怕不已,跪地不停忏悔

南宗历史
2026-03-17 01:08:53
波普一家近照,首发夺2冠,赚1.6亿薪水,娇妻很性感,生了5个娃

波普一家近照,首发夺2冠,赚1.6亿薪水,娇妻很性感,生了5个娃

篮球看比赛
2026-04-04 12:59:26
日本人集体道歉,中方态度很明确,高市被要求下台,小泉未能幸免

日本人集体道歉,中方态度很明确,高市被要求下台,小泉未能幸免

梦史
2026-04-04 15:57:49
财神爷讲述:做生意人理发最好的日子,每月这3天,剪一次旺一月

财神爷讲述:做生意人理发最好的日子,每月这3天,剪一次旺一月

古怪奇谈录
2026-03-24 10:23:03
存储飙涨300%!手机涨价后没人买:高通联发科合计减产约2000万颗处理器

存储飙涨300%!手机涨价后没人买:高通联发科合计减产约2000万颗处理器

快科技
2026-04-03 10:18:17
土耳其两周用掉近120吨黄金

土耳其两周用掉近120吨黄金

财联社
2026-04-04 19:13:05
完败!乔治20+5+4,詹金斯16+14+4,猛龙收大礼,东部第六易主

完败!乔治20+5+4,詹金斯16+14+4,猛龙收大礼,东部第六易主

篮球大视野
2026-04-05 09:42:07
十国第一人杨行密,神行太保起家,一人之力阻断中原和江淮

十国第一人杨行密,神行太保起家,一人之力阻断中原和江淮

老踲系戏精北鼻
2026-04-03 14:52:12
祖坟到底管几代?谁的坟影响最大?牢记原则祭祖不拜错

祖坟到底管几代?谁的坟影响最大?牢记原则祭祖不拜错

复转这些年
2026-04-02 12:12:54
曝台湾省歌手费玉清现状曝光!无儿无女,和女闺蜜互相解决需求

曝台湾省歌手费玉清现状曝光!无儿无女,和女闺蜜互相解决需求

小徐讲八卦
2026-04-02 07:51:08
小三上位真相大白仅3天,买超高调求“复合” 张嘉倪这下彻底赢了

小三上位真相大白仅3天,买超高调求“复合” 张嘉倪这下彻底赢了

兴史兴谈
2026-04-03 22:20:11
29万户股东跌懵了,阳光电源去年第四季度净利腰斩!

29万户股东跌懵了,阳光电源去年第四季度净利腰斩!

每日经济新闻
2026-04-04 22:26:52
杨尚昆和哈梅内伊的“三无”会见,杨尚昆说了几句转身就走

杨尚昆和哈梅内伊的“三无”会见,杨尚昆说了几句转身就走

犀利强哥
2026-03-04 21:40:54
昆凌和婆婆女儿现身演唱会,美貌让人震惊,一直笑眯眯的也好可爱

昆凌和婆婆女儿现身演唱会,美貌让人震惊,一直笑眯眯的也好可爱

东方不败然多多
2026-04-05 04:15:58
2026-04-05 10:19:00
AI深度研究员 incentive-icons
AI深度研究员
AI时代刚刚到来,一切才刚开始,我们正当其时!
434文章数 170关注度
往期回顾 全部

科技要闻

小米、字节“老将”带队,Meta秘密布局AI新硬件

头条要闻

牛弹琴:伊朗民众拿枪上山搜寻 美军飞行员有四种结局

头条要闻

牛弹琴:伊朗民众拿枪上山搜寻 美军飞行员有四种结局

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

家居
亲子
手机
教育
时尚

家居要闻

温馨多元 爱的具象化

亲子要闻

我的互联网女鹅清单,又添了一位心头宝

手机要闻

W13周:第一、第二没变,小米、OPPO互换,vivo、荣耀没变

教育要闻

追忆“人民教育家”于漪老师

女人不管多大年纪衣服不要随便穿,这些穿搭可借鉴,优雅显瘦

无障碍浏览 进入关怀版