网易首页 > 网易号 > 正文 申请入驻

史上最强编程模型,来了!

0
分享至


智东西
编译 王涵
编辑 漠影

智东西9月30日消息,今天,Claude Sonnet 4.5正式发布,该模型能持续专注处理复杂多步骤任务超过30小时,在编程能力、计算机操作能力榜单中占据榜首,在推理、数学、智能体编程等多方面超越GPT-5


Claude Sonnet 4.5计价标准与Claude Sonnet 4保持一致,即每百万tokens输入3美元(约合人民币21.4元),输出15美元(约合人民币106.8元)。


此外,Claude Code新增了检查点功能,用户可保存进度并支持即时回滚,Anthropic更新了其终端界面,发布了原生VS Code扩展插件

Anthropic还向开发者开放了Claude Code的核心组件——Claude Agent SDK,用户能直接运用支撑其产品的底层架构,进行二次开发。

Claude API也新增了情境编辑与记忆工具,能够助力智能体持续处理更复杂的任务。在Claude应用中,代码执行与文件生成(电子表格/幻灯片/文档)已无缝融入对话流程。

以上功能今日已在Claude开发者平台、Amazon Bedrock及Google Cloud Vertex AI开放公测。

一、能处理超30小时的任务,Claude Sonnet 4.5超越GPT-5

在衡量真实编程能力的SWE-bench Verified评测中,Claude Sonnet 4.5稳居榜首。实际测试表明,该模型能持续专注处理复杂多步骤任务超过30小时


在测试AI模型真实计算机操作能力的OSWorld基准评估中,Claude Sonnet 4.5以61.4%的得分率获得第一,而四个月前Sonnet 4的得分仅为42.2%。如下方演示所示,Claude可直接在浏览器环境中运行,实现网站导航、表格填写与任务执行的全流程自动化

该模型在包括推理、数学、智能体编程等多项评估中超越GPT-5


来自法律、金融、医学及STEM领域的专家证实,相较于旧版模型(包括Opus 4.1),Claude Sonnet 4.5在专业领域知识掌握与推理能力方面取得显著进步。


Anthropic称Claude Sonnet 4.5不仅是性能最强的模型,更是他们迄今最具价值观对齐性的前沿人工智能系统。借助模型能力提升与深入的安全训练,研究团队改善了Claude Sonnet 4.5的行为模式,有效减少了阿谀奉承、欺骗隐瞒、权力追逐及助长妄想思维等不良倾向。


▲自动化行为审计系统中的总体行为失当评分,数值越低越好。失当行为包括但不限于欺骗、谄媚、权力追逐、助长妄想、服从有害系统指令等。

二、推出原生VS Code扩展插件,Claude Code智能体能力升级

Claude Code也推出了多项升级:原生VS Code扩展插件、2.0版本终端界面,以及支持自主运行的检查点功能。

原生VS Code测试版扩展可以将Claude Code直接嵌入用户的集成开发环境。通过专属侧边栏面板和行内差异对比,用户可以实时查看Claude所作的代码变更。这款扩展为偏好IDE开发的用户提供了比终端更丰富、更可视化的Claude Code体验。


Claude Code的终端界面也迎来了更新,新版界面提升了状态可视化程度,并新增可搜索的指令历史功能。


针对需要构建定制化智能体流程的团队,Claude Agent SDK(原Claude Code SDK)开放了驱动Claude Code的核心工具、情境管理系统与权限框架。Claude Agent SDK新增加了对子智能体与钩子函数的SDK支持,开发者能更灵活地构建适配特定工作流的智能体。


随着Claude Code承担的任务日趋复杂,检查点功能可以让用户在保持控制权的同时,能更安心地将任务委托给Claude Code。

全新检查点系统会在每次代码变更前自动保存状态,用户只需双击Esc键或使用/rewind命令即可瞬间回退至历史版本。

回退检查点时,用户可选择恢复代码、对话记录或两者同时还原(注:检查点仅记录Claude的编辑操作,不包含用户编辑或bash命令,建议配合版本控制系统共同使用)。

三、性能提升39%,Token节省84%,Claude开发者平台情境管理功能升级

Claude开发者平台推出两项全新的情境管理功能:情境编辑与记忆工具

当生产环境中的智能体处理日益复杂的任务并生成大量工具调用结果时,往往会耗尽有效情境窗口,这迫使开发者面临截断对话记录或牺牲性能的两难抉择。

情境编辑功能可在token容量接近上限时,自动清理情境窗口中的陈旧工具调用及结果。随着智能体持续执行任务并积累工具调用记录,该功能能在保持对话流完整性的同时移除过期内容,从而显著延长智能体的自主运行时长,该功能还能通过聚焦核心情境有效提升模型实际性能。


记忆工具则让Claude能通过基于文件的系统,在情境窗口之外存储并调用信息。Claude可在用户的基础设施中专设的记忆目录中创建、读取、更新及删除文件,这些文件将在多次对话间持续保存。

该功能让智能体能够逐步构建知识库、跨会话维持项目状态、参考历史学习成果,而无需将所有内容都塞入情境窗口。

记忆工具完全通过客户端工具调用运行,开发者可以自主管理存储后端,从而全面掌控数据存储位置与持久化方式。

Claude Sonnet 4.5凭借内置的情境感知能力,可以在全程对话中动态追踪可用token数量,通过自动清理情境中的陈旧工具结果,支撑更长时间对话;还可以将关键信息存入记忆库并跨会话传承,持续提升应答精准度。

Claude Sonnet 4.5可以处理完整代码库、分析数百份文档、维护大量工具交互历史。情境管理在此基础上确保智能体既能高效利用扩展容量,又能处理超越固定限制的工作流。

在智能体搜索内部评估中,研究团队还测试了情境管理对复杂多步骤任务的提升效果。结果显示,记忆工具与情境编辑结合使用较基线性能提升39%,单独使用情境编辑性能可以提升29%

在100轮网络搜索测试中,情境编辑使智能体成功完成了原本会因情境耗尽而失败的任务,同时降低了84%的token消耗。

结语:Anthropic进一步完善其智能体开发生态

这次发布是Anthropic一次从底层模型到工具链的系列升级。

在模型层面,Claude Sonnet 4.5能够持续专注处理超过30小时的复杂任务,这一能力为长周期、多步骤的自动化流程带来了更多可能性。

Anthropic通过Claude Code的升级、Agent SDK的开放,以及情境管理功能的引入,构建了一个智能体开发生态系统,共同解决了智能体开发中的一个痛点:如何在有限的窗口内处理复杂的现实任务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
张雪峰好兄弟曝内情泣不成声,人民日报悼念官媒定义,卫健委追责

张雪峰好兄弟曝内情泣不成声,人民日报悼念官媒定义,卫健委追责

潮鹿逐梦
2026-03-26 10:55:41
减仓!4000点有点难了

减仓!4000点有点难了

郭小凡财经
2026-03-26 09:06:21
丞相是丞相,宰相是宰相,两者一字之差却天壤之别,可别分不清楚

丞相是丞相,宰相是宰相,两者一字之差却天壤之别,可别分不清楚

观史搜寻着
2026-03-26 01:10:50
沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

素衣读史
2026-03-25 21:26:46
周杰伦的INS被网友冲爆,新歌MV里手表调到“83”,疑用旧恋情炒作卖新唱片

周杰伦的INS被网友冲爆,新歌MV里手表调到“83”,疑用旧恋情炒作卖新唱片

回旋镖
2026-03-25 20:38:44
自作自受!欧尔班硬刚欧盟阻援乌,160亿欧元信贷被直接冻结

自作自受!欧尔班硬刚欧盟阻援乌,160亿欧元信贷被直接冻结

老马拉车莫少装
2026-03-26 10:24:28
尊严不容践踏,对日打击必须是毁灭性的,绝不能手下留情!

尊严不容践踏,对日打击必须是毁灭性的,绝不能手下留情!

李光满说
2026-03-25 17:27:16
从欧尔班行为,看北约当年拒绝俄罗斯的远见

从欧尔班行为,看北约当年拒绝俄罗斯的远见

民间胡扯老哥
2026-03-23 18:53:38
你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

夜深爱杂谈
2026-02-01 18:57:04
伊朗外长:霍尔木兹海峡只对敌人关闭 中国、俄罗斯等国船只都安全通过了

伊朗外长:霍尔木兹海峡只对敌人关闭 中国、俄罗斯等国船只都安全通过了

闪电新闻
2026-03-26 10:48:55
张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

枫红染山径
2026-03-25 16:56:22
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
李鑫认亲第3天!姐弟闹掰再次失联,姐姐深夜哭诉,养家姐姐发声

李鑫认亲第3天!姐弟闹掰再次失联,姐姐深夜哭诉,养家姐姐发声

离离言几许
2026-03-26 12:11:37
欧洲议会表决通过欧美贸易协议

欧洲议会表决通过欧美贸易协议

新京报
2026-03-26 18:39:20
2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

谈史论天地
2026-03-25 09:57:09
黄金、白银,直线跳水!特朗普,大消息!

黄金、白银,直线跳水!特朗普,大消息!

证券时报e公司
2026-03-26 14:47:48
张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

古希腊掌管松饼的神
2026-03-26 16:52:30
不法之徒村田晃大,正面照曝光

不法之徒村田晃大,正面照曝光

新京报
2026-03-26 11:18:17
吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

念洲
2026-03-26 13:14:22
2026-03-26 19:07:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11435文章数 117015关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
旅游
时尚
游戏
公开课

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

旅游要闻

世界那么大,来安美如画丨「与V四季行」倒计时1天,这份春日请柬请查收→

皮衣+裙,高级到炸

《刺客信条》又一新作野心炸裂!三张地图横跨半个地球

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版