网易首页 > 网易号 > 正文 申请入驻

Anthropic发布Claude Sonnet 4.5:编程能力再登顶,新产品试图颠覆Windows操作系统

0
分享至

今天凌晨,Anthropic毫无征兆地突然发布了Claude Sonnet 4.5,从版本号、发布的文章以及随之而来的产品功能更新看,这是个相当大的值得关注的版本。

核心要点

  • Claude Sonnet 4.5在SWE-bench Verified基准测试中达到行业最高水平,可持续专注超30小时处理复杂任务,定价维持不变($3/$15每百万tokens)

  • 计算机使用能力大幅提升,OSWorld基准从4个月前的42.2%跃升至61.4%

  • Anthropic首次开放Claude Agent SDK,将支撑Claude Code的基础设施向开发者开放

  • 推出"Imagine with Claude"研究预览,展示实时软件生成能力(非常有趣,文章中有实测案例)


模型性能又又又突破了

根据官方披露的数据,Claude Sonnet 4.5模型在多项关键指标上实现显著提升。

当然,我们最最关心的还是编程能力。Claude Sonnet 4.5在SWE-bench Verified评估中继续突破自己,超越了死贵死贵的Claude Opus 4.1达到当前最高水平(而价格则是维持和Claude Sonnet 4一样的水平)。SWE-bench Verified算是衡量AI模型解决真实世界软件编程问题的最重要的能力指标。Anthropic表示,在实际应用中观察到该模型能够在复杂多步骤任务上保持超过30小时的持续专注。听起来有点针对OpenAI CodeX的7小时了。

计算机使用能力方面的进步尤为明显。在测试AI模型执行真实计算机任务的OSWorld基准测试中,Sonnet 4.5取得61.4%的成绩,相比四个月前Sonnet 4的42.2%提升约45%。

Claude 官方用来展示的例子是他们做的浏览器插件——Claude for Chrome,演示的这个例子涉及表格、邮件、数字计算等,任务还算挺复杂的,效果看起来不错。

前几天,我发过一个用Claude Code+Chrome Devtools MCP当我的B站/油管运营实习生,自动给评论区回复内容的尝试,看起来这套组合所拥有的潜力还能继续挖掘。

除编程能力外,该模型在推理和数学相关的多项评估中也显示出改进。来自金融、法律、医学和STEM领域的专家评估显示,Sonnet 4.5在特定领域的知识深度和推理能力上相比早期模型(包括Opus 4.1)有显著提升。

注:STEM是四个学科领域英文首字母的缩写:

-Science(科学)

-Technology(技术)

-Engineering(工程)

-Mathematics(数学)

对齐与安全性改进

Anthropic强调,Claude Sonnet 4.5是该公司迄今为止"对齐度最高的前沿模型"。在自动化行为审计测试中,该模型在多个维度上的不良行为得分显著降低,包括奉承、欺骗、权力寻求以及鼓励妄想性思维等倾向。

针对AI代理和计算机使用场景中最严重的风险之一——提示注入攻击,Anthropic表示已取得重大进展。根据其发布的系统卡(system card):https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf,该模型的安全评估首次纳入了机械可解释性(mechanistic interpretability)技术。

该模型按照Anthropic的AI安全等级3(ASL-3)框架发布,配备了专门的分类器用于检测潜在危险的输入和输出,特别是涉及化学、生物、放射性和核武器(CBRN)相关内容。Anthropic表示,自该系统首次描述以来,误报率已降低十倍,自5月Claude Opus 4发布以来降低了一半。


Claude Agent SDK开放

深入用过Claude Code的人应该都会认同,尽管有很多产品都在称自己是通用型AI Agent,但真正在能力上做到又强又通用的,还真就是Claude Code。而在这次的发布里,Claude把他们用来构建Claude Code的所有基建,都作为Agent SDK开放了。

该SDK解决了构建AI代理过程中的几个核心难题:长时间运行任务中的内存管理、平衡自主性与用户控制的权限系统、以及协调多个子代理朝向共同目标工作的机制。

Anthropic表示,虽然该SDK是为Claude Code开发的,但其适用范围远超编程领域。从今日起,开发者可以使用这一SDK构建自己的AI代理应用。

产品生态系统更新

配合模型发布,Anthropic同步推出了多项产品功能更新:

Claude Code获得了用户呼声最高的"检查点"(checkpoints)功能,允许保存进度并即时回滚到之前状态。终端界面经过重新设计,并推出了原生VS Code扩展。

哈哈哈,“推出了原生VS Code扩展”这一点很有趣,说明Claude的AI编程产品形态不止于CLI,而是要开始进入IDE形态了。其实也很像我前段时间所吐槽的那样

Claude Code推出后,国内大厂也一窝蜂去做CLI形态的AI编程产品,但是Claude Code强并不代表CLI形态的天然正确。抛弃图形界面增加了用户使用门槛,但并没有真正绝对的先进性,这不,Claude 也要开始重新覆盖具备图形界面的IDE插件这种产品形态,我估计离Claude原生AI IDE也不远了。

ClaudeAPI新增了上下文编辑功能和内存工具,使代理能够运行更长时间并处理更高复杂度的任务。

Claude应用中直接集成了代码执行和文件创建能力,支持电子表格、幻灯片和文档的生成。

Claude for Chrome扩展向上月加入等候名单的Max用户开放。该扩展利用了模型升级后的计算机使用能力,可以直接在浏览器中导航网站、填写表格并完成任务。

"Imagine with Claude"研究预览

"Imagine with Claude",Anthropic称之为临时研究预览,用来展示实时软件生成能力。我觉得算是这次发布里最有趣也最有野心的一个产品了。该实验中的功能并非预先确定,代码也非预先编写,而是由Claude实时创建,根据用户交互进行响应和适应。

它提供了一个类似带输入框的桌面界面,你可以通过自然语言去生成各类应用。

比如我试了天气预报、计算器、游戏、足球比赛实时比分看板等,很特别的是所有功能和界面都是流式生成,在你面前实时展现的。

而且,很多界面展示还没功能,会在你点击操作后,Claude会预测你下一步需要的功能和界面,再做后续的内容/功能生成。我看到了Anthropic有种想再建一个AI native的操作系统的想法。

这是个很有趣的开始。

功能链接在此,需要Max会员才能用:https://claude.ai/imagine/

虽然Anthropic这家公司,以及他们的CEO在对华政策上有各种愚蠢的问题。但不得不承认他们的模型在Coding、Agent上的领先性,这次的更新又将会是对AI编程产品和Agent产品不小的洗牌。

谁对Claude Sonnet 4.5模型的能力有最强的认知,谁能用工程能力把这个模型的能力压榨透,谁又能在这个新智能的基础上构建出新形态的产品,还真是无比值得期待。

而像“Imagine with Claude”这个功能实在是个初级得不能再初级的初代产品,但是它背后又隐藏着颠覆Windows的可能性,我觉得这会是个被重新开拓的新战场,很高兴身处在一个这么有趣的变化时代。

如果你觉得内容对你有帮助,欢迎点赞、收藏、转发,这都是我最大的支持~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
疑似科大讯飞中奖者发文:我就是那个中奖人,再见江湖

疑似科大讯飞中奖者发文:我就是那个中奖人,再见江湖

三言科技
2026-04-14 06:19:04
油价暴涨终于影响市场,油车和电车都在跌,日本车似乎是赢家!

油价暴涨终于影响市场,油车和电车都在跌,日本车似乎是赢家!

柏铭锐谈
2026-04-14 11:24:56
后续!孕妇200买水果被老公骂:已去医院终止妊娠,坦言及时止损

后续!孕妇200买水果被老公骂:已去医院终止妊娠,坦言及时止损

青梅侃史啊
2026-04-14 07:17:00
张雪宣布将骑车飞跃长江:这次一定能成功!网友:好好造车别冒险

张雪宣布将骑车飞跃长江:这次一定能成功!网友:好好造车别冒险

念洲
2026-04-14 11:45:29
美媒:“布什”号航空母舰绕道非洲前往中东

美媒:“布什”号航空母舰绕道非洲前往中东

新京报
2026-04-14 12:33:13
美媒:沙特施压美国放弃封锁霍尔木兹海峡,担心促使伊朗升级行动,超15艘美军舰已到位

美媒:沙特施压美国放弃封锁霍尔木兹海峡,担心促使伊朗升级行动,超15艘美军舰已到位

扬子晚报
2026-04-14 12:13:08
50岁李小冉《乘风2026》状态引关注,曾表示:就喜欢吃完躺着

50岁李小冉《乘风2026》状态引关注,曾表示:就喜欢吃完躺着

韩小娱
2026-04-14 06:04:19
郑丽文返台后,岛内民调曝光,位列倒数第三,与沈伯洋几乎持平?

郑丽文返台后,岛内民调曝光,位列倒数第三,与沈伯洋几乎持平?

影孖看世界
2026-04-14 02:23:31
这居然是任泉?网友:真认不出来了

这居然是任泉?网友:真认不出来了

木子爱娱乐大号
2026-04-14 10:52:36
人穷能卑微到什么地步?网友说:一个男人两千块买了我三个晚上!

人穷能卑微到什么地步?网友说:一个男人两千块买了我三个晚上!

黯泉
2026-04-14 12:13:04
伊朗到现在都不敢相信,40天的血战,给自己打出了半个世纪的国运

伊朗到现在都不敢相信,40天的血战,给自己打出了半个世纪的国运

共工之锚
2026-04-14 00:36:53
河南巩义:143天马拉松式庭审背后,是一场瞄准3.4亿的精准收割?

河南巩义:143天马拉松式庭审背后,是一场瞄准3.4亿的精准收割?

有戏
2026-04-13 08:20:08
中央候补委员新职务明确!七个省级党委组织部部长调整

中央候补委员新职务明确!七个省级党委组织部部长调整

上观新闻
2026-04-14 11:58:06
暴跌!价格几乎腰斩!一女子连吃两天,剧烈腹痛胃底被堵死!很多人爱吃

暴跌!价格几乎腰斩!一女子连吃两天,剧烈腹痛胃底被堵死!很多人爱吃

南方都市报
2026-04-13 16:44:33
外交部宣布:查波将访华

外交部宣布:查波将访华

中国网
2026-04-14 10:53:35
演员文章开面馆引关注,代排队价格被炒到500元

演员文章开面馆引关注,代排队价格被炒到500元

界面新闻
2026-04-14 10:04:47
三天闪电访华!苏林急得直跺脚,东南亚集体掉头靠向中国

三天闪电访华!苏林急得直跺脚,东南亚集体掉头靠向中国

知鉴明史
2026-04-14 06:45:09
郑丽文回到台湾后,侯友宜不装了,卢秀燕表态,柯文哲深夜发声

郑丽文回到台湾后,侯友宜不装了,卢秀燕表态,柯文哲深夜发声

梁讯
2026-04-13 09:19:05
外交攻势升级!伊朗要求中东五国赔偿战争损失 背后有何考量?

外交攻势升级!伊朗要求中东五国赔偿战争损失 背后有何考量?

财联社
2026-04-14 10:04:36
震惊!大同悬空寺在公路旁砌墙“不让免费看”,当地网友发帖反驳

震惊!大同悬空寺在公路旁砌墙“不让免费看”,当地网友发帖反驳

火山詩话
2026-04-14 06:27:39
2026-04-14 14:19:00
AI进化论花生 incentive-icons
AI进化论花生
AI博主,AppStore付费榜第一的小猫补光灯app开发者
185文章数 109关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

恒大集团、恒大地产及许家印案开庭 许家印认罪悔罪

头条要闻

恒大集团、恒大地产及许家印案开庭 许家印认罪悔罪

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

房产
艺术
旅游
本地
公开课

房产要闻

改善标杆,1.5w+起横扫国兴!海口楼市,打出最猛一张牌!

艺术要闻

这位美女画家的夏天竟如此梦幻

旅游要闻

山水本身就是一间流动的自然课堂 春日文旅从“看风景”走向“读自然”

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版