网易首页 > 网易号 > 正文 申请入驻

Anthropic发布Claude Sonnet 4.5:编程能力再登顶,新产品试图颠覆Windows操作系统

0
分享至


今天凌晨,Anthropic毫无征兆地突然发布了Claude Sonnet 4.5,从版本号、发布的文章以及随之而来的产品功能更新看,这是个相当大的值得关注的版本。

核心要点

  • Claude Sonnet 4.5在SWE-bench Verified基准测试中达到行业最高水平,可持续专注超30小时处理复杂任务,定价维持不变($3/$15每百万tokens)

  • 计算机使用能力大幅提升,OSWorld基准从4个月前的42.2%跃升至61.4%

  • Anthropic首次开放Claude Agent SDK,将支撑Claude Code的基础设施向开发者开放

  • 推出"Imagine with Claude"研究预览,展示实时软件生成能力(非常有趣,文章中有实测案例)


模型性能又又又突破了

根据官方披露的数据,Claude Sonnet 4.5模型在多项关键指标上实现显著提升。


当然,我们最最关心的还是编程能力。Claude Sonnet 4.5在SWE-bench Verified评估中继续突破自己,超越了死贵死贵的Claude Opus 4.1达到当前最高水平(而价格则是维持和Claude Sonnet 4一样的水平)。SWE-bench Verified算是衡量AI模型解决真实世界软件编程问题的最重要的能力指标。Anthropic表示,在实际应用中观察到该模型能够在复杂多步骤任务上保持超过30小时的持续专注。听起来有点针对OpenAI CodeX的7小时了。


计算机使用能力方面的进步尤为明显。在测试AI模型执行真实计算机任务的OSWorld基准测试中,Sonnet 4.5取得61.4%的成绩,相比四个月前Sonnet 4的42.2%提升约45%。

Claude 官方用来展示的例子是他们做的浏览器插件——Claude for Chrome,演示的这个例子涉及表格、邮件、数字计算等,任务还算挺复杂的,效果看起来不错。

前几天,我发过一个用Claude Code+Chrome Devtools MCP当我的B站/油管运营实习生,自动给评论区回复内容的尝试,看起来这套组合所拥有的潜力还能继续挖掘。

除编程能力外,该模型在推理和数学相关的多项评估中也显示出改进。来自金融、法律、医学和STEM领域的专家评估显示,Sonnet 4.5在特定领域的知识深度和推理能力上相比早期模型(包括Opus 4.1)有显著提升。


注:STEM是四个学科领域英文首字母的缩写:

-Science(科学)

-Technology(技术)

-Engineering(工程)

-Mathematics(数学)

对齐与安全性改进

Anthropic强调,Claude Sonnet 4.5是该公司迄今为止"对齐度最高的前沿模型"。在自动化行为审计测试中,该模型在多个维度上的不良行为得分显著降低,包括奉承、欺骗、权力寻求以及鼓励妄想性思维等倾向。

针对AI代理和计算机使用场景中最严重的风险之一——提示注入攻击,Anthropic表示已取得重大进展。根据其发布的系统卡(system card):https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf,该模型的安全评估首次纳入了机械可解释性(mechanistic interpretability)技术。

该模型按照Anthropic的AI安全等级3(ASL-3)框架发布,配备了专门的分类器用于检测潜在危险的输入和输出,特别是涉及化学、生物、放射性和核武器(CBRN)相关内容。Anthropic表示,自该系统首次描述以来,误报率已降低十倍,自5月Claude Opus 4发布以来降低了一半。



Claude Agent SDK开放

深入用过Claude Code的人应该都会认同,尽管有很多产品都在称自己是通用型AI Agent,但真正在能力上做到又强又通用的,还真就是Claude Code。而在这次的发布里,Claude把他们用来构建Claude Code的所有基建,都作为Agent SDK开放了。

该SDK解决了构建AI代理过程中的几个核心难题:长时间运行任务中的内存管理、平衡自主性与用户控制的权限系统、以及协调多个子代理朝向共同目标工作的机制。

Anthropic表示,虽然该SDK是为Claude Code开发的,但其适用范围远超编程领域。从今日起,开发者可以使用这一SDK构建自己的AI代理应用。

产品生态系统更新

配合模型发布,Anthropic同步推出了多项产品功能更新:

Claude Code获得了用户呼声最高的"检查点"(checkpoints)功能,允许保存进度并即时回滚到之前状态。终端界面经过重新设计,并推出了原生VS Code扩展。


哈哈哈,“推出了原生VS Code扩展”这一点很有趣,说明Claude的AI编程产品形态不止于CLI,而是要开始进入IDE形态了。其实也很像我前段时间所吐槽的那样

Claude Code推出后,国内大厂也一窝蜂去做CLI形态的AI编程产品,但是Claude Code强并不代表CLI形态的天然正确。抛弃图形界面增加了用户使用门槛,但并没有真正绝对的先进性,这不,Claude 也要开始重新覆盖具备图形界面的IDE插件这种产品形态,我估计离Claude原生AI IDE也不远了。

ClaudeAPI新增了上下文编辑功能和内存工具,使代理能够运行更长时间并处理更高复杂度的任务。

Claude应用中直接集成了代码执行和文件创建能力,支持电子表格、幻灯片和文档的生成。

Claude for Chrome扩展向上月加入等候名单的Max用户开放。该扩展利用了模型升级后的计算机使用能力,可以直接在浏览器中导航网站、填写表格并完成任务。

"Imagine with Claude"研究预览

"Imagine with Claude",Anthropic称之为临时研究预览,用来展示实时软件生成能力。我觉得算是这次发布里最有趣也最有野心的一个产品了。该实验中的功能并非预先确定,代码也非预先编写,而是由Claude实时创建,根据用户交互进行响应和适应。

它提供了一个类似带输入框的桌面界面,你可以通过自然语言去生成各类应用。

比如我试了天气预报、计算器、游戏、足球比赛实时比分看板等,很特别的是所有功能和界面都是流式生成,在你面前实时展现的。

而且,很多界面展示还没功能,会在你点击操作后,Claude会预测你下一步需要的功能和界面,再做后续的内容/功能生成。我看到了Anthropic有种想再建一个AI native的操作系统的想法。

这是个很有趣的开始。

功能链接在此,需要Max会员才能用:https://claude.ai/imagine/

虽然Anthropic这家公司,以及他们的CEO在对华政策上有各种愚蠢的问题。但不得不承认他们的模型在Coding、Agent上的领先性,这次的更新又将会是对AI编程产品和Agent产品不小的洗牌。

谁对Claude Sonnet 4.5模型的能力有最强的认知,谁能用工程能力把这个模型的能力压榨透,谁又能在这个新智能的基础上构建出新形态的产品,还真是无比值得期待。

而像“Imagine with Claude”这个功能实在是个初级得不能再初级的初代产品,但是它背后又隐藏着颠覆Windows的可能性,我觉得这会是个被重新开拓的新战场,很高兴身处在一个这么有趣的变化时代。

如果你觉得内容对你有帮助,欢迎点赞、收藏、转发,这都是我最大的支持~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄金又出大事了,目前已经有个人想要出售黄金,但是金店拒绝回收

黄金又出大事了,目前已经有个人想要出售黄金,但是金店拒绝回收

流苏晚晴
2025-11-02 16:32:42
玄学提醒:想要命好,一定要学会避谶

玄学提醒:想要命好,一定要学会避谶

诗词中国
2025-11-01 21:36:55
梅德韦杰夫:一旦战败,就用核弹攻击4个国家,让世界进入末日

梅德韦杰夫:一旦战败,就用核弹攻击4个国家,让世界进入末日

荆楚寰宇文枢
2025-09-28 22:00:23
于海青:为何说越来越多城投开发以及城建相关老总被查发人深思?

于海青:为何说越来越多城投开发以及城建相关老总被查发人深思?

于海青
2025-11-03 00:27:43
山东最新人事任免!

山东最新人事任免!

山东教育
2025-11-03 12:16:50
纪实:武大校花陈怡,嫁黑人丈夫却被迫接客,父亲解救失败后自杀

纪实:武大校花陈怡,嫁黑人丈夫却被迫接客,父亲解救失败后自杀

谈史论天地
2025-10-18 12:25:54
刘亦菲于适恋情?孟子义靠赵樱子入行?陈瑶又被耽误了?翁青雅对朱珠耍大牌?老牌女星乱发脾气?

刘亦菲于适恋情?孟子义靠赵樱子入行?陈瑶又被耽误了?翁青雅对朱珠耍大牌?老牌女星乱发脾气?

十锤星人
2025-11-02 22:45:02
“安世大劫案”越闹越大!巴西来找中方求助,荷兰被“公开处刑”

“安世大劫案”越闹越大!巴西来找中方求助,荷兰被“公开处刑”

林子说事
2025-11-02 15:42:57
“吉林一号”回应俯瞰台湾:我们想拍哪里,就能拍到哪里

“吉林一号”回应俯瞰台湾:我们想拍哪里,就能拍到哪里

极目新闻
2025-11-02 17:55:34
台湾军费拉到GDP5%!徐巧芯回击:怕您不会算,给你答案

台湾军费拉到GDP5%!徐巧芯回击:怕您不会算,给你答案

新时光点滴
2025-11-03 10:50:23
同事们抱团排挤我,我主动申请调去仓库,三个月后董事长亲自来请我

同事们抱团排挤我,我主动申请调去仓库,三个月后董事长亲自来请我

萧竹轻语
2025-10-27 16:22:35
大跌眼镜!Angelababy在上海网红餐厅吃饭舔手指,用手擦嘴擦脸

大跌眼镜!Angelababy在上海网红餐厅吃饭舔手指,用手擦嘴擦脸

小娱乐悠悠
2025-11-03 09:29:44
酸了,韩国电影确实有东西

酸了,韩国电影确实有东西

电影爬虫
2025-11-01 22:30:15
能传能射,拉什福德是本赛季首位进球、助攻均6+的西甲球员

能传能射,拉什福德是本赛季首位进球、助攻均6+的西甲球员

懂球帝
2025-11-03 03:13:16
来了,巴萨!正式确定签约8000万“顶星”!“探花射手”主动加盟

来了,巴萨!正式确定签约8000万“顶星”!“探花射手”主动加盟

头狼追球
2025-11-03 09:14:30
暴跌了50%!中国第一睡城成鬼城,十年前上车“燕郊”的人都哭了

暴跌了50%!中国第一睡城成鬼城,十年前上车“燕郊”的人都哭了

墨兰史书
2025-10-24 13:25:03
公牛马刺都输了,湖人也不爆40+了?

公牛马刺都输了,湖人也不爆40+了?

张佳玮写字的地方
2025-11-03 13:53:36
打胎小生被大佬玩到脱G!墨镜导演让女明星陪大佬!

打胎小生被大佬玩到脱G!墨镜导演让女明星陪大佬!

八卦疯叔
2025-11-01 14:20:03
泪痕未干,清华做出决定!翁帆哭肿双眼的背后是先生的“永生”

泪痕未干,清华做出决定!翁帆哭肿双眼的背后是先生的“永生”

Thurman在昆明
2025-11-03 05:46:43
荷兰切断中国安世晶圆供应,德国也变脸了,180度转向令各方错愕

荷兰切断中国安世晶圆供应,德国也变脸了,180度转向令各方错愕

特特农村生活
2025-11-03 12:26:54
2025-11-03 14:20:49
AI进化论花生 incentive-icons
AI进化论花生
AI博主,AppStore付费榜第一的小猫补光灯app开发者
80文章数 24关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

媒体:高市早苗发表涉台错误言行 中方直接"亮剑"

头条要闻

媒体:高市早苗发表涉台错误言行 中方直接"亮剑"

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

录音彻底揭露知名导演王家卫的体面

财经要闻

马斯克:未来5-6年传统手机与App将消失

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

教育
本地
旅游
家居
军事航空

教育要闻

火花思维荣获艾瑞咨询权威确认,领跑数理思维真人小班直播课赛道

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

旅游要闻

银山重阳户外生活节亮相昌平延寿

家居要闻

岁月柔情 现代品质轻奢

军事要闻

美总统威胁对尼日利亚动武 尼方回应

无障碍浏览 进入关怀版