Anthropic发布Claude Sonnet 4.5：编程能力再登顶，新产品试图颠覆Windows操作系统|插件|sdk|安全卫士|agent|windows

Anthropic发布Claude Sonnet 4.5：编程能力再登顶，新产品试图颠覆Windows操作系统

2025-09-30 04:21:33　来源: AI进化论花生

北京举报

分享至

今天凌晨，Anthropic毫无征兆地突然发布了Claude Sonnet 4.5，从版本号、发布的文章以及随之而来的产品功能更新看，这是个相当大的值得关注的版本。

核心要点

Claude Sonnet 4.5在SWE-bench Verified基准测试中达到行业最高水平，可持续专注超30小时处理复杂任务，定价维持不变($3/$15每百万tokens)
计算机使用能力大幅提升，OSWorld基准从4个月前的42.2%跃升至61.4%
Anthropic首次开放Claude Agent SDK，将支撑Claude Code的基础设施向开发者开放
推出"Imagine with Claude"研究预览，展示实时软件生成能力（非常有趣，文章中有实测案例）

模型性能又又又突破了

根据官方披露的数据，Claude Sonnet 4.5模型在多项关键指标上实现显著提升。

当然，我们最最关心的还是编程能力。Claude Sonnet 4.5在SWE-bench Verified评估中继续突破自己，超越了死贵死贵的Claude Opus 4.1达到当前最高水平（而价格则是维持和Claude Sonnet 4一样的水平）。SWE-bench Verified算是衡量AI模型解决真实世界软件编程问题的最重要的能力指标。Anthropic表示，在实际应用中观察到该模型能够在复杂多步骤任务上保持超过30小时的持续专注。听起来有点针对OpenAI CodeX的7小时了。

计算机使用能力方面的进步尤为明显。在测试AI模型执行真实计算机任务的OSWorld基准测试中，Sonnet 4.5取得61.4%的成绩，相比四个月前Sonnet 4的42.2%提升约45%。

Claude 官方用来展示的例子是他们做的浏览器插件——Claude for Chrome，演示的这个例子涉及表格、邮件、数字计算等，任务还算挺复杂的，效果看起来不错。

前几天，我发过一个用Claude Code+Chrome Devtools MCP当我的B站/油管运营实习生，自动给评论区回复内容的尝试，看起来这套组合所拥有的潜力还能继续挖掘。

除编程能力外，该模型在推理和数学相关的多项评估中也显示出改进。来自金融、法律、医学和STEM领域的专家评估显示，Sonnet 4.5在特定领域的知识深度和推理能力上相比早期模型(包括Opus 4.1)有显著提升。

注：STEM是四个学科领域英文首字母的缩写：

-Science（科学）

-Technology（技术）

-Engineering（工程）

-Mathematics（数学）

对齐与安全性改进

Anthropic强调，Claude Sonnet 4.5是该公司迄今为止"对齐度最高的前沿模型"。在自动化行为审计测试中，该模型在多个维度上的不良行为得分显著降低，包括奉承、欺骗、权力寻求以及鼓励妄想性思维等倾向。

针对AI代理和计算机使用场景中最严重的风险之一——提示注入攻击，Anthropic表示已取得重大进展。根据其发布的系统卡(system card)：https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf，该模型的安全评估首次纳入了机械可解释性(mechanistic interpretability)技术。

该模型按照Anthropic的AI安全等级3(ASL-3)框架发布，配备了专门的分类器用于检测潜在危险的输入和输出，特别是涉及化学、生物、放射性和核武器(CBRN)相关内容。Anthropic表示，自该系统首次描述以来，误报率已降低十倍，自5月Claude Opus 4发布以来降低了一半。

Claude Agent SDK开放

深入用过Claude Code的人应该都会认同，尽管有很多产品都在称自己是通用型AI Agent，但真正在能力上做到又强又通用的，还真就是Claude Code。而在这次的发布里，Claude把他们用来构建Claude Code的所有基建，都作为Agent SDK开放了。

该SDK解决了构建AI代理过程中的几个核心难题：长时间运行任务中的内存管理、平衡自主性与用户控制的权限系统、以及协调多个子代理朝向共同目标工作的机制。

Anthropic表示，虽然该SDK是为Claude Code开发的，但其适用范围远超编程领域。从今日起，开发者可以使用这一SDK构建自己的AI代理应用。

产品生态系统更新

配合模型发布，Anthropic同步推出了多项产品功能更新：

Claude Code获得了用户呼声最高的"检查点"(checkpoints)功能，允许保存进度并即时回滚到之前状态。终端界面经过重新设计，并推出了原生VS Code扩展。

哈哈哈，“推出了原生VS Code扩展”这一点很有趣，说明Claude的AI编程产品形态不止于CLI，而是要开始进入IDE形态了。其实也很像我前段时间所吐槽的那样

Claude Code推出后，国内大厂也一窝蜂去做CLI形态的AI编程产品，但是Claude Code强并不代表CLI形态的天然正确。抛弃图形界面增加了用户使用门槛，但并没有真正绝对的先进性，这不，Claude 也要开始重新覆盖具备图形界面的IDE插件这种产品形态，我估计离Claude原生AI IDE也不远了。

ClaudeAPI新增了上下文编辑功能和内存工具，使代理能够运行更长时间并处理更高复杂度的任务。

Claude应用中直接集成了代码执行和文件创建能力，支持电子表格、幻灯片和文档的生成。

Claude for Chrome扩展向上月加入等候名单的Max用户开放。该扩展利用了模型升级后的计算机使用能力，可以直接在浏览器中导航网站、填写表格并完成任务。

"Imagine with Claude"研究预览

"Imagine with Claude"，Anthropic称之为临时研究预览，用来展示实时软件生成能力。我觉得算是这次发布里最有趣也最有野心的一个产品了。该实验中的功能并非预先确定，代码也非预先编写，而是由Claude实时创建，根据用户交互进行响应和适应。

它提供了一个类似带输入框的桌面界面，你可以通过自然语言去生成各类应用。

比如我试了天气预报、计算器、游戏、足球比赛实时比分看板等，很特别的是所有功能和界面都是流式生成，在你面前实时展现的。

而且，很多界面展示还没功能，会在你点击操作后，Claude会预测你下一步需要的功能和界面，再做后续的内容/功能生成。我看到了Anthropic有种想再建一个AI native的操作系统的想法。

这是个很有趣的开始。

功能链接在此，需要Max会员才能用：https://claude.ai/imagine/

虽然Anthropic这家公司，以及他们的CEO在对华政策上有各种愚蠢的问题。但不得不承认他们的模型在Coding、Agent上的领先性，这次的更新又将会是对AI编程产品和Agent产品不小的洗牌。

谁对Claude Sonnet 4.5模型的能力有最强的认知，谁能用工程能力把这个模型的能力压榨透，谁又能在这个新智能的基础上构建出新形态的产品，还真是无比值得期待。

而像“Imagine with Claude”这个功能实在是个初级得不能再初级的初代产品，但是它背后又隐藏着颠覆Windows的可能性，我觉得这会是个被重新开拓的新战场，很高兴身处在一个这么有趣的变化时代。

如果你觉得内容对你有帮助，欢迎点赞、收藏、转发，这都是我最大的支持～

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.