![]()
今天凌晨,Anthropic毫无征兆地突然发布了Claude Sonnet 4.5,从版本号、发布的文章以及随之而来的产品功能更新看,这是个相当大的值得关注的版本。
核心要点
Claude Sonnet 4.5在SWE-bench Verified基准测试中达到行业最高水平,可持续专注超30小时处理复杂任务,定价维持不变($3/$15每百万tokens)
计算机使用能力大幅提升,OSWorld基准从4个月前的42.2%跃升至61.4%
Anthropic首次开放Claude Agent SDK,将支撑Claude Code的基础设施向开发者开放
推出"Imagine with Claude"研究预览,展示实时软件生成能力(非常有趣,文章中有实测案例)
模型性能又又又突破了
根据官方披露的数据,Claude Sonnet 4.5模型在多项关键指标上实现显著提升。
![]()
当然,我们最最关心的还是编程能力。Claude Sonnet 4.5在SWE-bench Verified评估中继续突破自己,超越了死贵死贵的Claude Opus 4.1达到当前最高水平(而价格则是维持和Claude Sonnet 4一样的水平)。SWE-bench Verified算是衡量AI模型解决真实世界软件编程问题的最重要的能力指标。Anthropic表示,在实际应用中观察到该模型能够在复杂多步骤任务上保持超过30小时的持续专注。听起来有点针对OpenAI CodeX的7小时了。
![]()
计算机使用能力方面的进步尤为明显。在测试AI模型执行真实计算机任务的OSWorld基准测试中,Sonnet 4.5取得61.4%的成绩,相比四个月前Sonnet 4的42.2%提升约45%。
Claude 官方用来展示的例子是他们做的浏览器插件——Claude for Chrome,演示的这个例子涉及表格、邮件、数字计算等,任务还算挺复杂的,效果看起来不错。
前几天,我发过一个用Claude Code+Chrome Devtools MCP当我的B站/油管运营实习生,自动给评论区回复内容的尝试,看起来这套组合所拥有的潜力还能继续挖掘。
除编程能力外,该模型在推理和数学相关的多项评估中也显示出改进。来自金融、法律、医学和STEM领域的专家评估显示,Sonnet 4.5在特定领域的知识深度和推理能力上相比早期模型(包括Opus 4.1)有显著提升。
![]()
注:STEM是四个学科领域英文首字母的缩写:
-Science(科学)
-Technology(技术)
-Engineering(工程)
-Mathematics(数学)
对齐与安全性改进
Anthropic强调,Claude Sonnet 4.5是该公司迄今为止"对齐度最高的前沿模型"。在自动化行为审计测试中,该模型在多个维度上的不良行为得分显著降低,包括奉承、欺骗、权力寻求以及鼓励妄想性思维等倾向。
针对AI代理和计算机使用场景中最严重的风险之一——提示注入攻击,Anthropic表示已取得重大进展。根据其发布的系统卡(system card):https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf,该模型的安全评估首次纳入了机械可解释性(mechanistic interpretability)技术。
该模型按照Anthropic的AI安全等级3(ASL-3)框架发布,配备了专门的分类器用于检测潜在危险的输入和输出,特别是涉及化学、生物、放射性和核武器(CBRN)相关内容。Anthropic表示,自该系统首次描述以来,误报率已降低十倍,自5月Claude Opus 4发布以来降低了一半。
![]()
Claude Agent SDK开放
深入用过Claude Code的人应该都会认同,尽管有很多产品都在称自己是通用型AI Agent,但真正在能力上做到又强又通用的,还真就是Claude Code。而在这次的发布里,Claude把他们用来构建Claude Code的所有基建,都作为Agent SDK开放了。
该SDK解决了构建AI代理过程中的几个核心难题:长时间运行任务中的内存管理、平衡自主性与用户控制的权限系统、以及协调多个子代理朝向共同目标工作的机制。
Anthropic表示,虽然该SDK是为Claude Code开发的,但其适用范围远超编程领域。从今日起,开发者可以使用这一SDK构建自己的AI代理应用。
产品生态系统更新
配合模型发布,Anthropic同步推出了多项产品功能更新:
Claude Code获得了用户呼声最高的"检查点"(checkpoints)功能,允许保存进度并即时回滚到之前状态。终端界面经过重新设计,并推出了原生VS Code扩展。
![]()
哈哈哈,“推出了原生VS Code扩展”这一点很有趣,说明Claude的AI编程产品形态不止于CLI,而是要开始进入IDE形态了。其实也很像我前段时间所吐槽的那样
Claude Code推出后,国内大厂也一窝蜂去做CLI形态的AI编程产品,但是Claude Code强并不代表CLI形态的天然正确。抛弃图形界面增加了用户使用门槛,但并没有真正绝对的先进性,这不,Claude 也要开始重新覆盖具备图形界面的IDE插件这种产品形态,我估计离Claude原生AI IDE也不远了。
ClaudeAPI新增了上下文编辑功能和内存工具,使代理能够运行更长时间并处理更高复杂度的任务。
Claude应用中直接集成了代码执行和文件创建能力,支持电子表格、幻灯片和文档的生成。
Claude for Chrome扩展向上月加入等候名单的Max用户开放。该扩展利用了模型升级后的计算机使用能力,可以直接在浏览器中导航网站、填写表格并完成任务。
"Imagine with Claude"研究预览
"Imagine with Claude",Anthropic称之为临时研究预览,用来展示实时软件生成能力。我觉得算是这次发布里最有趣也最有野心的一个产品了。该实验中的功能并非预先确定,代码也非预先编写,而是由Claude实时创建,根据用户交互进行响应和适应。
它提供了一个类似带输入框的桌面界面,你可以通过自然语言去生成各类应用。
比如我试了天气预报、计算器、游戏、足球比赛实时比分看板等,很特别的是所有功能和界面都是流式生成,在你面前实时展现的。
而且,很多界面展示还没功能,会在你点击操作后,Claude会预测你下一步需要的功能和界面,再做后续的内容/功能生成。我看到了Anthropic有种想再建一个AI native的操作系统的想法。
这是个很有趣的开始。
功能链接在此,需要Max会员才能用:https://claude.ai/imagine/
虽然Anthropic这家公司,以及他们的CEO在对华政策上有各种愚蠢的问题。但不得不承认他们的模型在Coding、Agent上的领先性,这次的更新又将会是对AI编程产品和Agent产品不小的洗牌。
谁对Claude Sonnet 4.5模型的能力有最强的认知,谁能用工程能力把这个模型的能力压榨透,谁又能在这个新智能的基础上构建出新形态的产品,还真是无比值得期待。
而像“Imagine with Claude”这个功能实在是个初级得不能再初级的初代产品,但是它背后又隐藏着颠覆Windows的可能性,我觉得这会是个被重新开拓的新战场,很高兴身处在一个这么有趣的变化时代。
如果你觉得内容对你有帮助,欢迎点赞、收藏、转发,这都是我最大的支持~
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.