网易首页 > 网易号 > 正文 申请入驻

重磅!Claude Sonnet 4.5发布,可连续编程30小时,Claude Code同款构建工具也开放了

0
分享至

看起来10月又是一个大月,DeepSeek用v3.2开场,Anthropic,谷歌,OpenAI都有大动作

刚刚,Anthropic发布了其最新前沿模型——Claude Sonnet 4.5

官方称,这是目前全球最强的代码模型、最强的复杂智能体构建模型、以及最擅长使用计算机的模型,并且在推理和数学能力上取得了显著进步

伴随新模型发布的,还有一系列产品全家桶的升级,Anthropic还首次开放了构建Claude Code的同款工具,最后还发布了一个比较科幻的东西叫Imagine with Claude,可以实时动态生成软件,不过目前还是研究预览

Claude Sonnet 4.5现已全面可用,通过API调用claude-sonnet-4-5即可。价格与上一代Sonnet 4保持不变,为每百万token输入3美元/输出15美元

新模型性能有多强?

Anthropic表示,Claude Sonnet 4.5在衡量真实世界软件编码能力的SWE-bench Verified评估中达到了业界顶尖(SOTA)水平。在实际测试中,该模型能在复杂的多步骤任务上保持超过30小时的专注

在计算机使用能力方面,Sonnet 4.5也实现了巨大飞跃。在测试AI模型真实世界计算机任务的OSWorld基准上,Sonnet 4.5以61.4%的得分领先。就在四个月前,Sonnet 4还以42.2%的成绩保持领先

此外,该模型在一系列广泛的评估中也展示了更强的能力,包括推理和数学:

来自金融、法律、医学和STEM领域的专家发现,与包括Opus 4.1在内的旧模型相比,Sonnet 4.5在特定领域的知识和推理能力上表现出了显著的提升

产品全家桶重大升级

Claude Code新增了“检查点”(checkpoints)功能,可以保存进度并即时回滚到之前的状态。同时,终端界面也进行了更新,并推出了原生的VS Code扩展

Claude API增加了新的上下文编辑功能和记忆工具,使智能体能够运行更长时间并处理更复杂的任务。

Claude App中,代码执行和文件创建(电子表格、幻灯片和文档)功能被直接整合到对话中

Claude for Chrome扩展已向所有上个月加入等待名单的Max用户开放

首次开放Claude Agent SDK

Anthropic此次还开放了他们用于构建Claude Code的基石——Claude Agent SDK

官方表示,他们解决了构建AI智能体过程中的多个难题:智能体如何在长时间任务中管理记忆、如何平衡自主性与用户控制的权限系统、以及如何协调多个子智能体以实现共同目标

现在,这套为Anthropic前沿产品提供动力的基础设施正式向所有开发者开放,可用于构建自己的智能体

地址:

https://www.anthropic.com/engineering/building-agents-with-the-claude-agent-sdk(使用 Claude Agent SDK 构建 Agent)

史上最对齐模型

Anthropic称,Claude Sonnet 4.5是其迄今为止最对齐的前沿模型

通过提升模型能力和进行广泛的安全训练,模型的行为得到了显著改善,减少了逢迎、欺骗、权力寻求和鼓励妄想等不良行为。针对智能体和计算机使用能力,模型在抵御提示注入攻击方面也取得了长足进步

Claude Sonnet 4.5在AI安全等级3(ASL-3)的保护下发布。这些保护措施包括旨在检测潜在危险输入和输出的分类器,特别是与化学、生物、放射性和核(CBRN)武器相关的内容

如果分类器意外标记了正常内容,用户可以方便地切换到CBRN风险较低的Sonnet 4模型继续对话。Anthropic表示,自最初引入分类器以来,他们已将误报率降低了十倍

one more thing

与Sonnet 4.5一同发布的还有一个名为“Imagine with Claude”的限时研究预览

在这个实验中,Claude能够实时动态地生成软件,没有任何预定功能或预写代码。用户可以看到Claude根据交互请求进行实时创建和调整

该功能向Max订阅用户开放,为期五天

上手小测试

我用之前测试新模型前端能力的提示词测了一下,并且至少进行了5次抽卡,没有一次成功,感觉Claude Sonnet 4.5代码能力提升貌似不大,提示词如下:

模拟,一个由弹力球组成的正方体漂浮在半空中,从正方体最下一层慢慢塌方,注意是,一层一层塌方,小球落在桌子上弹起来,直到静止,模拟整个塌方过程,整个过程符合物理规律,效果要酷炫,整个环境要尽量逼近真实,在单个HTML中实现

实现效果:一次掉落了两层后,小球就不往下掉落了,核心的逻辑没有实现

完整的技术细节和评估结果,可参阅官方发布的系统卡、模型页面和文档

https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf(整整148页)

https://www.anthropic.com/claude/sonnet

https://docs.claude.com/en/docs/about-claude/models/overview

https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents(这篇也很重要,讲如何为Agent构建的上下文工程context engineering,详细请看下一篇文章)

官方测试方法说明

SWE-bench Verified: 所有Claude结果均使用一个包含bash和文件编辑两个工具的简单框架报告。在完整的500个问题的SWE-bench Verified数据集上,通过10次试验平均,无测试时计算,200K思考预算,得分为77.2%

OSWorld: 所有分数均使用官方OSWorld-Verified框架报告,最大步数为100,4次运行取平均值

MMMLU: 所有分数均为在14种非英语语言上进行5次运行的平均值,并使用了扩展思考(最高128K)。

其他模型的得分均引用自OpenAI和Google发布的官方文章或排行榜

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
凤凰卫视记者抛出尖锐难题,郑丽文接下来的回答,让对手没法接招

凤凰卫视记者抛出尖锐难题,郑丽文接下来的回答,让对手没法接招

林子说事
2026-04-11 19:36:01
4月11日俄乌最新:俄罗斯的关键条件

4月11日俄乌最新:俄罗斯的关键条件

西楼饮月
2026-04-11 21:42:50
赵子琪浪姐一公淘汰后发文不会再来被质疑茶言茶语

赵子琪浪姐一公淘汰后发文不会再来被质疑茶言茶语

一窥究竟
2026-04-11 20:37:09
2026第三场战争:匈牙利大选

2026第三场战争:匈牙利大选

书生论剑
2026-04-11 01:57:12
广东队VS广厦队,广东队13人大名单出炉!

广东队VS广厦队,广东队13人大名单出炉!

体育哲人
2026-04-11 20:22:58
男人的生理需求能有多难忍?我对老公只剩动物本能

男人的生理需求能有多难忍?我对老公只剩动物本能

那年秋天
2026-04-11 11:44:13
华国锋题字震惊众人!没练书法的人写得竟比高手还好!

华国锋题字震惊众人!没练书法的人写得竟比高手还好!

书画相约
2026-04-10 08:19:50
直落两局轻松胜出!石宇奇2-0轻取周天成,7年后再进亚锦赛决赛

直落两局轻松胜出!石宇奇2-0轻取周天成,7年后再进亚锦赛决赛

全景体育V
2026-04-11 19:00:09
闭门会谈 1 小时,郑丽文邀咱们访台。大陆一句话,定调两岸统一

闭门会谈 1 小时,郑丽文邀咱们访台。大陆一句话,定调两岸统一

眼界看视野
2026-04-11 11:29:37
美国飞船返航后,头条上的这两个热搜,让人觉得很无语

美国飞船返航后,头条上的这两个热搜,让人觉得很无语

消失的电波
2026-04-11 22:25:37
活久见!持仓1617万,千万黄金持仓账户火爆全网,户主只买不卖…

活久见!持仓1617万,千万黄金持仓账户火爆全网,户主只买不卖…

火山詩话
2026-04-11 15:08:05
NASA发布“最清晰的月球照片”,地球无法观察的月背:细节满满

NASA发布“最清晰的月球照片”,地球无法观察的月背:细节满满

环球科学猫
2026-04-09 13:11:52
大兴安岭发现“犴达罕”, 被称为“森林之神”, 一架犴角值1万多

大兴安岭发现“犴达罕”, 被称为“森林之神”, 一架犴角值1万多

万象硬核本尊
2026-04-11 18:55:29
深度长文:玻尔与爱因斯坦到底在争论什么?贝尔不等式的终极裁决

深度长文:玻尔与爱因斯坦到底在争论什么?贝尔不等式的终极裁决

宇宙时空
2026-04-10 17:00:46
赵勇泪别母亲陈丽华!他曾支持母亲再婚,不嫌弃生父平凡

赵勇泪别母亲陈丽华!他曾支持母亲再婚,不嫌弃生父平凡

细品名人
2026-04-11 07:29:02
郑丽文到北京碧云寺!穿咖色风衣与蓝牛仔裤很减龄,还松弛感满满

郑丽文到北京碧云寺!穿咖色风衣与蓝牛仔裤很减龄,还松弛感满满

八八尚语
2026-04-11 12:39:16
张大千:国家的钱怎么能用来帮私人还债,由此拒绝回归大陆

张大千:国家的钱怎么能用来帮私人还债,由此拒绝回归大陆

南极狼人
2026-04-11 19:00:11
赖清德做梦也想不到,郑丽文只用6天时间,或扭转国民党20年颓势

赖清德做梦也想不到,郑丽文只用6天时间,或扭转国民党20年颓势

肖兹探秘说
2026-04-10 18:09:23
美伊代表先后抵达伊斯兰堡,第一关是“谈不谈?怎么谈?”

美伊代表先后抵达伊斯兰堡,第一关是“谈不谈?怎么谈?”

上观新闻
2026-04-11 15:27:27
北京首钢拒绝输球!全力击败上海队,麦基对位怀特塞德,央视直播

北京首钢拒绝输球!全力击败上海队,麦基对位怀特塞德,央视直播

体坛瞎白话
2026-04-11 08:54:30
2026-04-12 00:43:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1036文章数 396关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

家居
数码
旅游
公开课
军事航空

家居要闻

复古风格 自然简约

数码要闻

荣耀MagicPad3 Pro 12.3官宣 机身厚度仅4.8mm

旅游要闻

[视频]多元业态融合 打造文旅消费新热点

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗议长带四名遇难儿童照片赴美伊谈判

无障碍浏览 进入关怀版