网易首页 > 网易号 > 正文 申请入驻

重磅!Claude Sonnet 4.5发布,可连续编程30小时,Claude Code同款构建工具也开放了

0
分享至


看起来10月又是一个大月,DeepSeek用v3.2开场,Anthropic,谷歌,OpenAI都有大动作

刚刚,Anthropic发布了其最新前沿模型——Claude Sonnet 4.5

官方称,这是目前全球最强的代码模型、最强的复杂智能体构建模型、以及最擅长使用计算机的模型,并且在推理和数学能力上取得了显著进步

伴随新模型发布的,还有一系列产品全家桶的升级,Anthropic还首次开放了构建Claude Code的同款工具,最后还发布了一个比较科幻的东西叫Imagine with Claude,可以实时动态生成软件,不过目前还是研究预览

Claude Sonnet 4.5现已全面可用,通过API调用claude-sonnet-4-5即可。价格与上一代Sonnet 4保持不变,为每百万token输入3美元/输出15美元

新模型性能有多强?

Anthropic表示,Claude Sonnet 4.5在衡量真实世界软件编码能力的SWE-bench Verified评估中达到了业界顶尖(SOTA)水平。在实际测试中,该模型能在复杂的多步骤任务上保持超过30小时的专注


在计算机使用能力方面,Sonnet 4.5也实现了巨大飞跃。在测试AI模型真实世界计算机任务的OSWorld基准上,Sonnet 4.5以61.4%的得分领先。就在四个月前,Sonnet 4还以42.2%的成绩保持领先

此外,该模型在一系列广泛的评估中也展示了更强的能力,包括推理和数学:


来自金融、法律、医学和STEM领域的专家发现,与包括Opus 4.1在内的旧模型相比,Sonnet 4.5在特定领域的知识和推理能力上表现出了显著的提升


产品全家桶重大升级

Claude Code新增了“检查点”(checkpoints)功能,可以保存进度并即时回滚到之前的状态。同时,终端界面也进行了更新,并推出了原生的VS Code扩展

Claude API增加了新的上下文编辑功能和记忆工具,使智能体能够运行更长时间并处理更复杂的任务。

Claude App中,代码执行和文件创建(电子表格、幻灯片和文档)功能被直接整合到对话中

Claude for Chrome扩展已向所有上个月加入等待名单的Max用户开放

首次开放Claude Agent SDK

Anthropic此次还开放了他们用于构建Claude Code的基石——Claude Agent SDK

官方表示,他们解决了构建AI智能体过程中的多个难题:智能体如何在长时间任务中管理记忆、如何平衡自主性与用户控制的权限系统、以及如何协调多个子智能体以实现共同目标

现在,这套为Anthropic前沿产品提供动力的基础设施正式向所有开发者开放,可用于构建自己的智能体

地址:

https://www.anthropic.com/engineering/building-agents-with-the-claude-agent-sdk(使用 Claude Agent SDK 构建 Agent)

史上最对齐模型

Anthropic称,Claude Sonnet 4.5是其迄今为止最对齐的前沿模型


通过提升模型能力和进行广泛的安全训练,模型的行为得到了显著改善,减少了逢迎、欺骗、权力寻求和鼓励妄想等不良行为。针对智能体和计算机使用能力,模型在抵御提示注入攻击方面也取得了长足进步

Claude Sonnet 4.5在AI安全等级3(ASL-3)的保护下发布。这些保护措施包括旨在检测潜在危险输入和输出的分类器,特别是与化学、生物、放射性和核(CBRN)武器相关的内容

如果分类器意外标记了正常内容,用户可以方便地切换到CBRN风险较低的Sonnet 4模型继续对话。Anthropic表示,自最初引入分类器以来,他们已将误报率降低了十倍

one more thing

与Sonnet 4.5一同发布的还有一个名为“Imagine with Claude”的限时研究预览

在这个实验中,Claude能够实时动态地生成软件,没有任何预定功能或预写代码。用户可以看到Claude根据交互请求进行实时创建和调整

该功能向Max订阅用户开放,为期五天

上手小测试

我用之前测试新模型前端能力的提示词测了一下,并且至少进行了5次抽卡,没有一次成功,感觉Claude Sonnet 4.5代码能力提升貌似不大,提示词如下:

模拟,一个由弹力球组成的正方体漂浮在半空中,从正方体最下一层慢慢塌方,注意是,一层一层塌方,小球落在桌子上弹起来,直到静止,模拟整个塌方过程,整个过程符合物理规律,效果要酷炫,整个环境要尽量逼近真实,在单个HTML中实现

实现效果:一次掉落了两层后,小球就不往下掉落了,核心的逻辑没有实现

完整的技术细节和评估结果,可参阅官方发布的系统卡、模型页面和文档

https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf(整整148页)

https://www.anthropic.com/claude/sonnet

https://docs.claude.com/en/docs/about-claude/models/overview

https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents(这篇也很重要,讲如何为Agent构建的上下文工程context engineering,详细请看下一篇文章)

官方测试方法说明

SWE-bench Verified: 所有Claude结果均使用一个包含bash和文件编辑两个工具的简单框架报告。在完整的500个问题的SWE-bench Verified数据集上,通过10次试验平均,无测试时计算,200K思考预算,得分为77.2%

OSWorld: 所有分数均使用官方OSWorld-Verified框架报告,最大步数为100,4次运行取平均值

MMMLU: 所有分数均为在14种非英语语言上进行5次运行的平均值,并使用了扩展思考(最高128K)。

其他模型的得分均引用自OpenAI和Google发布的官方文章或排行榜

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

环球网资讯
2026-03-25 15:39:26
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
原来他12年前就已离世!患病3年女儿不愿照看,死后为争遗产现身

原来他12年前就已离世!患病3年女儿不愿照看,死后为争遗产现身

白面书誏
2026-03-26 13:38:18
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
26号收评:沪指失守3900点,所有人都注意了,大盘后市开始这样看

26号收评:沪指失守3900点,所有人都注意了,大盘后市开始这样看

春江财富
2026-03-26 15:26:22
惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

火山詩话
2026-03-26 11:40:00
伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

高博新视野
2026-03-24 08:00:16
斯人已逝,建议收藏:张雪峰最看好的十大黄金专业,高考家庭必存

斯人已逝,建议收藏:张雪峰最看好的十大黄金专业,高考家庭必存

云隐南山
2026-03-25 20:56:01
4月1日起执行!高血压糖尿病患者必看:3件事现在办,省钱又省心

4月1日起执行!高血压糖尿病患者必看:3件事现在办,省钱又省心

牛锅巴小钒
2026-03-26 13:38:17
快讯!欧尔班的回旋镖来了!

快讯!欧尔班的回旋镖来了!

达文西看世界
2026-03-26 12:23:16
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

孤酒老巷QA
2026-03-25 20:19:35
社保基金与外资持仓版图曝光:7只个股获“双重青睐”,最高年内涨超50%

社保基金与外资持仓版图曝光:7只个股获“双重青睐”,最高年内涨超50%

财闻
2026-03-26 16:59:58
加速心梗恶化的原因:饮酒排第5,排第1的,很多朋友天天做

加速心梗恶化的原因:饮酒排第5,排第1的,很多朋友天天做

岐黄传人孙大夫
2026-03-26 18:31:00
干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

泡泡网
2026-03-26 11:21:11
眼睛是“脑梗”的放大镜?医生说:眼睛若有这6个异常,及时就医

眼睛是“脑梗”的放大镜?医生说:眼睛若有这6个异常,及时就医

健康之光
2026-03-23 22:15:04
俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

沧海旅行家
2026-03-26 18:23:44
50岁保姆自述:月薪6千,包吃包住,却要满足男雇主各种要求

50岁保姆自述:月薪6千,包吃包住,却要满足男雇主各种要求

孢木情感
2026-03-26 14:13:28
黄天鹅晒出的检测报告上显示检测开始日期是2027年

黄天鹅晒出的检测报告上显示检测开始日期是2027年

映射生活的身影
2026-03-26 18:40:07
2026-03-26 21:08:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1035文章数 396关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
本地
数码
公开课
军事航空

家居要闻

傍海而居 静观蝴蝶海

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

数码要闻

小米Book Pro 14超薄设计引爆市场!这家国产厂商立功了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版