网易首页 > 网易号 > 正文 申请入驻

Anthropic推出Claude Sonnet 4.5,号称 “全球最佳编码模型”

0
分享至

Anthropic宣称推出“全球最佳编码模型”。

9月29日,Anthropic推出了其最新的AI模型Claude Sonnet 4.5。公司称依据SWE-bench Verified(一项衡量AI系统软件编码能力的测试标准)等行业基准,Claude Sonnet 4.5堪称 “全球最佳编码模型”。

该模型能生成更高质量的代码,更擅长识别代码改进点,并且能更可靠地遵循指令。这款模型在编码基准测试中展现出顶尖性能,不仅能构建 “可投入生产使用” 的应用程序,而非仅停留在原型阶段。

同时,金融、法律、医学等领域的专家发现,与包括Opus 4.1在内的旧模型相比,Sonnet 4.5在特定领域的知识和推理能力上表现出显著提升。


Anthropic表示,新模型将作为用户的默认选项,且价格与上一代Sonnet 4保持一致。不过,付费订阅用户仍可选择使用旧的Opus模型。

展望未来,Anthropic已暗示更多模型即将问世。Anthropic联合创始人兼首席科学官Jared Kaplan透露,更强大的模型正在开发中,其中“极有可能包括Opus”的新版本。他表示:

虽然没有承诺,但我认为在今年年底前,我们可能还会有一次或两次发布。

全面升级的性能与自主性

Claude Sonnet 4.5不仅在模型尺寸上进行了优化,更在核心能力上实现了全面超越。

Anthropic表示,根据衡量AI系统真实软件编码能力的SWE-bench Verified评估,该模型已达到业界顶尖水平。

在测试真实计算机操作任务的OSWorld基准测试中,Sonnet 4.5的得分从四个月前的42.2%跃升至61.4%,处于领先地位。


Jared Kaplan表示:

用户会注意到,这个模型更智能,更像一个同事,在遇到和解决问题时与它合作会很有趣。

Anthropic首席产品官Mike Krieger则表示,尽管Sonnet 4.5模型比此前的Opus 4.1更小,但在几乎所有方面都更为智能,能够为“真实的、实际的工作”提供有效支持。

该模型可自主运行长达30小时,远超前代模型的7小时,能够持续专注于复杂的多步骤任务。有网友初步测评后指出比以前模型输出更好,但有时会缺少其强调的关键内容:

对Claude Sonnet 4.5的初步想法:速度更快的模型,比以前的模型思考和输出更好;似乎缺少很多修复和我指出的关键事项,没有正确遵循说明;当它确实修复或创建我所需要的东西时,它达到了高标准。

安全与对齐的显著跃升

除了性能提升,Anthropic强调Claude Sonnet 4.5是其迄今为止“最一致的模型”。

公司通过广泛的安全训练,显著改善了模型的行为,减少了如欺骗、权力寻求和“奉承”(即模型迎合用户预期)等“令人担忧的行为”。

此外,新模型对“提示词注入攻击”具有更强的抵抗力,这种攻击会诱导模型执行恶意操作,如泄露敏感数据。Kaplan称:

这可能是过去一年半以来我们在安全性方面看到的最大飞跃。

该模型在AI安全等级3(ASL-3)的保护下发布,配备了旨在检测化学、生物、放射性和核(CBRN)武器相关危险内容的分类器,同时公司已将误报率大幅降低。


赋能开发者的Agent SDK

伴随新模型发布,Anthropic还推出了一系列产品升级,其中最引人注目的是Claude Agent SDK。

这是一个供开发者使用的软件开发工具包,其底层基础设施与驱动Anthropic旗下产品Claude Code的基础设施相同。

该公司表示,此举将解决构建AI代理(agent)时遇到的棘手问题,如长期任务的内存管理、平衡自主性与用户控制的权限系统以及协调子代理等。

通过开放这一工具包,Anthropic旨在让开发者能够为更广泛任务构建功能强大的定制化AI代理。


其他产品更新还包括为Claude Code增加的“检查点”功能、新的VS Code原生扩展、以及在付费应用中直接集成代码执行和文件创建(电子表格、幻灯片、文档)等功能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
关于要不要过万圣节这个事,我们国内城市分为了两派

关于要不要过万圣节这个事,我们国内城市分为了两派

清晖有墨
2025-11-02 16:02:29
许世友正喝酒来电话,问:我是上将许世友你是谁?答:小兵周恩来

许世友正喝酒来电话,问:我是上将许世友你是谁?答:小兵周恩来

良工说
2025-09-04 00:53:34
别再乱买股了!26岁天才股神坦言:就炒这两类股,挣得踏实不踩雷

别再乱买股了!26岁天才股神坦言:就炒这两类股,挣得踏实不踩雷

股经纵横谈
2025-11-02 17:04:18
左权之妻刘志兰:后改嫁给左权生前的秘书,1967年参与山西夺权

左权之妻刘志兰:后改嫁给左权生前的秘书,1967年参与山西夺权

红梦史说
2025-11-01 09:19:27
杨佑宁和老婆首同框,想拉手却遭拒绝,全程无交流眼神中都是嫌弃

杨佑宁和老婆首同框,想拉手却遭拒绝,全程无交流眼神中都是嫌弃

嫹笔牂牂
2025-11-01 07:46:21
区委书记沉迷游戏区长沉迷高尔夫,贻害的是一方百姓

区委书记沉迷游戏区长沉迷高尔夫,贻害的是一方百姓

极目新闻
2025-11-03 10:35:28
9-8、5-4!女足世界杯杀疯了:法国+意大利爆冷出局,4强对阵如下

9-8、5-4!女足世界杯杀疯了:法国+意大利爆冷出局,4强对阵如下

大秦壁虎白话体育
2025-11-03 09:25:18
业界第一美腿关晓彤光脚丫有点大了,没办法她太高了

业界第一美腿关晓彤光脚丫有点大了,没办法她太高了

动物奇奇怪怪
2025-11-03 12:26:30
中美各退三步,中方另送特朗普一份厚礼,加拿大转向中国暗送秋波

中美各退三步,中方另送特朗普一份厚礼,加拿大转向中国暗送秋波

坠入二次元的海洋
2025-11-03 11:13:59
本周小雨+降温+大风!真的要多穿点了!北京供暖最新消息——

本周小雨+降温+大风!真的要多穿点了!北京供暖最新消息——

首都之窗
2025-11-03 10:05:22
普京可能不得不停战了!最大财源被切断,再想打也没钱了

普京可能不得不停战了!最大财源被切断,再想打也没钱了

历史求知所
2025-11-02 13:10:03
中年夫妻的婚姻状态都是啥样?网友:我34,老公54,一个月八九次

中年夫妻的婚姻状态都是啥样?网友:我34,老公54,一个月八九次

解读热点事件
2025-10-24 00:20:03
山西省公安厅“尹喜平”案

山西省公安厅“尹喜平”案

创作者_IE2295
2025-11-03 08:38:36
黄光裕:入狱了11年,银行账户躺着225亿,出狱后的他过得咋样?

黄光裕:入狱了11年,银行账户躺着225亿,出狱后的他过得咋样?

乐天闲聊
2025-10-25 15:26:24
5轮6球!34岁老将闪耀英超赛场,时隔7年后有望再次重返国家队

5轮6球!34岁老将闪耀英超赛场,时隔7年后有望再次重返国家队

体坛老球迷
2025-11-03 10:53:02
念你,岁岁年年

念你,岁岁年年

繁花新鲜事
2025-10-29 15:34:10
“教授8万副教授7万博士6万”:部分高校职称晋升现“金钱游戏”,教师横向课题考核催生造假产业链

“教授8万副教授7万博士6万”:部分高校职称晋升现“金钱游戏”,教师横向课题考核催生造假产业链

红星新闻
2025-10-31 21:35:21
“不会是独吞了吧”,初三女孩大疆被老师没收,家长打电话也不还

“不会是独吞了吧”,初三女孩大疆被老师没收,家长打电话也不还

熙熙说教
2025-10-31 20:56:52
王家卫再次印证了张柏芝说的话:他作为出色的导演脑子有点不正常

王家卫再次印证了张柏芝说的话:他作为出色的导演脑子有点不正常

乐悠悠娱乐
2025-11-02 14:47:34
央视女主持王小骞分享矮小症女儿近况,注射2年激素后,11岁身高已长到150

央视女主持王小骞分享矮小症女儿近况,注射2年激素后,11岁身高已长到150

阿燕姐说育儿
2025-11-01 06:05:00
2025-11-03 13:04:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
136937文章数 2651315关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

媒体:高市早苗发表涉台错误言行 中方直接"亮剑"

头条要闻

媒体:高市早苗发表涉台错误言行 中方直接"亮剑"

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

录音彻底揭露知名导演王家卫的体面

财经要闻

马斯克:未来5-6年传统手机与App将消失

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

房产
教育
旅游
健康
游戏

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

教育要闻

《一片甲骨》进校园 “新”火相传观影热

旅游要闻

上海迪士尼又扩建,将建第四座主题酒店,上周刚迎来第一亿名游客

核磁VS肌骨超声,谁更胜一筹?

《怪猎物语3》有存档联动特典:《怪猎崛起》等游戏

无障碍浏览 进入关怀版