网易首页 > 网易号 > 正文 申请入驻

Anthropic推出Claude Sonnet 4.5,号称 “全球最佳编码模型”

0
分享至

Anthropic宣称推出“全球最佳编码模型”。

9月29日,Anthropic推出了其最新的AI模型Claude Sonnet 4.5。公司称依据SWE-bench Verified(一项衡量AI系统软件编码能力的测试标准)等行业基准,Claude Sonnet 4.5堪称 “全球最佳编码模型”。

该模型能生成更高质量的代码,更擅长识别代码改进点,并且能更可靠地遵循指令。这款模型在编码基准测试中展现出顶尖性能,不仅能构建 “可投入生产使用” 的应用程序,而非仅停留在原型阶段。

同时,金融、法律、医学等领域的专家发现,与包括Opus 4.1在内的旧模型相比,Sonnet 4.5在特定领域的知识和推理能力上表现出显著提升。


Anthropic表示,新模型将作为用户的默认选项,且价格与上一代Sonnet 4保持一致。不过,付费订阅用户仍可选择使用旧的Opus模型。

展望未来,Anthropic已暗示更多模型即将问世。Anthropic联合创始人兼首席科学官Jared Kaplan透露,更强大的模型正在开发中,其中“极有可能包括Opus”的新版本。他表示:

虽然没有承诺,但我认为在今年年底前,我们可能还会有一次或两次发布。

全面升级的性能与自主性

Claude Sonnet 4.5不仅在模型尺寸上进行了优化,更在核心能力上实现了全面超越。

Anthropic表示,根据衡量AI系统真实软件编码能力的SWE-bench Verified评估,该模型已达到业界顶尖水平。

在测试真实计算机操作任务的OSWorld基准测试中,Sonnet 4.5的得分从四个月前的42.2%跃升至61.4%,处于领先地位。


Jared Kaplan表示:

用户会注意到,这个模型更智能,更像一个同事,在遇到和解决问题时与它合作会很有趣。

Anthropic首席产品官Mike Krieger则表示,尽管Sonnet 4.5模型比此前的Opus 4.1更小,但在几乎所有方面都更为智能,能够为“真实的、实际的工作”提供有效支持。

该模型可自主运行长达30小时,远超前代模型的7小时,能够持续专注于复杂的多步骤任务。有网友初步测评后指出比以前模型输出更好,但有时会缺少其强调的关键内容:

对Claude Sonnet 4.5的初步想法:速度更快的模型,比以前的模型思考和输出更好;似乎缺少很多修复和我指出的关键事项,没有正确遵循说明;当它确实修复或创建我所需要的东西时,它达到了高标准。

安全与对齐的显著跃升

除了性能提升,Anthropic强调Claude Sonnet 4.5是其迄今为止“最一致的模型”。

公司通过广泛的安全训练,显著改善了模型的行为,减少了如欺骗、权力寻求和“奉承”(即模型迎合用户预期)等“令人担忧的行为”。

此外,新模型对“提示词注入攻击”具有更强的抵抗力,这种攻击会诱导模型执行恶意操作,如泄露敏感数据。Kaplan称:

这可能是过去一年半以来我们在安全性方面看到的最大飞跃。

该模型在AI安全等级3(ASL-3)的保护下发布,配备了旨在检测化学、生物、放射性和核(CBRN)武器相关危险内容的分类器,同时公司已将误报率大幅降低。


赋能开发者的Agent SDK

伴随新模型发布,Anthropic还推出了一系列产品升级,其中最引人注目的是Claude Agent SDK。

这是一个供开发者使用的软件开发工具包,其底层基础设施与驱动Anthropic旗下产品Claude Code的基础设施相同。

该公司表示,此举将解决构建AI代理(agent)时遇到的棘手问题,如长期任务的内存管理、平衡自主性与用户控制的权限系统以及协调子代理等。

通过开放这一工具包,Anthropic旨在让开发者能够为更广泛任务构建功能强大的定制化AI代理。


其他产品更新还包括为Claude Code增加的“检查点”功能、新的VS Code原生扩展、以及在付费应用中直接集成代码执行和文件创建(电子表格、幻灯片、文档)等功能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小米通话将于12月3日停止服务

小米通话将于12月3日停止服务

极目新闻
2025-11-05 21:05:11
许家印干的最虎的一件事就是填海造陆,花费上千亿搞个海南海花岛

许家印干的最虎的一件事就是填海造陆,花费上千亿搞个海南海花岛

探史
2025-11-04 18:54:50
民进党当局称大陆未来可能全球通缉“台独”顽固分子,国台办回应

民进党当局称大陆未来可能全球通缉“台独”顽固分子,国台办回应

极目新闻
2025-11-05 11:32:07
伟大1-0!亚洲球队逆袭:欧冠历史首胜 仅建队11年 现场万人狂欢

伟大1-0!亚洲球队逆袭:欧冠历史首胜 仅建队11年 现场万人狂欢

侃球熊弟
2025-11-06 03:41:47
“父亲偷看女儿洗澡”后续:爸爸揭露真相,女孩追悔莫及

“父亲偷看女儿洗澡”后续:爸爸揭露真相,女孩追悔莫及

观世记
2025-11-05 20:19:25
新闻多一度丨神二十推迟返回 空间碎片影响有多大?

新闻多一度丨神二十推迟返回 空间碎片影响有多大?

新京报
2025-11-05 18:11:09
买淀粉肠的学生,抢钥匙的校长,撒谎的通报

买淀粉肠的学生,抢钥匙的校长,撒谎的通报

空瓶子
2025-11-04 18:18:24
知名男演员,传来喜讯!

知名男演员,传来喜讯!

鲁中晨报
2025-11-06 07:03:11
不顾美欧反对,中方邀请俄总理访华,普京有个好消息要告诉中国

不顾美欧反对,中方邀请俄总理访华,普京有个好消息要告诉中国

第一军情
2025-11-05 15:40:03
纽约迎来新市长:90后、印度裔、穆斯林、民主社会主义者、特朗普的“噩梦”

纽约迎来新市长:90后、印度裔、穆斯林、民主社会主义者、特朗普的“噩梦”

上观新闻
2025-11-05 17:59:14
向全世界展示,中国是如何救援空间站宇航员的,美俄都没有这能力

向全世界展示,中国是如何救援空间站宇航员的,美俄都没有这能力

讲者普拉斯
2025-11-05 20:51:42
网红户晨风被封禁,央视披露详情:以“苹果人安卓人”恶意制造对立,收割流量牟利,突破监管红线

网红户晨风被封禁,央视披露详情:以“苹果人安卓人”恶意制造对立,收割流量牟利,突破监管红线

极目新闻
2025-11-05 16:40:03
杭州网红“大逃亡”,网红之都跌落神坛!

杭州网红“大逃亡”,网红之都跌落神坛!

财经三分钟pro
2025-11-05 13:58:59
国足选帅如同儿戏,足协说了不算惨遭打脸!不可抗的因素选邵佳一

国足选帅如同儿戏,足协说了不算惨遭打脸!不可抗的因素选邵佳一

中国足球的那些事儿
2025-11-05 19:46:13
管不住下半身!网传长沙某三甲医院医生不雅视频曝光,引发关注…

管不住下半身!网传长沙某三甲医院医生不雅视频曝光,引发关注…

火山诗话
2025-11-05 17:31:47
“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

小乔古装汉服
2025-09-29 07:55:03
乌克兰公布“罕见”作战画面!外媒:乌特种部队乘“黑鹰”直升机突袭波克罗夫斯克

乌克兰公布“罕见”作战画面!外媒:乌特种部队乘“黑鹰”直升机突袭波克罗夫斯克

环球网资讯
2025-11-05 16:09:59
国乒教练调整内幕揭晓,王励勤弃用两位功臣?改革力度超出预期

国乒教练调整内幕揭晓,王励勤弃用两位功臣?改革力度超出预期

海阔山遥YAO
2025-11-05 11:54:46
网友好奇,国外全球反诈论坛我们为什么不参加?评论区一言难尽

网友好奇,国外全球反诈论坛我们为什么不参加?评论区一言难尽

眼光很亮
2025-11-05 10:40:13
秦雯编剧电视剧被央视撤档,此前王家卫秦雯私密录音曝光惹争议

秦雯编剧电视剧被央视撤档,此前王家卫秦雯私密录音曝光惹争议

鲁中晨报
2025-11-05 11:31:09
2025-11-06 07:59:00
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
137104文章数 2651348关注度
往期回顾 全部

科技要闻

何小鹏连发四大黑科技!人形机器人走猫步上台

头条要闻

外媒:中方强硬抨击荷兰 安世半导体僵局持续发酵

头条要闻

外媒:中方强硬抨击荷兰 安世半导体僵局持续发酵

体育要闻

赢下皇马,会是利物浦的转折点吗?

娱乐要闻

港星林尚武突发心脏病去世

财经要闻

事关加快建设金融强国 中央金融办发声

汽车要闻

智己LS9入局"9系"混战 全尺寸SUV市场迎来新变量

态度原创

家居
游戏
旅游
亲子
公开课

家居要闻

别样府院 畅享诗意生活

《战地6》PC玩家改文件禁用跨平台:手柄辅助瞄准太狠

旅游要闻

外媒:中国“深蓝梦想”科考推动科普研学旅游

亲子要闻

佛山3岁男童从摩托车跌落,额头“深度撕裂”!医生提醒:这种部位最易受伤

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版