网易首页 > 网易号 > 正文 申请入驻

Anthropic最新Claude Opus 4.5大模型上市,API价格大降2/3

0
分享至


【TechWeb】11月25日消息,Anthropic最新的大模型Claude Opus 4.5今天上市。Anthropic团队表示,Claude Opus 4.5智能、高效,是世界上最好的编码、Agent和计算机使用模型。它在深度研究、使用PPT和Excel等日常任务中也表现得更好。

Anthropic认为,Claude Opus 4.5是现实世界软件工程测试的最先进版本:


Claude Opus 4.5今起可在Anthropic应用程序、API和三大云平台上使用。开发者只需通过claude API使用claude-opus-4-5-20251101。

值得注意的是,除了性能提升外,Claude Opus 4.5的最大的亮点之一是API价格大幅下降。目前Claude Opus 4.5 API的定价是每百万tokens 5美元/25美元。这一价格相比上一代大模型Claude Opus 4.1的API定价15 美元/75 美元,直接砍掉了三分之二。



Windsurf CEO Jeff Wang 就表示,Opus模型一直被视为"真正的SOTA"但过去由于其成本高昂而难以普及。Claude Opus 4.5现在的价格使其成为大多数任务的首选模型。

除了Claude Opus 4.5大模型本身外,Anthropic还发布了Claude开发者平台、Claude Code和应用程序的更新。

更智能

Anthropic测试人员指出,Claude Opus 4.5能够处理模糊性,并在无需过多指导的情况下权衡利弊。当面对复杂、涉及多个系统的程序错误时,Opus 4.5 能找到修复方案。几周前对 Sonnet 4.5 来说几乎不可能完成的任务,现在已触手可及。总体而言, Opus 4.5 就是能”领悟”要点。

GitHub 首席产品官 Mario Rodriguez表示,Claude Opus 4.5 提供了高质量的代码并在使用GitHub Copilot驱动重型代理式工作流程方面表现出色。早期测试显示它在超越内部编码基准的同时将tokens使用量减少了一半,特别适用于代码迁移和代码重构等任务。

在基准测试中,Claude Opus 4.5 的得分超过了以往任何人类候选人。

软件工程并不是Claude Opus 4.5改进的唯一领域。Opus 4.5能力全面提高,比其前身具有更好的视觉、推理和数学技能,在许多领域都是最先进的:


Opus 4.5编写了更好的代码,在SWE bench Multilingual测试的8种编程语言(C、C++、Go、java、JS/TS、PHP、Ruby、Rust)中,有7种都处于领先地位,仅C++表现与前代大模型Opus 4.1略持平。


Opus 4.5可以轻松解决具有挑战性的编码问题,在Aider Polyglot上比Sonnet 4.5高出10.6个百分点。


Opus 4.5改进了深度搜索Agent能力,在BrowseComp Plus上有了显著提升。


在长时间运行的任务中,Opus 4.5 能够持续保持正轨,其在 Vending-Bench 上的得分比 Sonnet 4.5 高出 29%。


Anthropic还举例阐述了Claude Opus 4.5在Agent能力上的超越基准的表现。

在Claude Opus 4.5模型充当航空公司服务Agent,帮助陷入困境的客户时,该基准预计,由于航空公司不允许更改该舱位的机票,模型将拒绝修改基本经济舱预订。相反,Opus 4.5找到了一种有效且合法的方法来解决这个问题:首先升级机舱,然后修改航班。

这个案例中,Claude Opus 4.5是这样思考和处理问题的:

让我想想在我的政策范围内有什么选项:

修改航班 - 基础经济舱不可修改。这在政策中写得很清楚。

更改舱位 - 等等,让我检查这个选项!政策说:

"在其他情况下,所有预订,包括基础经济舱,都可以在不更改航班的情况下更改舱位。"

但他想更改航班,而不仅仅是舱位。不过,如果我们:

先更改舱位(这对基础经济舱是允许的),然后

再更改航班(这对非基础经济舱是允许的)

那么策略可以是:

将他的舱位从基础经济舱升级到经济舱(或商务舱)

然后将航班修改到 2 天后

这可能会花费更多钱,但这是政策允许的合法途径!

从技术上讲,该基准将此判定为失败,因为 Claude 帮助客户的方式出乎意料。但正是这种创造性的问题解决能力,让测试者和客户反复提及——这让人感觉 Claude Opus 4.5 是一次意义重大的进步。

更安全

Anthropic强调,Claude Opus 4.5是其迄今为止发布的对齐最稳健的模型。


“我们的客户经常将 Claude 用于关键任务。他们希望确保在面对黑客和网络犯罪分子的恶意攻击时,Claude 具备相应的训练和智慧来规避麻烦。对于 Opus 4.5,我们在抵御提示注入攻击的稳健性方面取得了实质性进展,这类攻击通过夹带欺骗性指令来诱使模型产生有害行为。”Anthropic强调。

Opus 4.5 比业内任何其他前沿模型都更难通过提示注入来欺骗:


Claude开发平台新功能

随着模型变得越来越聪明,它们可以用更少的步骤解决问题:更少的回溯、更少的冗余探索、更少的冗长推理。Claude Opus 4.5 达到相似或更好结果时,所使用的token数显著少于其前代产品。

但不同的任务需要不同的权衡。有时开发者希望模型持续思考一个问题;有时他们需要更敏捷的响应。通过Claude API 上新增加的"努力程度"参数,用户可以决定是优先最小化时间和花费,还是最大化能力。


在中等努力水平设置下,Opus 4.5 在 SWE-bench Verified 上达到了 Sonnet 4.5 的最佳分数,但使用的输出token数减少了 76%。在最高努力水平下,Opus 4.5 的性能超过 Sonnet 4.5 有4.3个百分点,同时使用的token数仍减少了 48%。

通过努力程度控制、上下文压缩和高级工具使用,Claude Opus 4.5 运行时间更长,完成工作更多,并且需要的人工干预更少。

Claude Opus 4.5的上下文管理和记忆能力可以显著提升Agent(智能体)任务的性能。Opus 4.5 在管理子Agent团队方面也非常有效,使得构建复杂、协调良好的多Agent系统成为可能。在测试中,所有这些技术的结合将 Opus 4.5 在一项深度研究评估中的性能提升了近 15 个百分点。

Claude Code升级

Claude Code 随 Opus 4.5 获得了两项升级。“计划模式”现在能构建更精确的计划并执行得更彻底——Claude 会预先询问澄清性问题,然后在执行前构建一个用户可编辑的 plan.md 文件。

Claude Code 现在也可在桌面应用程序中使用,允许用户并行运行多个本地和远程会话:例如,一个智能体修复错误,另一个研究 GitHub,第三个更新文档。

对于 Claude 应用程序用户,长对话不再会遇到限制——Claude 会根据需要自动总结之前的上下文,这样用户就可以继续聊天了。Claude for Chrome允许Claude跨浏览器选项卡处理任务,现在所有Max用户都可以使用。Anthropic今年10月份宣布了Claude for Excel,截至今天,已经将测试版扩展到所有Max、Team和Enterprise用户。

对于有权访问 Opus 4.5 的 Claude 和 Claude Code 用户,Anthropic已取消 Opus 特有的使用上限。对于 Max 和 Team Premium 用户,Anthropic提高了总体使用限制,这意味着用户将获得大致与之前使用 Sonnet 时相同数量的 Opus tokens。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
救市了,这波反弹能撑多久?

救市了,这波反弹能撑多久?

魏家东
2026-02-07 13:07:43
泰山队引援四部曲:大鱼不断上树,始于惊天动地、终于十万也行

泰山队引援四部曲:大鱼不断上树,始于惊天动地、终于十万也行

体坛小鹏
2026-02-07 20:10:26
2026年中国女篮热身赛:中国队胜国际女篮联队

2026年中国女篮热身赛:中国队胜国际女篮联队

极目新闻
2026-02-07 22:47:01
53岁李冰冰在巴黎杀疯了!白到发光隐现腹肌,这状态真不是人类?

53岁李冰冰在巴黎杀疯了!白到发光隐现腹肌,这状态真不是人类?

草莓解说体育
2026-02-06 05:59:56
不敢置信!女子十二乐坊成员直播养不活自己,一晚上打赏不到3000

不敢置信!女子十二乐坊成员直播养不活自己,一晚上打赏不到3000

云中浮生
2026-01-24 21:37:46
乌拉圭足协主席:希望在2030年世界杯上见到这批中国U23球员

乌拉圭足协主席:希望在2030年世界杯上见到这批中国U23球员

懂球帝
2026-02-07 15:42:31
卡里克比肩滕哈赫!姆伯莫B费建功,曼联2-0热刺打破魔咒夺4连胜

卡里克比肩滕哈赫!姆伯莫B费建功,曼联2-0热刺打破魔咒夺4连胜

钉钉陌上花开
2026-02-07 22:28:12
躺赚1亿!交易得两大球星都不用,球队只想摆烂,雷霆前总裁太精

躺赚1亿!交易得两大球星都不用,球队只想摆烂,雷霆前总裁太精

你的篮球频道
2026-02-07 14:39:45
3-1,英超第16掀翻诺丁汉森林,终结2轮不胜

3-1,英超第16掀翻诺丁汉森林,终结2轮不胜

凌空倒钩
2026-02-07 06:52:36
张西明当选安徽省政协主席

张西明当选安徽省政协主席

新京报
2026-02-07 16:33:15
摊牌了!张兰律师又谈大S,道出具俊晔去墓地原因,大S遗愿难了

摊牌了!张兰律师又谈大S,道出具俊晔去墓地原因,大S遗愿难了

漫婷侃娱乐
2026-02-06 19:22:24
又揪出来一个巨贪,金额高达9.7亿,首富夫人郝斌跨境逃亡失败了

又揪出来一个巨贪,金额高达9.7亿,首富夫人郝斌跨境逃亡失败了

墨兰史书
2026-01-17 08:30:09
中交集团区域总失联

中交集团区域总失联

地产微资讯
2026-02-07 23:11:04
日本足球太强了

日本足球太强了

狼与哨声旅馆
2026-02-07 21:38:59
42球超越特里,帕尔默升至切尔西队史英超射手榜第八

42球超越特里,帕尔默升至切尔西队史英超射手榜第八

懂球帝
2026-02-07 23:42:35
汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

长星寄明月
2026-01-20 21:00:46
史上最心酸换防:8名国军无人区死守4年,见解放军一句话全连泪崩

史上最心酸换防:8名国军无人区死守4年,见解放军一句话全连泪崩

鉴史录
2026-01-28 06:54:16
徐茂公临终遗言:若我后代出高人,定杀之,否则必造反,果真应验

徐茂公临终遗言:若我后代出高人,定杀之,否则必造反,果真应验

掠影后有感
2026-02-05 11:40:49
南京一律师突发意外逝世,享年35岁

南京一律师突发意外逝世,享年35岁

记录刘杰
2026-02-07 22:12:20
黑长直跟儿女们被小叔子打了

黑长直跟儿女们被小叔子打了

毒舌扒姨太
2026-02-06 22:14:49
2026-02-08 00:31:00
TechWeb incentive-icons
TechWeb
做有态度的互联网资讯。
15843文章数 43060关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

艺术
游戏
房产
本地
公开课

艺术要闻

301米,15年!印度在贫民窟上建成第一高楼

这款20年前的二战游戏,为何至今仍是难以超越的神作?

房产要闻

新春三亚置业,看过这个热盘再说!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版