网易首页 > 网易号 > 正文 申请入驻

刚刚,智能体&编程新王Claude Opus 4.5震撼登场,定价大降2/3

0
分享至

来源:市场资讯

(来源:机器之心)

如昨日预期一样,Anthropic 正式发布了最新模型 Claude Opus 4.5。


根据介绍,Claude Opus 4.5 非常智能高效,在编程、智能体以及计算机操作方面表现卓越,是当今世界最优秀的模型。该模型在深度研究、处理幻灯片与电子表格等日常任务上也有显著提升。

该模型标志着 AI 系统化能力的进一步跃升,也预示着未来工作方式即将迎来更深刻的变革。如下图所示,Claude Opus 4.5 在真实世界软件工程测试中达到了行业 SOTA 水平,超越了 GPT-5.1-Codex-Max、Gemini 3 Pro 以及自家 Sonnet 4.5。


自今日起,Claude Opus 4.5 即可以通过 Claude app、API 以及三大主流云平台访问。如果你是开发者,只需通过 Claude API 使用 claude-opus-4-5-20251101 即可。

关于价格,Claude Opus 4.5 的最新定价为每百万 Token 5/25 美元(输入 / 输出),使更多用户、团队和企业都能轻松获得 Opus 级别的能力。可以看到,与上代 Opus 4.1 相比,API 定价降低了 2/3。


与 Claude Opus 4.5 同步,Anthropic 还更新了 Claude 开发者平台、Claude Code 以及消费者应用,推出了适用于更长时长运行的智能体新工具。其中,在 Claude app 中,长对话不再会轻易遇到限制。

Claude Code 现已登陆桌面应用,用户可以并行运行多个会话,比如编程、研究和更新工作。随着 Claude Opus 4.5 的推出,Plan Mode 也获得了升级:一开始提出澄清性问题,随后即可自主开展工作。

Anthropic 提供了在 Excel、Chrome 和桌面端使用 Claude 的全新方式。Max、Team 和 Enterprise 用户可以直接在 Excel 中使用最新模型。


基准测试多项最新 SOTA

根据 Anthropic 的介绍,他们提供了一份众所周知极其困难的居家测试(take-home exam),同时也将这份测试用作新模型的内部基准评估。在规定的两小时限时内,Claude Opus 4.5 的得分超过了迄今为止所有参加过该测试的人类候选人。

这份居家测试旨在评估候选人(包括 AI 大模型)在时间压力下的技术能力与判断力,但并不衡量如协作、沟通,或多年经验中积累的职业直觉等其他关键技能。然而,这一结果 —— 即 AI 模型在重要技术能力上超越实力强劲的候选人 —— 引发了关于人工智能将如何改变工程职业的思考。

软件工程并不是 Claude Opus 4.5 唯一取得显著提升的领域。这一代模型在整体能力上全线增强,在视觉、推理和数学方面均优于前代模型,并在许多领域达到了当前 SOTA 水平,包括智能体编程、智能体终端编程、智能体工具使用、可扩展的工具使用、计算机操作、解决新型问题的能力。


Claude Opus 4.5 具备更出色的代码生成能力,在 SWE-bench Multilingual 基准中,在 8 种编程语言中的 7 种上表现领先。


Claude Opus 4.5 能够轻松解决高难度的编码问题,并在 Aider Polyglot 基准上相比 Sonnet 4.5 实现了 10.6% 的提升。


Claude Opus 4.5 在前沿的智能体搜索能力上取得了显著进步,在 BrowseComp-Plus 基准上有明显提升。


同时,Claude Opus 4.5 在长程任务上的稳定性也更强,在 Vending-Bench 基准中相较于 Sonnet 4.5 实现了 29% 的提升。


Anthropic 表示,Claude Opus 4.5 的能力已经在某些测试项目上超出了现有基准的衡量范围。一个常用的智能体能力基准是 τ^2-bench,它用于评估智能体在真实场景、多轮任务中的表现。


图源:https://github.com/sierra-research/tau2-bench

在其中一个情境中,模型需要扮演航空公司客服代理,帮助一位处于困境的旅客。根据基准设定,由于航空公司不允许更改基础经济舱的机票,模型应当拒绝旅客的改签请求。然而,Claude Opus 4.5 找到了一个富有洞察力且合法的解决方式:先升级舱位,再对航班进行修改。


从技术上讲,由于 Claude 的解决方式不在基准预设范围内,这一表现被系统判定为失败。但这种具有创造性的解决问题方式,正是 Anthropic 从测试者和客户那里频繁听到的反馈,也是让 Claude Opus 4.5 被认为是一次有意义跃升的关键特质。

当然,在其他情境中,绕开预期约束的巧妙做法也可能被视为一种「奖励规避」(reward hacking),即模型以非预期方式「钻规则空子」。

Claude 开发者平台新变化

随着模型变得更智能,它们能够用更少的步骤解决问题:更少的回溯、更少的重复探索、更简洁的推理。为达到相同或更好的结果,Claude Opus 4.5 使用的 token 数量相比前代大幅减少。

但是,不同任务需要在速度、成本和能力之间做出不同取舍。有时开发者希望模型持续深思某个问题,有时则希望模型更加轻量迅捷。通过 Anthropic 在 Claude API 中新增的 effort 参数,开发者可以自行决定是要最小化时间与成本,还是要最大化模型能力。

在中等 effort 设定下,Opus 4.5 能达到与 Sonnet 4.5 在 SWE-bench Verified 中相同的最佳成绩,但输出 token 使用量减少了 76%。在最高 effort 设定下,Opus 4.5 的表现比 Sonnet 4.5 高出 4.3 个百分点,同时输出 token 使用量仍减少了 48%。


通过 effort 控制、上下文压缩以及更先进的工具使用能力,Claude Opus 4.5 能运行更长时间、完成更多任务,并且需要更少的人为干预。

上下文管理与记忆能力能够显著提升模型在智能体任务中的表现。Claude Opus 4.5 同样非常擅长管理由多个子智能体组成的团队,从而支持构建复杂且协调良好的多智能体系统。在测试中,通过结合使用这些技术,Opus 4.5 在一项深度研究评估中的表现提升了近 15 个百分点。

Anthropic 也在逐步增强开发者平台的可组合性。目标是为开发者提供所需的各种构建模块,从而可以完全掌控效率、工具使用方式以及上下文管理,精准构建所需的系统。

安全性进一步提升

Anthropic 表示,Claude Opus 4.5 是其迄今发布的在对齐方面最为稳健的模型,也可能是目前各家前沿模型中对齐度最高的之一。该模型延续了 Anthropic 在打造更安全、更可靠模型方面的趋势:

在 Anthropic 的评估中,「令人担忧的行为」分数衡量了范围非常广泛的非对齐表现,其中既包括模型配合人类进行不当使用,也包括模型在自身主动性下做出的不良行为。


Claude Opus 4.5 在抵御提示注入攻击方面取得了实质性的进展,提示注入会通过夹带欺骗性指令来误导模型做出有害行为。而 Opus 4.5 在这类攻击上的稳健性显著增强,是目前行业中最不容易被提示注入欺骗的前沿模型之一。


该基准仅包含强度极高的提示注入攻击,由 Gray Swan 开发并运行。

更多细节信息请参阅模型系统卡:


模型系统卡地址:https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf

博客地址:https://www.anthropic.com/news/claude-opus-4-5

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
火箭对阵太阳前瞻 杰伦格林首度面对火箭 会交出什么样的成绩单

火箭对阵太阳前瞻 杰伦格林首度面对火箭 会交出什么样的成绩单

大话火箭队
2026-04-06 17:20:31
六台主持人:姆巴佩在皇马根本不跑动,就等楚阿梅尼给他填坑

六台主持人:姆巴佩在皇马根本不跑动,就等楚阿梅尼给他填坑

懂球帝
2026-04-06 17:00:09
阿尔忒弥斯2号拍的地球和月球,和我们平时看到的不一样

阿尔忒弥斯2号拍的地球和月球,和我们平时看到的不一样

空天论道
2026-04-06 20:30:03
清明广东高速堵成“春运翻版”:12小时未出省,拥堵背后藏着真相

清明广东高速堵成“春运翻版”:12小时未出省,拥堵背后藏着真相

庸叔
2026-04-06 14:38:54
女子孕35周狂吃炸鸡汉堡,一周胖10斤,抽出“草莓牛奶”血,急送ICU;浙江医院:情况紧急,必须立即终止妊娠

女子孕35周狂吃炸鸡汉堡,一周胖10斤,抽出“草莓牛奶”血,急送ICU;浙江医院:情况紧急,必须立即终止妊娠

环球网资讯
2026-04-06 08:38:11
老公把安眠药下进鸡汤,我默默喝下后,他在我病床前崩溃认错

老公把安眠药下进鸡汤,我默默喝下后,他在我病床前崩溃认错

晓艾故事汇
2026-04-06 08:11:04
美军飞行员获救,细节公开:48小时建简易机场,搭进去5架飞机

美军飞行员获救,细节公开:48小时建简易机场,搭进去5架飞机

潮鹿逐梦
2026-04-05 16:55:57
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
一代神车,退场了

一代神车,退场了

凤凰网财经
2026-03-26 19:58:07
宋宁峰出轨是有原因的!女主身材谁看了能不爱?网友:极品

宋宁峰出轨是有原因的!女主身材谁看了能不爱?网友:极品

陈意小可爱
2026-04-05 16:14:49
10名主教练或下岗!最强洗牌潮要来了....

10名主教练或下岗!最强洗牌潮要来了....

柚子说球
2026-04-06 17:18:22
索赔2亿!被捧为迅雷救世主的清华高材生,带情妇卷1.7亿跑路5年

索赔2亿!被捧为迅雷救世主的清华高材生,带情妇卷1.7亿跑路5年

毒sir财经
2026-04-03 23:02:02
曼城确认队长B席今夏离队!他直言:要是曼城在里斯本多好

曼城确认队长B席今夏离队!他直言:要是曼城在里斯本多好

仰卧撑FTUer
2026-04-06 21:02:07
香菇再次被关注!医生发现:癌症患者吃香菇,不过多久或有4变化

香菇再次被关注!医生发现:癌症患者吃香菇,不过多久或有4变化

医学科普汇
2026-04-06 21:15:05
总部人去楼空!上千家供应商被欠4亿货款,又一明星独角兽暴雷了

总部人去楼空!上千家供应商被欠4亿货款,又一明星独角兽暴雷了

品牌观察官
2026-04-06 17:45:34
俄媒:“特朗普往死里羞辱‘纸老虎’”

俄媒:“特朗普往死里羞辱‘纸老虎’”

参考消息
2026-04-06 15:04:07
22岁大学生同居,一年内吃了50多次西地那非,情况如何了?

22岁大学生同居,一年内吃了50多次西地那非,情况如何了?

健康之光
2026-04-04 22:35:03
东哥彻底扛不住了?每天烧1.28亿,亏损率超94%,终于要止损了

东哥彻底扛不住了?每天烧1.28亿,亏损率超94%,终于要止损了

老特有话说
2026-03-15 22:15:14
国外兴起全裸度假村?男女同场不穿衣服狂欢,每年能吸引大量游客

国外兴起全裸度假村?男女同场不穿衣服狂欢,每年能吸引大量游客

安珈使者啊
2026-02-05 22:26:18
美国宇航员代表人类首次肉眼看见月球背面:六小时里他们在找什么

美国宇航员代表人类首次肉眼看见月球背面:六小时里他们在找什么

楠楠自语
2026-04-06 02:37:49
2026-04-06 21:56:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2765099文章数 6461关注度
往期回顾 全部

科技要闻

折叠屏iPhone要来了,富士康已在试产!

头条要闻

特朗普咆哮式发帖威胁伊朗 美政界人士:他像精神错乱

头条要闻

特朗普咆哮式发帖威胁伊朗 美政界人士:他像精神错乱

体育要闻

球员系列赛大满贯!赵心童10-3世界第一 加冕赛季第4冠

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

教育
时尚
旅游
亲子
数码

教育要闻

江苏春假刚结束,全省中小学2026年秋假时间表已火速敲定。各中小学在10月至11月期间可自主安排为期...

女人不管多大年纪都要准备件西装!不过时、不花哨,得体百搭

旅游要闻

别人放假,四川“带娃”:春假清明接力,这波“天降流量”接住了吗?

亲子要闻

中泰小萌娃的快乐日常,简单又治愈~

数码要闻

微星泰坦18 Ultra 2026游戏本上市,顶配售价47999元

无障碍浏览 进入关怀版