网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.5夺回编程王座,超Gemini 3 Pro和GPT-5.1

0
分享至


作者 | 木子、高允毅

AI 编程之王又易主了。

昨晚,Anthropic悄悄按下发布键,Claude Opus 4.5直接在编码、Agent、电脑操作等多项“硬核能力”上全面登顶评测榜,超过 GPT-5.1 和最近在聚光灯下的 Gemini 3 Pro。

目前测试版(Beta 版)已上线,开发者可直接通过 Claude API 调用。


这里面的终端级编程能力(Agentic terminal coding)是个非常重要的指标,因为该指标体现了 AI 在真实终端(如电脑)环境中工作情况,不仅停留在文本层面;Claude Opus 4.5 也斩获第一,突破 59% 。

此外,它还在两小时限时考试里,把“史上最强人类候选者”甩在身后——而且据 Anthropic 首席产品官介绍,用的 token 数量还不到上一代的一半。


每百万 token 的最新定价为:5 美元 /25 美元(输入 / 输出);批量API 调用的价格更是打了 3 折左右。


Claude 老用户、一家AI 辅助编码初创公司的 CEO 表示,Opu 系列这波降价来得正好。


还有网友放出一张 Meme 图,锐评这几家大模型的高速宣发节奏。


新一代 Claude 的 Agent 有多强?

Claude Opus 4.5编码、Agent、计算机操作等方面,都夺得测评榜第一;下面来看看它的实际使用效果如何。

首先,在编程和系统调试方面,Claude Opus 4.5 能够直接完成工程师级别的任务:它会自己找网络接口,会调试跨系统 bug,还会操作桌面应用、Excel、浏览器。

Anthropic 内部工程师在模型发布前做了大量压力测试,反馈高度一致:Opus 4.5 能处理模糊目标、能在多种方案中权衡取舍、不需要人工把步骤写死。

测试者普遍认为 Opus 4.5 能“真正理解用户需求”,那些几周前 Sonnet 4.5 还几乎做不到的任务,现在对 Opus 4.5 来说已不再是难题。

他们还把模型拉去做了个两小时的高压考试,这本来是给去 Anthropic 应聘性能工程师出的题目,是连许多顶尖候选人都吃不消的 take-home 作业。

结果 Opus 4.5 在时间限制内拿到历史最高分,超过了所有人类候选者。它能读懂复杂代码库、拆解多系统交互,并在模糊指令下自动找出真正的 bug 来源。

虽然这份考试不涉及协作、沟通等软技能,但在纯技术判断与压力下的问题解决能力上,模型首次把“专业工程师”的门槛推向了一个全新位置。

而且 Opus 4.5 编写的代码质量更高,在 SWE-bench Multilingual 的 8 种编程语言中,有 7 种语言的性能比领先。


对于复杂业务决策与工具链操作,比如在τ2-bench 的航空客服场景中,基础经济舱不能改签是硬规定,普通模型都会直接拒绝。

但 Opus 4.5 懂得在规则限制下“迂回求解”——比如,航空公司拒绝给经济舱换航班,它就自己先换升舱、再换航班,两步走解决单步走不了的问题,这在 benchmark 中被算作“未预期的路径”。

长期任务稳定性方面,它也远超前代。在 Vending-Bench 测试中,Opus 4.5 的多步骤任务保持能力,比 Sonnet 4.5 高出29%,几乎不会“走着走着忘了要干什么”。


在视觉处理方面,Claude Opus 4.5 也遥遥领先于前代模型。据公司 CTO 介绍:

“Claude Opus 4.5 是唯一一个能搞定我们最棘手的 3D 可视化任务的模型...... 过去需要两小时才能完成的任务,现在只需要三十分钟。”

开发者平台也同步更新

为什么 Claude Opus 4.5 的 Agent 会一下子变得这么强?

除了模型层的思考能力显著提升,还有一个重要因素,就是平台级的高级工具调用能力(advanced tool use)升级——模型和平台协同,让 Agent 不仅能说清楚,还能办好事

升级之后的高级工具调用能力,也被放进了 Claude 开发者平台。

在传统 Agent 工作流里,AI 想真正承担“全能助手”的角色,其实面临三道大山——工具过多、调用过重、使用过难。

针对这三个痛点,Opus 4.5新增了三种“高级工具”,升级之后的高级工具调用能力,也被放进了 Claude 开发者平台:

  • Tool Search Tool:让模型像搜索引擎一样按需查找工具,而无需预加载全部定义。

  • Programmatic Tool Calling(PTC):允许 Claude 用代码(如 Python)而非单独的 API 来编排工具调用,减少上下文压力。

  • Tool Use Examples:教模型正确的工具调用方式,让其“看例子就会用”。

简言之,未来 AI 可以像人一样会选工具、会写自动化脚本、能看懂工具的正确用法

官方提供的Claude for Excel是最直观的例子。通过程序化工具调用,所有重载计算都在后台完成,Claude 只接收最终结果,实现了“大量数据不进脑,也能跑得快”。


Claude for Excel 的测试权限,已经扩展至所有 Max、Team 及 Enterprise 用户。

在 Mac 系统上使用 Control+Option+C,在 Windows 系统中使用 Control+Alt+C,即可在 Excel 中打开 Claude。

https://x.com/claudeai/status/1993030546243699119

https://www.anthropic.com/news/claude-opus-4-5

https://www.anthropic.com/engineering/advanced-tool-use

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议预告

12 月 19~20 日,AICon 2025 年度收官站在北京举办。现已开启 9 折优惠。

两天时间,聊最热的 Agent、上下文工程、AI 产品创新等等话题,与头部企业与创新团队的专家深度交流落地经验与思考。2025 年最后一场,不容错过。

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
揭秘哈登换队内幕:本有意重返休斯顿打球 但火箭没兴趣推进交易

揭秘哈登换队内幕:本有意重返休斯顿打球 但火箭没兴趣推进交易

罗说NBA
2026-02-07 04:39:01
突遭血洗,超58万人爆仓!“极度恐惧”来了

突遭血洗,超58万人爆仓!“极度恐惧”来了

中国基金报
2026-02-06 10:01:20
扶弟魔又来了!河南一女子打6年工攒下14万,被家人给弟弟买了A4

扶弟魔又来了!河南一女子打6年工攒下14万,被家人给弟弟买了A4

火山诗话
2026-02-06 11:43:31
贾总赢了?预制菜国标征求意见,中央厨房成功"洗白"不属于预制菜

贾总赢了?预制菜国标征求意见,中央厨房成功"洗白"不属于预制菜

乌娱子酱
2026-02-06 17:59:32
最新动态!徐湖平别墅夹层搜出76件文物,私藏故宫南迁国宝

最新动态!徐湖平别墅夹层搜出76件文物,私藏故宫南迁国宝

小陆搞笑日常
2026-02-07 02:38:20
美国拉55国组团遏华,被迫进群的韩国,向中国发出“求救信号”

美国拉55国组团遏华,被迫进群的韩国,向中国发出“求救信号”

石江月
2026-02-06 10:09:26
20 岁女子与 40 岁钓鱼男多次开房,两人却辩称:只是师徒关系

20 岁女子与 40 岁钓鱼男多次开房,两人却辩称:只是师徒关系

没有偏旁的常庆
2026-01-05 06:15:03
AI之争又打成了奶茶大战

AI之争又打成了奶茶大战

界面新闻
2026-02-06 20:48:41
固始新娘越扒越有!高中同学发声,曝新娘更多过往,刻薄并非偶然

固始新娘越扒越有!高中同学发声,曝新娘更多过往,刻薄并非偶然

奇思妙想草叶君
2026-02-05 22:37:25
微博之夜第一排:比C位还靠前、和资方同起同坐的她,到底凭啥?

微博之夜第一排:比C位还靠前、和资方同起同坐的她,到底凭啥?

暖心萌阿菇凉
2026-02-06 18:20:22
京东001号快递员退休生活公开:有车有房,存款一百多万,退休金每月4000多元;曾打算辞职,被刘强东亲自劝下

京东001号快递员退休生活公开:有车有房,存款一百多万,退休金每月4000多元;曾打算辞职,被刘强东亲自劝下

每日经济新闻
2026-02-07 00:24:19
今夜!暴涨,创新高了!

今夜!暴涨,创新高了!

中国基金报
2026-02-07 00:13:21
和女领导出差
女领导干活我看着,女领导加班我躺着

和女领导出差 女领导干活我看着,女领导加班我躺着

太急张三疯
2026-02-06 20:15:32
4名“老虎”被处理:倪强纵容配偶不实际工作获取薪酬,林景臻私藏阅看寄递有严重政治问题书籍

4名“老虎”被处理:倪强纵容配偶不实际工作获取薪酬,林景臻私藏阅看寄递有严重政治问题书籍

界面新闻
2026-02-06 10:39:37
调查发现:咖啡不单是心血管杀手,常喝咖啡还容易患上5类疾病?

调查发现:咖啡不单是心血管杀手,常喝咖啡还容易患上5类疾病?

今日养生之道
2026-02-06 16:49:18
古特雷斯即将卸任,联合国新秘书长人选浮出水面,对中国态度友好

古特雷斯即将卸任,联合国新秘书长人选浮出水面,对中国态度友好

石江月
2026-02-06 17:24:38
警惕中国式的叶利钦式人物,悄无声息地把人民引向歧途

警惕中国式的叶利钦式人物,悄无声息地把人民引向歧途

林子说事
2026-02-06 12:52:37
啥情况?德媒爆滑雪运动员向下体注射玻尿酸 以增大尺寸提高升力

啥情况?德媒爆滑雪运动员向下体注射玻尿酸 以增大尺寸提高升力

林小湜体育频道
2026-02-06 15:56:06
有个瞒着自己生二胎的爸妈是啥体验?网友:50多还能接二连三生

有个瞒着自己生二胎的爸妈是啥体验?网友:50多还能接二连三生

解读热点事件
2026-01-30 04:02:43
被专家“批评”的腊肉,川渝人每年疯狂地吃,为啥北方人一口不碰

被专家“批评”的腊肉,川渝人每年疯狂地吃,为啥北方人一口不碰

老特有话说
2026-02-06 13:19:07
2026-02-07 07:52:49
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1297文章数 114关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

大V称生活被助理"复制":她在我家穿我的衣服拍照

头条要闻

大V称生活被助理"复制":她在我家穿我的衣服拍照

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

旅游
艺术
本地
健康
军事航空

旅游要闻

属马、姓马、名字带马,免票景区第二波!

艺术要闻

过年,邻居家贴的对联,差点没把我笑死……

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

转头就晕的耳石症,能开车上班吗?

军事要闻

美国“肯尼迪”号核动力航母完成首次海试

无障碍浏览 进入关怀版