网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.5来了:谷歌把Anthropic逼到了墙角

0
分享至

上周,Google实在是太猛了,拳打OpenAI,脚踢Anthropic。Gemini 3 Pro模型在编程、数学、推理等能力上都达到了当之无愧的SOTA级别。


被逼到墙角之后,就看谁先有能力掀桌坐不住了。

于是,就在今天,Anthropic发布了Claude Opus 4.5。


Opus 4.5的核心还是聚焦在编程能力,可以说很炸裂:SWE-bench Verified达到80.9%,首次突破80%,超越Gemini 3 Pro的76.2%。


以及,很少见的是,他们甚至降价了!价格从之前的贵得离谱的$15/$75直接降到$5/$25 per million tokens,直降66%!!

Opus 4.5的发布,说明Anthropic是真的急了——或者说,终于认真了。

Opus 4.5到底有多强?

先说benchmark数据。

SWE-bench Verified:80.9%

这是业界公认的编程能力测试标准。Opus 4.5是第一个突破80%的模型。

对比一下:

- Gemini 3 Pro:76.2%

- Claude Sonnet 4.5:77.2%

- GPT-5.1:76.3%/77.9%

80.9%是什么概念?Anthropic内部拿性能工程师的面试题测试,Opus 4.5的得分超过了所有人类候选人。


Terminal-bench 2.0:59.3%

这个测试主要看模型在终端环境下的编程能力。Opus 4.5比Gemini 3 Pro高了5个百分点(54.2%),比自家的Sonnet 4.5高了近10个百分点(50.0%)。

这个差距说明一个事实:Claude在真实开发环境下,就是比其他模型强。

GPQA Diamond:87.0%

这是研究生级别的推理测试,涵盖物理、化学、生物。Opus 4.5在这个测试上落后于Gemini 3 Pro(91.9%),但87%的成绩也不差。

总结一下:编程能力世界第一,推理能力也不弱。

价格策略的巨大转变

Opus 4.5最让人意外的,是在性能提升的同时,价格还暴降了。

新定价:

- 输入:$5 / million tokens

- 输出:$25 / million tokens

Anthropic的官方说法是:"making Opus-level capabilities accessible to even more users, teams, and enterprises"(让更多用户、团队和企业能用上Opus级别的能力)。

逻辑很明显:Anthropic需要更多人用Opus。

之前Opus的定位是"高端用户",但高端市场就那么大。现在降价,是要抢占"中端市场"——那些之前用Sonnet,但其实需要更强能力的开发者。

不到一周,正面交锋

11月18日,Google发布Gemini 3 Pro。

11月24日,Anthropic发布Claude Opus 4.5。

不到一周,两个顶级模型连续发布。

这不是巧合。

Gemini 3 Pro发布时,各种benchmark数据都很炸裂,尤其是GPQA Diamond的91.9%,直接刷新了推理能力的记录。当时AI圈的共识是:Google这次真的起来了。


Anthropic当然不会让Google独占风头。

Opus 4.5的发布时机,明显是冲着Gemini 3来的。而且,Anthropic选择的战场很聪明:不和你比推理,和你比编程。

Gemini 3 Pro在推理上确实强(91.9% vs 87.0%),但在编程上,Claude Opus 4.5领先了近5个百分点(80.9% vs 76.2%)。

更关键的是,编程能力是开发者最关心的指标。推理能力再强,如果写不出好代码,开发者也不会买单。

这就是Anthropic的策略:在自己最擅长的领域,做到绝对领先。

为什么Anthropic能在编程上这么强?

之前我在测试Claude Code时,有个很深的感受:

Claude Code好用的逻辑,不是因为它是终端工具,而是因为Anthropic有模型成本和模型认知的优势。

他们可以更无所畏惧地投喂代码上下文烧token,能知道如何挤压模型Agentic的能力实现更长步骤的推理,可以用agentic search而非RAG的方式处理上下文。

这些优势,说白了就一个原因:Anthropic从一开始就是奔着编程和Agent去优化模型的。

我之前评价Claude 4时说:最强编程模型 + 最强Agent基建。

Anthropic对模型的所有优化,都是奔着To B做AI coding和让开发者建agent而去的。他们主要做了这几个方面的优化:

1. 扩展思维与工具使用:允许模型在思考和使用工具之间来回切换,形成"思考-执行-再思考"的循环

2. 改进的记忆能力:可以创建和维护"记忆文件"来存储关键信息,支持长时间任务

3. 更强的指令遵循能力:可以处理超过10000个token的系统提示

4. 减少奖励黑客行为:模型为了达到目标而走捷径的倾向降低了80%以上

这些优化,放在Opus 4.5上,效果更明显了。

相比之下,Gemini 3的优势在于多模态。如果你的任务涉及视觉、图片、视频,Gemini 3会更强。但如果是纯编程任务,Claude Opus 4.5几乎没有对手。

产品层面的配合

Opus 4.5的发布,不是孤立的。

Anthropic同时推出了几个重要的产品更新:

1. Claude Code进入桌面端:支持并行运行多个本地和远程会话,长对话自动总结早期上下文

2. Claude for Chrome:扩展至所有Max用户

3. Claude for Excel:面向所有Max、Team和Enterprise用户正式发布

这些产品更新,都是在强化一个信号:Claude不只是一个聊天模型,它是一个生产力工具。

尤其是Claude Code。

我之前说过,从工具层面来说,从Cursor这种IDE图形界面退回到Claude Code这种终端命令行工具,其实是个挺大的退步。但Claude Code之所以还是比Cursor好用,就是因为它背后的模型能力太强了。

现在Opus 4.5出来了,Claude Code的优势会更明显。

而且,Anthropic还宣布了和Microsoft、NVIDIA的战略合作:Claude扩展至Azure平台,由NVIDIA提供算力支持。这意味着,Claude的To B布局在快速推进。

开发者该怎么选?

最后说点实际的:如果你是开发者,该选Claude还是Gemini?

我的建议是:

选Claude Opus 4.5,如果你的任务主要是:

  • 纯代码编写和调试

  • 后端逻辑和复杂推理

  • 长时间的编程任务(需要记忆和上下文管理)

选Gemini 3 Pro,如果你的任务主要是:

  • 多模态任务(涉及图片、视频、视觉)

  • 前端、UI设计

  • 需要超强推理能力的研究级任务 如果预算够,最好的办法是:两个都用。

Claude处理编程,Gemini处理多模态。各取所长。

我前两天刚刚同时用Claude Code+Gemini 3 Pro,开发了一个有仪式感地记录日常生活和灵感碎片的app「小票笔记 - Thermal」,在开发这款app时,我的工作步骤和体验是:

1)Gemini 3在生成和复刻前端效果上明显表现更优

2)实际的开发和解决bug的过程,Claude Code还是比Cursor + Gemini 3 Pro,或者使用Antigravity的体验,因为长程的编程能力还需要工具更好的工程化能力,以及模型更底层的编程能力。




最后

Opus 4.5的发布,不是孤立事件。

它是Anthropic在编程和Agent这条路上的又一次发力,是对Gemini 3的正面回应,也是对自己商业化策略的调整。

Anthropic这么跳,说明AI大模型的竞争进入白热化了。

对开发者来说,这是好事。模型越来越强,价格越来越低,工具越来越好用。

接下来,看OpenAI怎么接招。

当然,如果你因为订阅或者网络问题不方便使用原版Claude Code的话,也欢迎试试我前段时间开发的GLM Code:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
齐达内执教曼联的两大条件曝光!阿莫林公开逼宫,帅位悬念拉满

齐达内执教曼联的两大条件曝光!阿莫林公开逼宫,帅位悬念拉满

夜白侃球
2026-01-05 21:00:47
范丞丞拒加微信,清醒防备才是内娱生存之道

范丞丞拒加微信,清醒防备才是内娱生存之道

草莓解说体育
2026-01-05 12:49:45
税局突然要求补税!

税局突然要求补税!

跨境老鸟Mike
2026-01-05 15:06:10
《盖世神功》定档1月16日,集结林雪、詹瑞文等知名配角

《盖世神功》定档1月16日,集结林雪、詹瑞文等知名配角

好叫好伐
2026-01-05 19:35:12
刚刚!被吐槽全国距最远胶东机场,破了青岛机场客流量记录!

刚刚!被吐槽全国距最远胶东机场,破了青岛机场客流量记录!

王晓爱体彩
2026-01-05 10:43:29
“帮领导买东西,领导问:“多少钱?我转给你”,千万别说“没多少钱,不用了”,聪明人这样回复!

“帮领导买东西,领导问:“多少钱?我转给你”,千万别说“没多少钱,不用了”,聪明人这样回复!

上海约饭局
2026-01-04 20:41:57
李在明夫妇抵京,59岁爱妻金惠景寒天光腿,当年下嫁只得到银汤勺

李在明夫妇抵京,59岁爱妻金惠景寒天光腿,当年下嫁只得到银汤勺

译言
2026-01-05 05:47:29
李在明称周五下班去上海已成韩国年轻人新风尚,就职后首次访华携四大财团掌门人

李在明称周五下班去上海已成韩国年轻人新风尚,就职后首次访华携四大财团掌门人

界面新闻
2026-01-05 19:27:24
被批评后,詹姆斯和湖人队在对阵灰熊队时做出“180度大转变”

被批评后,詹姆斯和湖人队在对阵灰熊队时做出“180度大转变”

好火子
2026-01-06 01:40:10
想要高潮不断:五条夫妻性生活技巧的实用指南

想要高潮不断:五条夫妻性生活技巧的实用指南

精彩分享快乐
2026-01-06 00:00:03
李在明在北京说了实在话!不想成为尹锡悦,也不是另一个文在寅?

李在明在北京说了实在话!不想成为尹锡悦,也不是另一个文在寅?

蓝色海边
2026-01-06 01:15:08
李在明向中国交底,对中国做出保证,特朗普反水,高市成孤家寡人

李在明向中国交底,对中国做出保证,特朗普反水,高市成孤家寡人

梁讯
2026-01-05 17:10:57
美国人评论亚洲街道:日本干净,印度脏乱,而中国只用4个字形容

美国人评论亚洲街道:日本干净,印度脏乱,而中国只用4个字形容

丰谭笔录
2026-01-05 10:56:45
中共中央批准,开除许传智党籍

中共中央批准,开除许传智党籍

新京报政事儿
2026-01-04 16:16:14
“戏混子”又来霍霍谍战剧?把特工演成傻白甜,难怪观众不买账

“戏混子”又来霍霍谍战剧?把特工演成傻白甜,难怪观众不买账

阿嬍体育评论
2026-01-05 14:37:11
征服中年女人,无需套路:两颗真心,一生相守

征服中年女人,无需套路:两颗真心,一生相守

青苹果sht
2025-11-04 06:10:40
没有回旋余地,中国下令直接收回,17万日本人泪奔,高市闯祸了!

没有回旋余地,中国下令直接收回,17万日本人泪奔,高市闯祸了!

小鬼头体育
2025-12-22 10:58:29
海淀2干部被纪委通报!

海淀2干部被纪委通报!

海淀邻友圈
2026-01-05 18:55:43
黄金白银,大涨!

黄金白银,大涨!

河南交通广播1041
2026-01-05 22:35:55
委内瑞拉总统被抓,国内专家预言水平堪比德云社,央视太难了

委内瑞拉总统被抓,国内专家预言水平堪比德云社,央视太难了

姜大叔侃球
2026-01-04 17:57:48
2026-01-06 04:23:00
AI进化论花生 incentive-icons
AI进化论花生
AI博主,AppStore付费榜第一的小猫补光灯app开发者
109文章数 51关注度
往期回顾 全部

科技要闻

4100家科技企业集结赌城,CES揭开AI新战场

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

数码
时尚
家居
公开课
军事航空

数码要闻

2025年度数码好物大赏【年度评选】

冬天穿衣其实很简单!上短下长、加点亮色,高级舒适又耐看

家居要闻

白色大理石 奢华现代

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

马杜罗预计5日在纽约"首次出庭"

无障碍浏览 进入关怀版