Claude Opus 4.5来了：谷歌把Anthropic逼到了墙角|编程|上下文|新模型|opus|知名企业

Claude Opus 4.5来了：谷歌把Anthropic逼到了墙角

2025-11-25 13:08:43　来源: AI进化论花生

北京举报

分享至

上周，Google实在是太猛了，拳打OpenAI，脚踢Anthropic。Gemini 3 Pro模型在编程、数学、推理等能力上都达到了当之无愧的SOTA级别。

被逼到墙角之后，就看谁先有能力掀桌坐不住了。

于是，就在今天，Anthropic发布了Claude Opus 4.5。

Opus 4.5的核心还是聚焦在编程能力，可以说很炸裂：SWE-bench Verified达到80.9%，首次突破80%，超越Gemini 3 Pro的76.2%。

以及，很少见的是，他们甚至降价了！价格从之前的贵得离谱的$15/$75直接降到$5/$25 per million tokens，直降66%！！

Opus 4.5的发布，说明Anthropic是真的急了——或者说，终于认真了。

Opus 4.5到底有多强？

先说benchmark数据。

SWE-bench Verified：80.9%

这是业界公认的编程能力测试标准。Opus 4.5是第一个突破80%的模型。

对比一下：

- Gemini 3 Pro：76.2%

- Claude Sonnet 4.5：77.2%

- GPT-5.1：76.3%/77.9%

80.9%是什么概念？Anthropic内部拿性能工程师的面试题测试，Opus 4.5的得分超过了所有人类候选人。

Terminal-bench 2.0：59.3%

这个测试主要看模型在终端环境下的编程能力。Opus 4.5比Gemini 3 Pro高了5个百分点（54.2%），比自家的Sonnet 4.5高了近10个百分点（50.0%）。

这个差距说明一个事实：Claude在真实开发环境下，就是比其他模型强。

GPQA Diamond：87.0%

这是研究生级别的推理测试，涵盖物理、化学、生物。Opus 4.5在这个测试上落后于Gemini 3 Pro（91.9%），但87%的成绩也不差。

总结一下：编程能力世界第一，推理能力也不弱。

价格策略的巨大转变

Opus 4.5最让人意外的，是在性能提升的同时，价格还暴降了。

新定价：

- 输入：$5 / million tokens

- 输出：$25 / million tokens

Anthropic的官方说法是："making Opus-level capabilities accessible to even more users, teams, and enterprises"（让更多用户、团队和企业能用上Opus级别的能力）。

逻辑很明显：Anthropic需要更多人用Opus。

之前Opus的定位是"高端用户"，但高端市场就那么大。现在降价，是要抢占"中端市场"——那些之前用Sonnet，但其实需要更强能力的开发者。

不到一周，正面交锋

11月18日，Google发布Gemini 3 Pro。

11月24日，Anthropic发布Claude Opus 4.5。

不到一周，两个顶级模型连续发布。

这不是巧合。

Gemini 3 Pro发布时，各种benchmark数据都很炸裂，尤其是GPQA Diamond的91.9%，直接刷新了推理能力的记录。当时AI圈的共识是：Google这次真的起来了。

Anthropic当然不会让Google独占风头。

Opus 4.5的发布时机，明显是冲着Gemini 3来的。而且，Anthropic选择的战场很聪明：不和你比推理，和你比编程。

Gemini 3 Pro在推理上确实强（91.9% vs 87.0%），但在编程上，Claude Opus 4.5领先了近5个百分点（80.9% vs 76.2%）。

更关键的是，编程能力是开发者最关心的指标。推理能力再强，如果写不出好代码，开发者也不会买单。

这就是Anthropic的策略：在自己最擅长的领域，做到绝对领先。

为什么Anthropic能在编程上这么强？

之前我在测试Claude Code时，有个很深的感受：

Claude Code好用的逻辑，不是因为它是终端工具，而是因为Anthropic有模型成本和模型认知的优势。

他们可以更无所畏惧地投喂代码上下文烧token，能知道如何挤压模型Agentic的能力实现更长步骤的推理，可以用agentic search而非RAG的方式处理上下文。

这些优势，说白了就一个原因：Anthropic从一开始就是奔着编程和Agent去优化模型的。

我之前评价Claude 4时说：最强编程模型 + 最强Agent基建。

Anthropic对模型的所有优化，都是奔着To B做AI coding和让开发者建agent而去的。他们主要做了这几个方面的优化：

1. 扩展思维与工具使用：允许模型在思考和使用工具之间来回切换，形成"思考-执行-再思考"的循环

2. 改进的记忆能力：可以创建和维护"记忆文件"来存储关键信息，支持长时间任务

3. 更强的指令遵循能力：可以处理超过10000个token的系统提示

4. 减少奖励黑客行为：模型为了达到目标而走捷径的倾向降低了80%以上

这些优化，放在Opus 4.5上，效果更明显了。

相比之下，Gemini 3的优势在于多模态。如果你的任务涉及视觉、图片、视频，Gemini 3会更强。但如果是纯编程任务，Claude Opus 4.5几乎没有对手。

产品层面的配合

Opus 4.5的发布，不是孤立的。

Anthropic同时推出了几个重要的产品更新：

1. Claude Code进入桌面端：支持并行运行多个本地和远程会话，长对话自动总结早期上下文

2. Claude for Chrome：扩展至所有Max用户

3. Claude for Excel：面向所有Max、Team和Enterprise用户正式发布

这些产品更新，都是在强化一个信号：Claude不只是一个聊天模型，它是一个生产力工具。

尤其是Claude Code。

我之前说过，从工具层面来说，从Cursor这种IDE图形界面退回到Claude Code这种终端命令行工具，其实是个挺大的退步。但Claude Code之所以还是比Cursor好用，就是因为它背后的模型能力太强了。

现在Opus 4.5出来了，Claude Code的优势会更明显。

而且，Anthropic还宣布了和Microsoft、NVIDIA的战略合作：Claude扩展至Azure平台，由NVIDIA提供算力支持。这意味着，Claude的To B布局在快速推进。

开发者该怎么选？

最后说点实际的：如果你是开发者，该选Claude还是Gemini？

我的建议是：

选Claude Opus 4.5，如果你的任务主要是：

纯代码编写和调试
后端逻辑和复杂推理
长时间的编程任务（需要记忆和上下文管理）

选Gemini 3 Pro，如果你的任务主要是：

多模态任务（涉及图片、视频、视觉）
前端、UI设计
需要超强推理能力的研究级任务如果预算够，最好的办法是：两个都用。

Claude处理编程，Gemini处理多模态。各取所长。

我前两天刚刚同时用Claude Code+Gemini 3 Pro，开发了一个有仪式感地记录日常生活和灵感碎片的app「小票笔记 - Thermal」，在开发这款app时，我的工作步骤和体验是：

1）Gemini 3在生成和复刻前端效果上明显表现更优

2）实际的开发和解决bug的过程，Claude Code还是比Cursor + Gemini 3 Pro，或者使用Antigravity的体验，因为长程的编程能力还需要工具更好的工程化能力，以及模型更底层的编程能力。

最后

Opus 4.5的发布，不是孤立事件。

它是Anthropic在编程和Agent这条路上的又一次发力，是对Gemini 3的正面回应，也是对自己商业化策略的调整。

Anthropic这么跳，说明AI大模型的竞争进入白热化了。

对开发者来说，这是好事。模型越来越强，价格越来越低，工具越来越好用。

接下来，看OpenAI怎么接招。

当然，如果你因为订阅或者网络问题不方便使用原版Claude Code的话，也欢迎试试我前段时间开发的GLM Code：

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

Claude Opus 4.5来了：谷歌把Anthropic逼到了墙角

4100家科技企业集结赌城，CES揭开AI新战场

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

50年最差曼联主帅！盘点阿莫林尴尬纪录

《探索新境2》王一博挑战酋长岩

丁一凡：中美进入相对稳定的竞争共存期

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

2025年度数码好物大赏【年度评选】

冬天穿衣其实很简单！上短下长、加点亮色，高级舒适又耐看

白色大理石 奢华现代

马杜罗预计5日在纽约"首次出庭"

马杜罗庭审陈词:我是一个正派的人是我们国家总统

马杜罗庭审陈词:我是一个正派的人是我们国家总统

白色大理石奢华现代