网易首页 > 网易号 > 正文 申请入驻

Claude 4发布:最强AI编程模型+最强AI Agent基建!

0
分享至

按照惯例来说,OpenAI是最爱截胡Google的,但是显然他们存货不足了,让Google I/O大会发布的新Gemini 2.5 Pro模型和文生视频模型Veo3出尽风头。

而OpenAI没干成的事,Anthropic来帮老大哥完成了。在Google I/O大会刚结束一天的时间点, Anthropic在凌晨又发布了两个模型:

Claude Sonnet 4和Claude Opus 4

这两个模型的出现,让Gemini 2.5 Pro还没坐热的AI编程模型头把交椅位置再次易主。

一、最好的编程模型

Claude Opus 4 被(Anthropic)称为"世界上最好的编程模型",在编程评测基准SWE-bench上达到了72.5%的成绩,这是个最值得关注和信任和评估模型在真实世界的软件工程方面表现的评测集。而在Terminal-bench上达到43.2%。更重要的是,它能够持续工作数小时而不掉链子,这对于复杂的、需要多步骤的编程任务来说是个重大突破。

Claude Sonnet 4 相比之前的Sonnet 3.7有了显著提升,在SWE-bench上甚至比Opus 4还略高,达到72.7%。虽然在大多数领域不如Opus 4强大,但它在性能和效率之间找到了最佳平衡点,可以认为是最适合用于日常编程任务的模型。

二、四大核心改进——Agent基建

除了模型的智能之外,Anthropic这次更新主要在四个方面有重大改进,而这四个方面的能力改进都直指一个核心——更好的Agent能力:

  1. 扩展思维与工具使用(Extended Thinking with Tool Use) 这是个测试版功能,允许Claude在思考和使用工具之间来回切换。比如分析数据时,Claude会先思考策略,然后运行代码查看数据结构,再思考下一步该怎么分析,形成一个"思考-执行-再思考"的循环。

  2. 改进的记忆能力 这个功能对长时间任务特别重要。Claude Opus 4现在可以创建和维护"记忆文件"来存储关键信息。Anthropic甚至让Claude玩了12小时的宝可梦游戏来测试这个功能,Claude能够记住训练计划并持续64场战斗来升级宝可梦,展现了出色的长期专注能力。

  3. 更强的指令遵循能力 Claude 4在处理复杂、冗长的系统提示方面有了显著提升,可以处理超过10000个token的指令。这个改进让Anthropic自己的系统提示长度减少了70%。

  4. 减少奖励黑客行为(Reward Hacking) 所谓奖励黑客行为就是模型为了达到目标而走捷径,比如硬编码测试或者注释掉错误代码。Claude 4在这方面的倾向降低了80%以上,这意味着你可以更信任它会用正确的方法解决问题。


这四项能力的更新显然都是为了Agent或者编程而做的,Anthropic相比Google和OpenAI来说确实要聚焦很多,无论是做Coding模型还是Agent,都是为了开发者服务的,显然相比做to C业务,to B卖token更在Anthropic的舒适区。
三、混合推理模式&定价

跟Claude 3.7一样,Claude 4系列都是混合推理模型,提供两种工作模式:

  • 即时响应模式:几秒内给出回答,适合常规任务

  • 深度思考模式:花更多时间思考,适合复杂问题


Dario依然维持着一样的观念,模型不应该有指令模型和推理模型之分,在回答用户之前是否进行思考,思考多长时间是一个从0到1的平滑曲线,和人一样,面对不同任务时做不同程度的思考。

价格相比之前的Claude 3.5模型维持不变:

  • Opus 4:$15/$75 每百万token(输入/输出)

  • Sonnet 4:$3/$15 每百万token

两个模型都已经在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上可用。免费用户也可以在Claude官网使用Sonnet 4(如果你没被封禁的话),付费用户可以使用两个模型和深度思考功能。当然,你也已经可以在Cursor上使用这两个模型了。

四、可有可无的更新

除了模型本身,Anthropic还发布了几个重要的周边更新:

Claude Code正式版:之前是研究预览版,现在正式发布,支持VS Code和JetBrains集成,还可以通过GitHub Actions在后台运行。不过我觉得这个工具暂时还是不可能比Cursor更好用,还是个更适合少数迎合开发者的小工具。

并行工具调用:Claude现在可以同时调用多个工具,提高效率。

API能力:包括代码执行工具、MCP连接器、Files API,以及可以缓存提示长达一小时的功能。

五、实际模型能力测试

Cursor跟Claude现在绑定得确实够深的,在Claude4发布当下就直接接入了对应的模型。而且现在Cursor中有4个Claude4模型可选,分别是Claude Sonnet 4、Claude Sonnet 4 thinking、Claude Opus 4、Claude Opus 4 thinking可选。

我用我这篇文章中的生成app原型的提示词对Claude 4 Sonnet、Claude 3.7 Sonnet、Gemini 2.5 Pro模型做了测试

Claude 4 Sonnet

Claude 3.7 Sonnet

Gemini 2.5 Pro

这结果差距太明显了,我都觉得没什么好评价的。但现实确实是:

Gemini 2.5 Pro虽然在LMArena等部分编程能力排行榜上排名不错,除了复杂长代码的表现偶尔不错,但是对指令的理解和遵从能力相比Claude还是差了些,视觉审美也比较糟糕,常常会有莫名其妙的表现。

Claude 3.7 已经很不错了,但Claude Sonnet 4则完全是惊艳的水平,相比3.7而言,4的原型细节内容更丰富,比如收听过和没收听过的红点,订阅节目和收听节目的汇总信息等,甚至播放器页面的封面图还是可以旋转的(很遗憾在图片上看不出来)。

Claude Opus 4我也尝试做了些测试,但是生成几次后就遇到了一些模型访问次数的问题,似乎现在Opus的服务器资源还不太够。但是从评分以及我仅有的部分体验看,普通编程任务的表现和Sonnet并无差异。

以我的经验来说,我建议选择如下:

  • Claude Sonnet 4 :最推荐的日常编程选择,在评估编程能力的指标SWE Bench评分上比Opus更高,经验上来说,比带thinking的模型表现更稳定更好,因为大多数任务你并不需要模型overthinking的。

  • Claude Sonnet 4 thinking:推荐在解决bug或进行项目规划的时候使用,毕竟在面对复杂问题时,你希望模型和人类一样,启动系统二,先做一些思考再做出审慎的回答。

  • Claude Opus 4和Claude Opus 4 Thinking:Opus是比Sonnet更大的模型,在非编程的数学、推理等任务上比Sonnet模型更好,也更贵。尤其在Cursor中是需要启用Max模式,也就是每一次回答都需要单独计费的。但是在常规的编程任务表现上并没有显著优于Sonnet模型,它相对更适合上下文长度非常多的大型复杂项目,或者重构项目。不过如果你不只是拿Cursor去编程,而是还用Cursor当写作工具的话,我觉得你可以适当尝试下。


都看到这了,记得点赞、关注、转发哦,谢谢支持~

注:本期内容选取自我的AI编程知识星球,感兴趣可点击「阅读原文」了解~

以及,我还做了期视频介绍本次Claude 4的更新,可空降至B站查看: https://www.bilibili.com/video/BV1orJszFEFf/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
35岁男子常用微波炉加热食物,2年后确诊胃癌,医生:犯了3个错

35岁男子常用微波炉加热食物,2年后确诊胃癌,医生:犯了3个错

健康科普365
2026-04-22 15:25:03
又打起来了,以色列遭斩首行动,伊朗发出严厉警告:随时准备开火

又打起来了,以色列遭斩首行动,伊朗发出严厉警告:随时准备开火

别吵吵
2026-04-23 09:15:23
奥沙利文:打斯诺克就是一份工作 收入配不上付出 就去打中式黑八

奥沙利文:打斯诺克就是一份工作 收入配不上付出 就去打中式黑八

罗克
2026-04-23 08:56:36
广西一佳人好漂亮, 身高169cm,体重50kg 美的让人移不开眼

广西一佳人好漂亮, 身高169cm,体重50kg 美的让人移不开眼

动物奇奇怪怪
2026-04-15 18:16:01
破防了!一37岁女子相亲遇国企月薪5500男生,称不接受贫穷的生活

破防了!一37岁女子相亲遇国企月薪5500男生,称不接受贫穷的生活

匹夫来搞笑
2026-04-23 09:22:07
男子晒两任老婆做的菜,问这说明什么,网友:证明前妻能陪你吃苦

男子晒两任老婆做的菜,问这说明什么,网友:证明前妻能陪你吃苦

丫头舫
2026-04-22 21:55:06
算力租赁概念反复活跃,多股涨停

算力租赁概念反复活跃,多股涨停

每日经济新闻
2026-04-23 10:11:08
2026-2032房价大预测:现在200万的房子,5年后还值几个钱?

2026-2032房价大预测:现在200万的房子,5年后还值几个钱?

猫叔东山再起
2026-04-23 10:45:03
网红蓝战非复出:带货3天破千万,曾称年入9位数

网红蓝战非复出:带货3天破千万,曾称年入9位数

三言科技
2026-04-22 22:51:05
若本轮意甲米兰和那不勒斯无法取胜,国米赢球就能提前4轮夺冠

若本轮意甲米兰和那不勒斯无法取胜,国米赢球就能提前4轮夺冠

懂球帝
2026-04-23 10:10:09
雷霆2-0!亚历山大带伤轰37+9+5嘲讽狄龙 再擒太阳拒绝26分大逆转

雷霆2-0!亚历山大带伤轰37+9+5嘲讽狄龙 再擒太阳拒绝26分大逆转

追球者
2026-04-23 12:20:00
收官战广东VS福建!赛前3个好消息1个坏消息 新签外援有望完

收官战广东VS福建!赛前3个好消息1个坏消息 新签外援有望完

罗纳尔说个球
2026-04-23 12:30:57
张柏芝没料到,陪伴了谢霆锋23年的女人,如今会让他“深陷泥潭”

张柏芝没料到,陪伴了谢霆锋23年的女人,如今会让他“深陷泥潭”

阿讯说天下
2026-04-23 12:20:19
许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

蜉蝣说
2026-04-23 09:41:11
交管12123出现绿拇指!连续3年无扣分,交强险最低475元、免审验

交管12123出现绿拇指!连续3年无扣分,交强险最低475元、免审验

生活魔术专家
2026-04-21 11:21:13
中方不伺候了!对荷光刻机优待全部取消,450亿芯片不做了!

中方不伺候了!对荷光刻机优待全部取消,450亿芯片不做了!

史智文道
2026-04-23 10:05:02
太敢说!34岁方博:现在全是内斗+拉踩队友 不求自己好但求别人差

太敢说!34岁方博:现在全是内斗+拉踩队友 不求自己好但求别人差

念洲
2026-04-22 13:49:49
伟伟道来 | 备战

伟伟道来 | 备战

经济观察报
2026-04-22 14:26:02
陈亚楠订婚后状态曝光!未婚夫晒两人同框视频,眉目传情尽显甜蜜

陈亚楠订婚后状态曝光!未婚夫晒两人同框视频,眉目传情尽显甜蜜

阿凫爱吐槽
2026-04-23 12:04:35
康凯:把“张飞”演成傻子,无戏可拍11年,如今现状令人唏嘘

康凯:把“张飞”演成傻子,无戏可拍11年,如今现状令人唏嘘

流云随风去远方
2026-04-18 15:35:50
2026-04-23 13:19:00
AI进化论花生 incentive-icons
AI进化论花生
AI博主,AppStore付费榜第一的小猫补光灯app开发者
190文章数 111关注度
往期回顾 全部

科技要闻

车没卖爆,利润却大涨,特斯拉发布财报

头条要闻

媒体:当下越南"极度不安" 苏林访华签文件对冲"焦虑"

头条要闻

媒体:当下越南"极度不安" 苏林访华签文件对冲"焦虑"

体育要闻

莱斯特城降入英甲,一场亏麻了的豪赌

娱乐要闻

《凌探未来》公益纪录片今日发布

财经要闻

全球第一个国家宣布:储备6月耗尽

汽车要闻

长安"1445"战略:一张走向"世界长安"的行军地图

态度原创

房产
本地
家居
公开课
军事航空

房产要闻

三亚安居房,突然官宣!

本地新闻

SAGA GIRLS 2026女团选秀

家居要闻

浪漫协奏 法式风格

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普宣布延长停火 伊朗表态

无障碍浏览 进入关怀版