网易首页 > 网易号 > 正文 申请入驻

Claude 4空降!AI编程真神登场,连续7小时自主编程,写代码效率拉满

0
分享至

智东西5月23日报道,今天凌晨,美国大模型独角兽Anthropic在其首届开发者大会上正式发布了下一代Claude模型:Claude Opus 4和Claude Sonnet 4,这也是Claude自2024年6月以来的首次大版本号更新。

Anthropic将Claude Opus 4称之为“世界上最好的编程模型”,能在复杂、长时间运行的任务和智能体工作流中表现出稳定的性能。Claude Sonnet 4是Claude Sonnet 3.7的重大升级,以编程和推理能力为核心,同时能更精确地响应用户提示词。这两款模型均为混合模型,提供两种模式:即时回复和用于更深入推理的扩展思考(extended thinking)。

在权威编程基准测试SWE-bench Verified上,开启扩展思考的Claude Opus 4与Claude Sonnet 4的得分分别为79.4%和80.2%,大幅度超越了OpenAI Codex-1、OpenAI o3、OpenAI GPT-4.1、Gemini 2.5 Pro等模型。

在编程、工具使用、视觉推理、数学等领域的基准测试中,这两款模型超越了OpenAI o3,而在多语言问答、研究生级别推理任务上,Claude Opus 4与OpenAI o3得分持平。新模型的智能体能力迎来升级,最高可独立运行7小时,并推出了文件API、提示词缓存等新功能。

Pro、Max、Team和Enterprise Claude订阅用户可使用上述两款Claude模型及其扩展思考模式,Sonnet 4可供免费用户使用。

这两款模型都可在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上调用,定价与之前的Opus和Sonnet模型保持一致:Claude Opus 4为每百万个token 15美元/75美元(输入/输出),Claude Sonnet 4为3美元/15美元。

Anthropic还同期发布了AI编程助手Claude Code,这一编程助手接入了Claude Opus 4模型,能实时映射和解释百万行级别的代码库。Claude Code与GitHub、GitLab、VS Code、JetBrains IDE和命令行工具集成,可直接嵌入至开发终端中。这一编程助手提供按量计费、每月100美元和每月200美元的3种订阅方案。

一、开场2分钟甩出重磅新模型,Claude未来更新频率将加速

在Code with Claude开发者大会上,Anthropic创始人Dario Amodei在开场2分钟时快步走上台,并未做任何铺垫,便直接甩出了最大的惊喜——Claude 4系列模型的发布。

Amodei称,Anthropic已经有一段时间没有更新Opus模型了,Anthropic对Opus的定位是旗下最强大、最智能的模型,而Sonnet是用户过去大约一年来一直在使用的中等水平模型。

Claude Opus 4在多项基准测试上的成绩并未明显高于Claude Sonnet 4,甚至略低于后者。Amodei强调,对于Claude Opus 4这样的大型模型,基准测试并不能完全体现其能力。

在Anthropic提供给客户的预览中,Claude Opus 4可以在Anthropic内部自主完成一些通常需要人类花费6到7小时的任务,Anthropic内部一些最资深的工程师都对其带来的生产力提升感到惊讶。

Claude Sonnet 4在多项编程基准测试中的表现与Claude Opus 4持平,但前者更为精简,专注于编程等特定任务。Claude Sonnet 4还解决了Claude Sonnet 3.7在实际使用过程中出现的种种问题,包括过度热情(倾向于做出超出用户要求的事情)与奖励机制问题。

Amodei称,Anthropic会继续改进Claude系列模型,定期发布可能的小版本更新,理想情况下,会比之前发布的频率还要高。

二、智能体能力迎升级,最高可独立运行7小时

Anthropic首席产品官、Instagram联合创始人Mike Krieger详细分享了更多Claude 4的相关情况。

Krieger称,Claude Opus 4擅长理解代码库并规划添加内容,从迁移、代码重构到最复杂的智能体工作流方面都非常高效且准确。

Claude Sonnet 4在日常编码任务、应用程序开发和配对编程方面表现出色。它也适用于高流量用例,平衡了效率和性能,可以被视为“全天候”编码伙伴。

Claude 4系列模型为打造能使用工具的智能体升级了关键的新功能。现在,Claude 4系列模型可以并行处理多种工具,当被授予访问本地文件的权限时,它们甚至可以在会话之间保持记忆,随着时间的推移积累知识。

Krieger回忆,在加入Anthropic后不久,他们曾凭借Claude的帮助,仅用3人团队成功完成亚马逊Alexa语音助手原型的打造,Krieger这位“前工程师”也重拾代码亲自上阵。这次合作最终使Claude成为Alexa Plus的核心模型之一。

这段经历让Krieger更坚信AI协作的潜力。如今,AI已不仅是工具,而是真正的智能协作伙伴,持续推动技术边界。Krieger提出了Anthropic认为的理想智能体三大核心能力:

(1)情境智能:理解组织背景,通过经验优化表现,像优秀员工一样越用越好;

(2)长期执行:独立处理复杂任务数小时,智能协调资源;

(3)深度协作:自然交互、适应工作风格,并保持决策透明。

为实现上述三大能力,Anthropic推出了更多新升级。

Claude现在可以通过Anthropic API上的新代码执行工具运行代码,而不仅仅是编写代码,能够加载数据集、清理数据、生成探索性图表,并实时分析异常情况。在与Claude 4模型结合后,代码执行工具可以处理复杂任务,节省大量时间。

Claude 4系列模型的自主性进一步提升,Claude 3.7最多可自主运行45分钟,而Claude 4可以独立运行数小时,最高达到7小时。新模型通过管理待办事项列表保持记忆,不会丢失线索。

Anthropic强调,智能体的广泛采用需要提高模型对保密内容、决策和协调的判断力。如今,Claude模型的每个功能都包含架构安全检查点和控制措施,确保模型在生产环境中的可靠性。

智能体的落地还需要访问现实世界的信息,并与现有系统的连接,为了帮助智能体进一步扩展,Anthropic推出了4项相互关联的新功能。

首先,开发者现在可以直接通过Anthropic API链接MCP协议(模型上下文协议)。如今,MCP协议被微软、谷歌、OpenAI、Block、Atlassian、Zapier、Linear等众多公司采用,Anthropic认为MCP有望为智能体经济奠定基础。

其次,网络搜索为Claude提供了对当前信息的实时访问。这是一种智能数据增强,允许Claude分析当前事件、市场趋势和新兴技术,与MCP功能结合使用时也非常强大。

第三,文件API今天起在Anthropic API中可用。文件API允许Claude读取和写入记忆文件,在长时间任务中保持上下文连续性。Anthropic配套发布“记忆功能食谱”,指导开发者如何集成到应用中。

最后,提示缓存功能迎来升级,TTL(生存时间)从5分钟提升至1小时,这最多能将模型的使用成本降低90%,延迟减少85%,尤其适用于长提示词场景、长时间运行的智能体工作流和需要频繁调用相同上下文的重复性任务。

Anthropic还显著减少了Claude 4模型使用快捷方式或漏洞完成任务的行为。与 Sonnet 3.7 相比,这种行为的可能性降低了65%。

Claude Opus 4在内存能力方面的表现也大大优于所有以前的型号。当开发人员构建提供Claude本地文件访问的应用程序时,Opus 4可以熟练地创建和维护“内存文件”来存储关键信息。这可以解锁更好的长期任务意识、连贯性和代理任务的性能——例如 Opus 4 在玩Pokémon时创建“导航指南”。

Claude 4模型还推出了思维链总结功能,可使用较小的模型来浓缩冗长的思维过程。

三、编程助手全面开放,整合至主流开发平台

Claude Code在今天迎来全面开放,从研究预览转为正式产品。Claude Code产品经理Cat Wu分享说,除了接入最新模型之外,Claude Code还推出了多项新功能。

Claude Code现已与VS Code和JetBrains等主流IDE集成,在使用过程中,开发者可以直接在编辑器中实时查看Claude Code建议的代码改动。

Anthropic还发布了Claude Code SDK,让开发者能够将Claude Code作为构建块融入自己的应用和工作流。为了展示其潜力,Anthropic在GitHub上开源了一个示例项目:用户可以直接在Pull Request和Issue中@Claude,它将自动响应审阅意见、修复错误并添加新功能。

通过这些更新,Claude Code已经能够覆盖大部分工作场景,无论是在终端中进行深度开发、在GitHub上处理远程协作、通过SDK构建自动化工作流,还是在IDE中进行代码审查。

演示环节中,Claude Code迅速完成了开源工具Excalidraw的表格组件功能开发。Claude Code会创建任务清单,探索代码库并生成代码,运行测试并提交Pull Request。它还能通过GitHub Actions自动更新文档。短短10分钟,Claude Code完成了通常需要数小时的复杂任务,极大地提升了开发效率。

由Claude Code SDK驱动的Claude Code和GitHub Actions现已可用,只需在运行命令即可安装。VS Code和JetBrains的Web IDE扩展也同步推出测试版,在IDE中运行命令即可安装。

结语:两条Scaling Law路径持续有效,未来1年将见证编程革命

Amodei称,Claude Sonnet 3.7发布仅两个半月,却感觉像过了一年,这足见AI领域的发展之快。他强调,Claude 4的模型能力来自预训练和后训练的共同进步,预训练Scaling Law依然有效,后训练技术也在同步发展,二者相辅相成。

展望未来AI领域的发展,Amodei认为我们会在未来一年我们将见证编程领域的革命,从Claude Code出发,我们将进入“智能体舰队”时代,成批的智能体会将软件开发自动化,定制化软件的成本显著降低,这将重塑开发者、企业和初创公司的角色。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

红星新闻
2026-03-26 11:28:05
京东外卖亏了466亿,但刘强东笑了

京东外卖亏了466亿,但刘强东笑了

新浪财经
2026-03-25 10:04:53
黎真主党导弹袭击以国防部及军营

黎真主党导弹袭击以国防部及军营

北青网-北京青年报
2026-03-26 10:19:17
CCTV5直播!国足热身“世界杯新贵”,15.9万人小国,邵佳一首秀

CCTV5直播!国足热身“世界杯新贵”,15.9万人小国,邵佳一首秀

汪星人哟
2026-03-26 19:13:15
杜淳宠妻太狠了!王灿戴4条金手链,口红整箱买像批发?

杜淳宠妻太狠了!王灿戴4条金手链,口红整箱买像批发?

娱乐领航家
2026-03-26 00:00:03
国金证券:长期来看黄金有望开启新一轮大牛市

国金证券:长期来看黄金有望开启新一轮大牛市

财联社
2026-03-26 08:08:04
震惊!网传福建一公司提醒员工,出现心梗前兆,先保存文件再救命

震惊!网传福建一公司提醒员工,出现心梗前兆,先保存文件再救命

火山詩话
2026-03-26 06:50:40
22岁陈熠3-0横扫挺进四强:国乒最后一张门票,她已无路可退

22岁陈熠3-0横扫挺进四强:国乒最后一张门票,她已无路可退

罗纳尔说个球
2026-03-26 18:04:03
36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

观威海
2026-03-26 09:19:03
“14天12板”!000908,复牌后上演“地天板”

“14天12板”!000908,复牌后上演“地天板”

大众证券报
2026-03-26 17:58:54
广西一挖掘机过桥时撞断护栏坠湖,司机遗体已被打捞上岸,坠桥原因还在调查中

广西一挖掘机过桥时撞断护栏坠湖,司机遗体已被打捞上岸,坠桥原因还在调查中

大风新闻
2026-03-26 18:09:04
徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

田先生篮球
2026-03-26 06:00:06
315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

现代小青青慕慕
2026-03-24 08:13:54
张雪峰离世的警示:人一定要学会避谶

张雪峰离世的警示:人一定要学会避谶

代伟看世界
2026-03-26 15:21:09
伊朗发动第81波行动,打击以色列70多处目标!内塔尼亚胡:48小时内尽可能多摧毁伊朗军工设施;伊朗外长:以将美国推向冲突,没有谈判余地

伊朗发动第81波行动,打击以色列70多处目标!内塔尼亚胡:48小时内尽可能多摧毁伊朗军工设施;伊朗外长:以将美国推向冲突,没有谈判余地

每日经济新闻
2026-03-26 08:26:06
短短1年,灵活就业者暴增4千万

短短1年,灵活就业者暴增4千万

深度报
2026-03-23 21:47:58
网友在乌兹别克斯坦偶遇“佛山三水城巴”,佛山方面回应:车子被转卖到了国外

网友在乌兹别克斯坦偶遇“佛山三水城巴”,佛山方面回应:车子被转卖到了国外

极目新闻
2026-03-26 17:01:19
东契奇湖人生涯第16次斩获40+ 还差两场追平詹姆斯

东契奇湖人生涯第16次斩获40+ 还差两场追平詹姆斯

北青网-北京青年报
2026-03-26 20:51:03
喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

品读时刻
2026-02-12 00:06:27
特朗普拒绝承认对伊朗打击是战争

特朗普拒绝承认对伊朗打击是战争

界面新闻
2026-03-26 15:51:22
2026-03-26 21:23:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11440文章数 117016关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
健康
时尚
手机
数码

教育要闻

来上课了——高考阅读难题大综合(细节+主旨+含义)(下)第1段

转头就晕的耳石症,能开车上班吗?

上新|| 她们说,找到了自己的人生裙子!

手机要闻

OPPO K15 Pro系列突然官宣:天玑9500s+主动散热,4月1日发布

数码要闻

小米Book Pro 14超薄设计引爆市场!这家国产厂商立功了

无障碍浏览 进入关怀版