网易首页 > 网易号 > 正文 申请入驻

Claude 4.1 Opus发布,编程能力再进化,“更大改进”还在后面?

0
分享至

当地时间 2025 年 8 月 5 日,Anthropic 正式发布了其旗舰 AI 模型系列的最新升级版——Claude 4.1 Opus。此次发布距离其前代模型 Claude 4 Opus 的推出仅过去三个月,Anthropic 称新模型在编程、智能体任务(agentic tasks)和推理能力上实现了显著提升。

这次发布的时机颇为微妙。就在同一天,OpenAI 发布了自 2019 年以来首批开源推理模型,而业界普遍预期 GPT-5 将在本月内正式亮相。面对即将到来的竞争,Anthropic 首席产品官 Mike Krieger 表示,这次发布体现了公司策略的转变。“过去我们过于专注于只发布真正重大的升级。”Krieger 在接受彭博社采访时说道,“在人工智能快速发展的环境中,我们应该专注于现有的产品。”

根据 Anthropic 的官方介绍,Claude 4.1 Opus 并非一次颠覆性的代际革新,而是一次在 Claude 4 基础上的重要升级。它的核心改进聚焦于三个方面:真实世界场景的编程能力、能够自主执行复杂任务的智能体能力,以及更强的逻辑推理。新模型已向所有付费的 Claude 用户、Claude Code(一个专注于编程辅助的垂直产品)订阅者开放,并同时通过其 API、亚马逊的 Amazon Bedrock 以及谷歌云的 Vertex AI 平台提供服务。

在定价方面,Claude 4.1 Opus 保持与前代相同的结构,输入 tokens 为每百万 15 美元,输出 tokens 为每百万 75 美元,使其成为目前市场上最昂贵的 AI 模型之一。

本次更新最重要的无疑是其在编程能力上的提高。Anthropic 公布的数据显示,Claude Opus 4.1 在软件工程基准测试 SWE-bench Verified 中取得了 74.5% 的成绩,相比前代模型 Opus 4 的 72.5% 提升了 2 个百分点,同时超越了 OpenAI 最新的 o3 模型(69.1%)和谷歌 Gemini 2.5 Pro(67.2%)。在代理终端编程测试 Terminal-Bench 中,新模型得分 43.3%,相比 Opus 4 的 39.2% 有了显著提升,远超 OpenAI o3 的 30.2% 和谷歌 Gemini 2.5 Pro 的 25.3%。


图丨 Claude 4.1 Opus 的基准测试结果(来源:Anthropic)

GitHub 表示,Claude 4.1 Opus 在多文件代码重构等复杂任务上表现出“尤其显著的性能提升”。日本电商巨头乐天集团(Rakuten Group)则反馈称,新模型在大型代码库中能够精准定位并修正问题,而不会引入不必要的更改或新的错误,这种精确性对于日常的调试工作至关重要。

被 Cognition 收购的编程应用 Windsurf 也提供了积极的反馈,报告称 Claude Opus 4.1 在其内部初级开发者基准测试中实现了一个标准差的改进,这种性能跃升类似于从 Sonnet 3.7 到 Sonnet 4 的升级。

在安全性方面,Claude 4.1 Opus 继续在 ASL-3(AI Safety Level 3,人工智能安全等级 3)框架下运行,这是 Anthropic 迄今应用的最严格安全标准。在无害性测试中,新模型拒绝违反政策请求的比例从 Opus 4 的 97.27% 提高到 98.76%,显示出更强的安全控制能力。

不过,在其他一些通用能力基准测试中,Claude 4.1 Opus 的优势并不像编程领域那样突出。例如,在考察研究生水平推理能力的 GPQA Diamond 测试中,它的得分(80.9%)与前代持平,但落后于 Gemini 2.5 Pro 的 86.4% 和 OpenAI o3 的 83.3%。在高中数学竞赛(AIME)和视觉推理(MMMU)等测试中,也与竞争对手互有胜负,并未展现出绝对的统治力。或许在某种程度上说明,Claude 4.1 Opus 的发布是一次高度聚焦的、带有明确战略目标的升级,其核心是强化在利润丰厚的 AI 编程市场的护城河。

据报道,Anthropic 的年化经常性收入(ARR,Annual Recurring Revenue)在短短七个月内,已经从 10 亿美元飙升至接近 50 亿美元,而驱动这一增长的核心,正是其在 AI 编程领域建立的技术壁垒和商业生态。且除了 API 收入,Anthropic 也正积极通过产品多元化来构建更稳健的收入结构。其直接面向开发者的 Claude Code 订阅服务表现就十分抢眼,年化收入已接近 4 亿美元,并且在最近几周内实现了翻倍增长。


图丨 OpenAI 和 Anthropic 的 ARR(来源:X)

其出色的商业表现,也为公司正在进行的巨额融资提供了坚实的背书。恰逢此次发布,Anthropic 正处于一轮大规模融资的收尾阶段。据 The Information 报道,公司计划在新一轮由 Iconiq Capital 领投的融资中筹集高达 50 亿美元的资金,其估值可能达到 1700 亿美元,相比今年 3 月 615 亿美元的估值增长近三倍。

这不仅将使 Anthropic 成为仅次于 OpenAI 和 SpaceX 的全球最有价值的独角兽之一,也为其在下一阶段的竞争中储备了充足的弹药。

Anthropic 在发布声明中表示,计划在未来几周内发布“更大幅度的模型改进”,暗示更重要的技术突破即将到来,这无疑是其对即将到来的 GPT-5 的直接战略回应。AI 领域的下一场巅峰对决,已然箭在弦上。

参考资料:

1.https://www.anthropic.com/news/claude-opus-4-1

2.https://www.theinformation.com/articles/anthropic-revenue-pace-nears-5-billion-run-mega-round?rc=5ypkcx

排版:刘雅坤

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴菲特箴言应验!北京女教师89万死守国投电力24年狂赚1000万

巴菲特箴言应验!北京女教师89万死守国投电力24年狂赚1000万

真实人物采访
2026-01-06 15:00:03
剑锋破浪!林诗栋三局碾碎黑马神话,17岁天才在他面前“交学费”

剑锋破浪!林诗栋三局碾碎黑马神话,17岁天才在他面前“交学费”

曹老师评球
2026-01-07 21:22:52
45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

嫹笔牂牂
2025-12-31 07:07:52
后院彻底起火!丹麦不玩了:美国若敢动格陵兰,北约就地解散!

后院彻底起火!丹麦不玩了:美国若敢动格陵兰,北约就地解散!

防务观察室
2026-01-06 14:42:25
云南省委原常委李文荣,受贿数额特别巨大!任职地连续四任市长落马

云南省委原常委李文荣,受贿数额特别巨大!任职地连续四任市长落马

上观新闻
2026-01-07 11:20:07
上海美女博主浅柠去世,身体一塌糊涂仍在直播,最后家人忍痛拔管

上海美女博主浅柠去世,身体一塌糊涂仍在直播,最后家人忍痛拔管

林雁飞
2026-01-06 15:16:11
韩国提议:建设首尔至北京高铁,有一个条件,中方先答应

韩国提议:建设首尔至北京高铁,有一个条件,中方先答应

说历史的老牢
2026-01-05 15:03:39
崩溃!赎个“电鸡”花3天,排队300多号…

崩溃!赎个“电鸡”花3天,排队300多号…

广州楼市发布
2026-01-06 21:16:12
美国不敢对中国开战?英国学者一语道破:中国不止核武器一个底牌

美国不敢对中国开战?英国学者一语道破:中国不止核武器一个底牌

谛听骨语本尊
2025-11-30 16:05:50
进口头孢西力欣涨价30倍!国内已停供2年,医生称非理性囤货没必要

进口头孢西力欣涨价30倍!国内已停供2年,医生称非理性囤货没必要

红星资本局
2026-01-06 19:35:05
他们官宣分手!恋情曝光仅24小时!

他们官宣分手!恋情曝光仅24小时!

上海约饭局
2026-01-06 16:55:46
美媒:中国洲际隐身轰炸机高清照首次亮相。远超B21

美媒:中国洲际隐身轰炸机高清照首次亮相。远超B21

世家宝
2026-01-07 11:59:10
俄对委内瑞拉局势反应冷淡,印证鲁比奥预判

俄对委内瑞拉局势反应冷淡,印证鲁比奥预判

老马拉车莫少装
2026-01-04 23:34:24
首周破香港票房纪录,黄子华都压不住,今年最强港片诞生了

首周破香港票房纪录,黄子华都压不住,今年最强港片诞生了

春之寞陌
2026-01-07 15:33:29
山姆买的牛肉,萧山网友回家一看惊了

山姆买的牛肉,萧山网友回家一看惊了

萧内网
2026-01-06 21:40:05
中国股市炒股其实很简单:如果本金有20W,建议死啃520均线战法!

中国股市炒股其实很简单:如果本金有20W,建议死啃520均线战法!

股经纵横谈
2026-01-07 11:45:59
又开始抓了!广东打响第一枪,2026要整治1年,电摩进入严管时代!

又开始抓了!广东打响第一枪,2026要整治1年,电摩进入严管时代!

木瓜新车指南
2026-01-07 15:03:22
中国本次禁止所有两用物项对日出口,厉害在哪里?

中国本次禁止所有两用物项对日出口,厉害在哪里?

王二哥老搞笑
2026-01-07 03:48:17
i茅台上线500ml飞天首日半小时内售罄,卖1399元的拼多多天塌了

i茅台上线500ml飞天首日半小时内售罄,卖1399元的拼多多天塌了

王新喜
2026-01-07 17:29:24
12胜0负!联盟第1!全联盟都说你要退役了,你却天神下凡再创神迹

12胜0负!联盟第1!全联盟都说你要退役了,你却天神下凡再创神迹

老侃侃球
2026-01-07 03:30:03
2026-01-07 22:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16092文章数 514457关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

美军扣押俄潜艇护航的"水手"油轮 美方人员已上船

头条要闻

美军扣押俄潜艇护航的"水手"油轮 美方人员已上船

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

亲子
本地
艺术
家居
数码

亲子要闻

用白醋试真假奶粉,靠谱吗?

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

艺术要闻

David Grossmann:不一样的风景画

家居要闻

宁静不单调 恰到好处的美

数码要闻

不止堆料!ROG成立20周年CES大秀:AR眼镜入局、双屏本再进化

无障碍浏览 进入关怀版