网易首页 > 网易号 > 正文 申请入驻

Opus 4.7重新登顶榜单,但强得多的GPT-5.5极大概率下周就发

0
分享至


新智元报道

编辑:艾伦

【新智元导读】Opus 4.7 在综合榜和代码榜同时登顶,优势集中在长任务执行、工具调用和工程工作流完成率。Anthropic 借这次升级稳住了企业级 AI 市场里最接近预算和采购的那块位置。

本周,Anthropic 发布 Claude Opus 4.7。

它在两份最受关注的公开评测里重新登顶。

Artificial Analysis 的综合智能榜单上,Opus 4.7 拿到 57 分,高于上一代 Opus 4.6 的 53 分,进入第一梯队;


Arena.ai 最新公布的 Code Arena 结果里,Opus 4.7 排名第一,得分 1583,较 Opus 4.6 Thinking 的 1549 提升 34 分,也领先榜上下一家非 Anthropic 模型一大截,同时拿下 React 和 HTML 两个子榜第一。


这轮榜单变化的意义,更像一次市场校准。

过去两年,大模型行业热衷讨论能力边界,谁参数更大,谁推理更长,谁演示更惊艳,谁更接近那个永远在路上的 AGI。

到了 2026 年,企业客户的判断标准已经换了。

客户越来越少追问谁最像一个全科状元,越来越多追问另一件更现实的事:谁能进系统,谁能接流程,谁能把任务稳定做完。

Opus 4.7 这次得分上涨,恰好踩中这套新标准。

Anthropic 官方披露的几组数据,方向非常集中。


在 Anthropic 自建的 93 项编码基准上,Opus 4.7 相比 Opus 4.6 的任务解决率提升了 13%;

在 CursorBench 上,成绩从 58% 提升到 70%;

在 Notion 的多步工作流测试里,整体效果提升 14%,工具调用错误下降到原来的三分之一。

Anthropic 官网列举的客户反馈也都围绕同一类能力展开:自主推进、少犯错、遇到工具失败时还能继续执行。

这些数字拆开看都不算戏剧化,放在一起却很说明问题。

Opus 4.7 的进步集中在最难规模化、也最容易决定商业化成败的那部分能力上:长任务执行、跨步骤衔接、工具调用稳定性,以及在信息不足时保持克制。

单步问答的领先,越来越像发布会上的视觉效果;

长链路任务里的稳定表现,才更接近企业愿意付钱的理由。

模型要读代码仓库,要改多个文件,要处理依赖错误,要在失败后继续往前推,还要知道什么时候该停下来。

很多系统的问题从来不在某一步答错,而是流程一拉长就开始松动,最后还是要人接手收尾。

Anthropic 过去一年的路线,也一直围着这件事打。

它没有把主要精力放在最容易被普通用户感知的聊天体验上,而是持续把模型往「执行单元」上推。

编码、知识检索、文档审阅、法律研究、金融分析,这些环节容错率低、单位价值高,也最容易形成企业级采购。

Anthropic 官网这次列出的合作与反馈对象,包括 Cursor、Notion、Rakuten、CodeRabbit、Warp、Vercel、XBOW 等公司,几乎全部对应明确的工作流,而不是泛化的消费级场景。

这也是 Opus 4.7 这轮发布最值得关注的地方。

Anthropic 抢的从来都不是最热闹的用户入口,而是企业预算最集中的入口。

OpenAI 仍然拥有最强的公众注意力,谷歌仍然掌握平台和基础设施优势,开源阵营则继续用更低成本压缩闭源模型的利润空间。

Anthropic 的路线一直更窄,也更清楚。

它想进入的,是那些已经能被计算 ROI 的工作环节。

模型一旦进入代码生成、文档处理、金融分析、法律研究这些流程,带来的就不是一次性惊叹,而是可以被量化的人力替代率、时间压缩率和错误率下降。

试点能否转成采购,采购能否转成复购,通常就在这里决定。

榜首当然重要,但它也没有终局意味。

Arena 公布的细分结果显示,Opus 4.7 在 Overall、Expert、Coding 等项目上更强,Creative Writing 也有提升;


但在部分分类里,上一代 Opus 4.6 仍然领先。

这反而说明前沿模型之间的竞争,已经从代际式跨越,收缩成任务结构和能力配比的差异。

市场不再等待一个通吃一切的统一模型,而是在不同任务里寻找更适合的工具。

谁在工程任务上更强,谁在多模态上更顺,谁在价格上更有压迫感,座次会不断变化。

也正因为如此,Opus 4.7 的时间点很关键。

它发布前后,市场另一条高频话题是 OpenAI 下一代模型 GPT-5.5 的传闻,Polymarket 上相关押注也一度升温。



眼下这些更多还停留在预期层面。

真正能进入企业评估流程的,仍然是已经发布、已经评测、已经可以接入系统的模型。

Anthropic 这次并不需要证明 Opus 4.7 是未来半年里的绝对最强模型,它更现实的目标,是在下一轮更大规模的模型发布潮到来之前,把自己重新放回企业客户和平台方的重点名单里,并且给出一套足够具体、足够可采购的理由。

现在看,这套理由已经成立。

综合榜成绩、代码榜成绩、长任务能力提升、工具调用错误下降,这些指标拼在一起,构成了一个很清楚的市场信号:Anthropic 拿出了一款更适合进入生产系统的旗舰模型。

对于企业用户来说,这种信号比任何宏大的技术叙事都更有说服力。

采购不会因为一家公司的故事更动人而发生,只会因为另一家公司更可能稳定交付结果而发生。

Anthropic 想拿下的,则是下一轮企业级 AI 市场里更高的定价权。

参考资料:

https://x.com/ArtificialAnlys/status/2045292578434875552

https://x.com/arena/status/2045194638630560104

https://x.com/Polymarket/status/2045616553308147936

https://x.com/daniel_mac8/status/2045505817709838487

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我国甲减患者激增?多名院士严正提醒:停止食用厨房里的这5物

我国甲减患者激增?多名院士严正提醒:停止食用厨房里的这5物

白宸侃片
2026-06-05 22:26:25
重庆理工大学副校长被同事刺死:警方通报,双方风评对比,有隐情

重庆理工大学副校长被同事刺死:警方通报,双方风评对比,有隐情

李晚书
2026-06-06 09:06:53
快讯!中国国民党发表严正声明了!

快讯!中国国民党发表严正声明了!

故事终将光明磊落
2026-06-06 08:24:02
纳指跌超1000点,创2025年4月以来最大单日跌幅!6月预警?花旗:股市泡沫程度为2008年金融危机以来最高

纳指跌超1000点,创2025年4月以来最大单日跌幅!6月预警?花旗:股市泡沫程度为2008年金融危机以来最高

每日经济新闻
2026-06-06 17:12:19
唐纳德·特朗普谈NBA总决赛G3最低价8000美元:你们可在电视上看

唐纳德·特朗普谈NBA总决赛G3最低价8000美元:你们可在电视上看

好火子
2026-06-06 04:57:45
外媒:中国新型核潜艇现身,激进隐身设计或将挑战太平洋水下优势

外媒:中国新型核潜艇现身,激进隐身设计或将挑战太平洋水下优势

零度Military
2026-06-06 07:23:51
凌晨,全线暴跌!利空突袭!特朗普,紧急发声

凌晨,全线暴跌!利空突袭!特朗普,紧急发声

证券时报
2026-06-06 08:16:04
“她这么小就有阴德纹了!”小学女生特殊面相火了,家长不简单!

“她这么小就有阴德纹了!”小学女生特殊面相火了,家长不简单!

妍妍教育日记
2026-06-06 10:05:06
董鑫旺已任上海市文史研究馆党组书记

董鑫旺已任上海市文史研究馆党组书记

澎湃新闻
2026-06-06 12:50:26
面馆老板拒收硬币泼面后续:警方介入,店铺已关门,夫妻二人社死

面馆老板拒收硬币泼面后续:警方介入,店铺已关门,夫妻二人社死

奇思妙想草叶君
2026-06-05 19:38:28
手机店老板娘的这身打扮确实很有女人味

手机店老板娘的这身打扮确实很有女人味

美女穿搭分享
2026-06-03 20:28:11
太扎心了!毕业30周年聚会尴尬取消,直言“热情不高,支持不力”

太扎心了!毕业30周年聚会尴尬取消,直言“热情不高,支持不力”

火山詩话
2026-06-06 06:37:21
王哲林回应“王奶奶”绰号:我没见过自己奶奶,你有办法让我见吗

王哲林回应“王奶奶”绰号:我没见过自己奶奶,你有办法让我见吗

懂球帝
2026-06-06 12:45:05
释永信事件发酵!十年前李敖发布的一张对比照再度刷屏,引发热议

释永信事件发酵!十年前李敖发布的一张对比照再度刷屏,引发热议

火山詩话
2026-06-06 10:58:08
伊朗队拿到签证能去美国了!但不是“全员”

伊朗队拿到签证能去美国了!但不是“全员”

体坛周报
2026-06-06 17:09:19
事实证明马杜罗政权垮台之后,委内瑞拉人确实更有盼头了

事实证明马杜罗政权垮台之后,委内瑞拉人确实更有盼头了

玲儿爱唱歌
2026-06-04 07:05:24
中国内地和香港投资者被禁止参与SpaceX IPO!标普也突然变脸

中国内地和香港投资者被禁止参与SpaceX IPO!标普也突然变脸

财通社
2026-06-06 12:18:29
19年高考提前15分钟交卷,嘲讽题目太简单的林欢,如今过得怎样

19年高考提前15分钟交卷,嘲讽题目太简单的林欢,如今过得怎样

米果说识
2026-06-06 09:42:05
悲催!又一家大厂挺不住了,要停业…

悲催!又一家大厂挺不住了,要停业…

慧翔百科
2026-06-05 21:37:44
被父亲偷改志愿错失北大,24年拒不回家,再联系时一语击溃母亲

被父亲偷改志愿错失北大,24年拒不回家,再联系时一语击溃母亲

流云随风去远方
2026-06-06 10:13:29
2026-06-06 18:32:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15399文章数 66913关注度
往期回顾 全部

科技要闻

SpaceX与谷歌签署300亿美元算力协议

头条要闻

宗馥莉再出手 自有品牌KELLYONE回归已无"娃哈哈"痕迹

头条要闻

宗馥莉再出手 自有品牌KELLYONE回归已无"娃哈哈"痕迹

体育要闻

上海男篮时隔24年夺冠,恐怖的在后面?

娱乐要闻

33岁男演员金泽去世,曾搭档龚俊

财经要闻

百亿国资绑定,追觅“黑色星期五”背后

汽车要闻

BJ30旅行家完成多路况节油实测 百公里油耗突破5升

态度原创

房产
手机
游戏
本地
公开课

房产要闻

重磅官宣!美丽沙侨中也要扩建,新增42个班!

手机要闻

iOS 27系统底层重构代码 老机型提速增续航

《剑星》新作被吐槽AI痕迹明显!中文都是乱生成的

本地新闻

用杨柳青年画的方式,打开天津

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版