网易首页 > 网易号 > 正文 申请入驻

被骂降智 1 个月后,Anthropic 端出了 Opus 4.7

0
分享至


Claude Opus 4.7 能不能堵住用户的嘴?


作者|桦林舞王

编辑|靖宇

一家 AI 公司,到底做什么会让开发者气到在 GitHub 上,公开声讨一个 AI 模型「退化到不能用」?

过去几周,Claude Opus 4.6「疯狂降智」的讨论充斥网络。

一位 AMD 的资深总监在 GitHub 上发了一篇广泛流传的帖子,直接写道「Claude 已退化到无法信任执行复杂工程的地步」。这篇帖子在开发者社区炸开了锅,无数人跑来补刀,说自己也有类似体验。

就在舆论发酵到最热的时候,2026 年 4 月 16 日,Anthropic 悄然推出了 Claude Opus 4.7。

时机,耐人寻味。

01

「退化」风波,

Anthropic 欠开发者一个答案

要理解 Opus 4.7 的意义,得先说清楚它出现之前发生了什么。

Opus 4.6 上线后,最初口碑不错。但随着时间推移,开发者们开始陆续反映:这个模型在处理复杂工程任务时,变得越来越「保守」,越来越容易在多步骤任务中途放弃,甚至开始给出「看起来合理但其实是错的」回答。

这种「退化感」在 AI 产品里是最致命的信任危机。用户可以接受模型能力一般,但无法接受一个用熟了的工具突然变得不可靠。

从用数据角度看这件事,财报分析平台 Hex 的评估说明了问题的本质。他们发现 Opus 4.6 在遇到数据矛盾时,会倾向于给出「看似合理的错误回退」,而不是老老实实承认「数据缺失,我没法回答」。对一个要用来做数据分析的工具来说,这比「不会用」还危险。

Anthropic 对这些反馈的回应方式是,直接上新版本。没有公开的解释,没有「我们听到了」的官方声明,就是一个新模型上线了。

对技术公司来说,这算是最直接的道歉方式

02

Opus 4.7 到底强在哪

Anthropic 给 Opus 4.7 打的标签是「软件工程领域的显著提升」,并引入了一个全新的 xhigh 努力等级。

从具体数字来看,编码基准提升了 13%,生产级任务的自主完成率提升了 3 倍,同时还带来了高达 3.75 兆像素的高分辨率视觉支持和更新的分词器。

但这些官方数字对开发者来说太抽象。更有说服力的是来自 Cursor 团队的反馈。Cursor 是目前最受开发者青睐的 AI 编程工具之一,他们用自己的内部基准 CursorBench 测试了 Opus 4.7,结果是自主编码成功率从 Opus 4.6 的 58% 跳升到了 70%

12 个百分点的差距,听起来不大,但放在「自主完成复杂任务」这个维度上,意义完全不同。

过去在 Opus 4.6 上需要两到三次提示才能搞定的任务,在 4.7 上通常一次就能跑通。对真正在工作流里深度依赖 AI 的开发者来说,这直接等于减少了一半以上的来回调试成本

Hex 对 Opus 4.7 的评价,则从另一个维度印证了这次升级的质量。他们直接说这是「评估过最强大的模型」,核心理由是它在面对数据矛盾时,不再试图给出貌似合理的错误答案,而是选择如实告知「数据缺失」。这听起来像是一个很小的行为变化,但它指向的是模型「自知能力边界」这个更深层的进步。

价格没有变化。输入每百万 token 5 美元,输出每百万 token 25 美元,和 Opus 4.6 完全一致。

03

两周三更新,Anthropic 在打什么算盘

如果只是看这一次发布,Opus 4.7 是一次扎实的迭代升级。但把时间线拉长到过去两个月,这次更新的背后逻辑就更有意思了。

2026 年 1 月以来,Anthropic 大约保持着每两周一次重大更新的节奏。这个频率,在 AI 军备竞赛最激烈的今天,本身就是一种战略表态:

我们在跑,我们不会停」。

更值得关注的是与此同时发生的另一件事。

就在 Opus 4.7 发布前几周,Anthropic 向精选企业客户悄悄开放了 Claude Mythos Preview,这是作为 Project Glasswing 网络安全计划的一部分。

这个模型的能力之强让人警惕,据报道它能够渗透主要银行系统,且具备同时攻击多个目标的潜力。Anthropic 联合创始人杰克·克拉克专门向特朗普政府做了汇报,财政部长斯科特·贝森特和美联储主席鲍威尔随后也紧急召集了与银行高管的会议。

这意味着 Anthropic 现在同时在打两场战争。一场是公开的、对着开发者和企业客户的产品战,Opus 4.7 是这场战争里的一颗棋子;另一场是关于 AI 能力边界的政策博弈,Mythos 和 Project Glasswing 是这条线上更敏感的棋局。

这两件事放在一起看,你会发现 Anthropic 的产品哲学,正在发生微妙的转变。他们越来越清楚,最强大的模型不能直接扔给所有人用,但也不能把「足够强」的模型做差了

Opus 4.7 扮演的,就是这个「足够强但可控部署」的角色。

04

开发者生态的新格局

Opus 4.7 的发布,对整个开发者工具生态的意味,不只是「Claude 又更新了」这么简单。

编程助手这个赛道,今天已经是一场关于「工作流深度绑定」的战争。Cursor 选择把 Opus 4.7 作为核心模型接入,这背后是一个明确的判断,在当前竞争格局里,Claude 系列对复杂软件工程任务的理解深度,依然有明显优势。

VentureBeat 的一个分析视角很有意思,他们认为Opus 4.7 代表的,是 AI 从「创意助手」向「可靠执行者」的角色迁移。这个说法其实道出了企业采购决策的核心逻辑,创意助手可以偶尔出错,但执行者不行。

不过,也有值得留意的隐患。新分词器的引入意味着,同样的输入文本可能会消耗更多 token,虽然单价不变,但实际成本有可能悄悄上涨。这对高频调用 API 的企业来说,是需要重新测算的变量。

还有一个更根本的问题,正如 Decrypt 的评论所指出的,AI 行业至,今仍没有一套大家都认可的能力评估标准。Anthropic 说编码基准提升了 13%,但这个基准和真实开发场景之间的距离,每个人的感受都不一样。Cursor 的 70% 成功率数据,比 Anthropic 自己发布的所有基准都更有说服力,正是因为它来自真实工作流里的实际验证。

几周前,开发者在 GitHub 上公开抱怨 Opus 4.6「不能用了」。今天,Anthropic 用一个新版本回应了这份不满,并且用实打实的性能数据赢回了 Cursor、Hex 这些头部工具团队的背书。

但用户的信任不是靠一次发布能彻底修复的。每两周一次的迭代节奏,既是优势,也是压力,因为它意味着每次发布都必须真的好,否则下一轮「退化」的声音会来得更快。

对 Anthropic 来说,真正的考验不是今天能不能发出一个更好的版本,而是能不能让开发者相信,这个「更好」是持续的、可预期的

这对任何 AI 公司来说,都是一个巨大的挑战。

*头图来源:LLM Stats

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

Opus4.7 的能力符合你的预期吗?


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哇塞!超赞!恭喜哈登

哇塞!超赞!恭喜哈登

体育新角度
2026-07-05 22:32:16
神奇!国足归化球员的出生地,全进世界杯的16强

神奇!国足归化球员的出生地,全进世界杯的16强

湖北的老球迷
2026-07-05 19:29:14
成都女生给英国留学男友寄空调,空调售价1000多运费花2000多,有留学生为省钱网上寻拼单搭子;义乌降温产品卖爆欧洲

成都女生给英国留学男友寄空调,空调售价1000多运费花2000多,有留学生为省钱网上寻拼单搭子;义乌降温产品卖爆欧洲

大象新闻
2026-07-05 23:46:04
王力宏治疗摔伤细节曝光,去的医美科找的顶级专家,直接半夜摇人

王力宏治疗摔伤细节曝光,去的医美科找的顶级专家,直接半夜摇人

萌神木木
2026-07-05 15:16:51
本届世界杯,最倒霉的就是佛得角!踢了4场球,遇到3个世界冠军

本届世界杯,最倒霉的就是佛得角!踢了4场球,遇到3个世界冠军

观星娱记
2026-07-05 12:31:18
别被保质期骗了!这10种食物过期1年也能吃,第一名比黄金珍贵

别被保质期骗了!这10种食物过期1年也能吃,第一名比黄金珍贵

阿天爱旅行
2026-07-04 13:31:00
西足协主席:2030年世界杯决赛应该在西班牙办

西足协主席:2030年世界杯决赛应该在西班牙办

懂球帝
2026-07-05 16:57:09
给10位“毛主席扮演者”排座次:刘烨第8,唐国强第3

给10位“毛主席扮演者”排座次:刘烨第8,唐国强第3

电影聚焦
2026-06-28 10:32:34
7名志愿军在弹药耗尽的困境下,意外捡到美军遗留重机枪和弹药,成功创造了一个奇迹

7名志愿军在弹药耗尽的困境下,意外捡到美军遗留重机枪和弹药,成功创造了一个奇迹

小影的娱乐
2026-07-04 14:34:50
留洋一年英语说的不如初中生,杨瀚森的问题不只在球场内

留洋一年英语说的不如初中生,杨瀚森的问题不只在球场内

兵哥篮球故事
2026-07-05 21:37:18
一趟火车1500人,为什么连30份盒饭都卖不完?终于有人说实话了!

一趟火车1500人,为什么连30份盒饭都卖不完?终于有人说实话了!

猫叔东山再起
2026-07-04 13:20:04
西安严鹏追悼仪式曝光:现场全是花圈,外地网友送千束菊花

西安严鹏追悼仪式曝光:现场全是花圈,外地网友送千束菊花

娱乐圈圈圆
2026-07-05 13:27:55
孙骁骁爸妈带娃却不住一起,任重这波操作,戳中了多少夫妻心坎

孙骁骁爸妈带娃却不住一起,任重这波操作,戳中了多少夫妻心坎

孤傲何妨初
2026-07-03 06:37:55
蔚小理集体改口认输,特斯拉到底凭什么颠覆整个智驾行业?

蔚小理集体改口认输,特斯拉到底凭什么颠覆整个智驾行业?

新时代精神
2026-07-03 20:49:52
别舍不得开空调!1.5匹至3匹24小时电费,看完不用再硬扛高温

别舍不得开空调!1.5匹至3匹24小时电费,看完不用再硬扛高温

小柱解说游戏
2026-07-05 05:43:01
“北大毕业,月薪1600”,女孩满脸憔悴,网友:谁让你读这专业?

“北大毕业,月薪1600”,女孩满脸憔悴,网友:谁让你读这专业?

泽泽先生
2026-07-04 21:35:57
C罗的长子:身高超1.9米,遗传父亲的运动天赋,和乔治娜相处融洽

C罗的长子:身高超1.9米,遗传父亲的运动天赋,和乔治娜相处融洽

小书生吃瓜
2026-06-29 16:00:26
办世界杯竟成烫手山芋,2034年申办国仅一个,为啥没人抢了?

办世界杯竟成烫手山芋,2034年申办国仅一个,为啥没人抢了?

混沌录
2026-07-03 21:09:26
残忍?塞内加尔出局后全队机场苦等数小时 被告知足协已取消包机

残忍?塞内加尔出局后全队机场苦等数小时 被告知足协已取消包机

风过乡
2026-07-05 11:33:51
暴涨74394%,存储龙头杀疯了

暴涨74394%,存储龙头杀疯了

首席品牌评论
2026-07-05 23:46:07
2026-07-06 00:19:00
极客公园
极客公园
让最棒的创新成为头条
12231文章数 78911关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

医院给老人一次拔12颗牙种10颗 官方:将顶格行政处罚

头条要闻

医院给老人一次拔12颗牙种10颗 官方:将顶格行政处罚

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

手机
房产
数码
时尚
公开课

手机要闻

消息称HMD Skyline 2手机仍将发布

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

数码要闻

安克上线官翻产品旗舰店,提供官方保修和售后保障

3年赚46亿,杨幂喊出一个安徽富豪

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版