网易首页 > 网易号 > 正文 申请入驻

刚刚,Claude Opus 4.7突然发布:不是最强,但奥特曼又得失眠

0
分享至

来源:市场资讯

(来源:爱范儿)


今年 Anthropic 的势头异常凶猛。

不仅热度居高不下,口碑也持续攀升,稳坐 AI 圈「顶流」的交椅。现在几乎每天醒来,都能看到他们准点推送的新产品或新功能。久而久之,大家也从兴奋变成了「是你,果然又是你」的默契感。

而就在刚刚,万众期待的 Claude Opus 4.7 也正式发布,依旧是熟悉的配方,熟悉的高分选手。


有趣的是,Anthropic 在公告里非常坦诚,甚至带着点骄傲:「这并非我们最强大的模型。」那个传说强得可怕的 Claude Mythos Preview 依然还在藏。

但就是这个并非最强的 Opus 4.7,却依旧引发了极大的关注。因为它解决了一个比聪明更重要的痛点:靠谱。不是那种你说什么它就做什么的靠谱,而是当你提出一个愚蠢的方案时,它敢于反驳你,并自己把坑填上的靠谱。

当靠谱成为比聪明更稀缺的品质

基准测试结果显示,在业界公认最硬核的 SWE-bench Pro 上,4.7 从前代的 53.4% 直接拉到 64.3%,单代升级涨了近 11 个百分点,把 GPT-5.4(57.7%)和 Gemini 3.1 Pro(54.2%)都甩在了身后。

视觉推理的 CharXiv 基准从 69.1% 跳到 82.1%,对应的是它新获得的 2576 像素长边识别能力——清晰度是前代的 3 倍以上。

这不只是「看得更清楚」这么简单。更高的分辨率直接带动了输出质量的连锁提升:生成界面、制作幻灯片、排版文档,细节精度也全面提升。

工具调用规模化评测 MCP-Atlas 上,4.7 跑出 77.3%,超过 GPT-5.4 的 68.1% 和 Gemini 的 73.9%。法律 AI 平台 Harvey 测试中,4.7 在 BigLaw 基准上拿下 90.9%,正确区分了历来是前沿模型死穴的「转让条款」与「控制权变更条款」。


不过,4.7 也并非全然遥遥领先,在 Agentic search 评测 BrowseComp 上,4.7 反而从前代的 83.7% 下降到了 79.3%,被 GPT-5.4(89.3%)和 Gemini(85.9%)超越。

这个退步并非偶然。一个遇到缺失信息会直接报错、不肯乱编答案的 Agent,在以「是否给出答案」为评判标准的基准上,天然会吃亏。

而数据之外,更值得关注的问题是:这种「靠谱」,在真实工作里到底意味着什么?

过去一年,业界对代码大模型的期待,普遍还停留在「写个函数、找个 Bug」的层面,但 Claude 4.7 在早期测试里,展现出了一种截然不同的气质。

知名云端开发平台 Replit 的负责人这样描述:「它在技术讨论中会反驳我,帮我做出更好的决定。它真的感觉像一个更好的同事。」


它不再一味地「唯命是从」,也不再为了交差而胡编乱造。在数据科学平台 Hex 的测试里,4.7 遇到缺失数据时会直接报错,而不是像前代那样塞一个「看似合理但完全错误」的备选值。Hex 团队甚至直言:「低消耗状态下的 4.7,等同于中等消耗状态下的 4.6。」

这种「拒绝顺从」的特质,恰恰是高级软件工程里最稀缺的东西。

当然,凡事有两面。为旧模型写的 prompt,到了 4.7 手里可能会产生意想不到的结果。那些过去被模型「意会」掉的模糊指令,4.7 会一字一字地字面执行。这也意味着越懂得清楚表达需求的人,越能从 4.7 这里拿到好结果。

光会「顶嘴」还不够,遇到挫折就罢工的 AI 同样不是好同事。4.7 的另一个大的变化,是任务韧性。


以往大模型在多步任务中遇到工具调用失败,往往直接停机报错。Notion 团队测试发现,4.7 的工具错误率降到了原来的三分之一,更关键的是,它能在工具链崩溃时自己绕过障碍,继续把任务跑完。

当 AI 停止谄媚,真正的生产力才开始爆发。

Anthropic 公布的一个极端案例里,4.7 在没有任何人类干预的情况下,从零构建了一个完整的 Rust 文本转语音引擎——写神经网络模型、SIMD 内核和浏览器演示,还自己把输出喂给语音识别器做验证,连测试都一并完成了。

前端框架巨头 Vercel 还发现了一个过去从未有过的行为:4.7 会在开始写系统级代码之前,先自己进行数学证明。这已经超出了写代码的范畴,进入了严谨工程设计的领域。

雇佣 AI「资深专家」的代价

为了验证它在细节上的处理能力,我设定了三个前端交互场景,评判标准只有一个:细节是否敷衍,一眼便知。

第一个场景,是让它做一个俯视视角的黑胶唱片机界面,其难点在于「金属光泽」与「呼吸光晕」的呈现。4.7 并没有用廉价的色彩渐变敷衍了事,而是通过复杂的 CSS 样式叠加,逼真地还原了金属质感。


第二个场景是只用 CSS,不用 JavaScript 做一个老式电风扇。 面对这个限制严格的题目,一些模型会悄悄违规使用 JS,但 4.7 遵守了规则。它用纯 CSS 做出了风扇的立体结构,低中高三档过渡流畅,底座透视和阴影的处理也真有一点实物感,它在规则允许的范围内找到了很好的解决办法。


第三个场景是做一个复古磁带随身听,带有录像带那种老旧的噪点效果。磁带转动的细节也是有的。


当然,变聪明是有代价的。Opus 4.7 现已在所有 Claude 产品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平台上推出。

基础定价维持在每百万输入 5 美元、输出 25 美元不变。但 4.7 引入了全新分词器,同样的文本会拆分出比原来多 1.0 到 1.35 倍的 Token。


叠加上它在高强度任务中本身就倾向于「多想一会儿」,实际消耗几乎必然上升。

此外,Anthropic 在原有的难度选项之上,加入了全新的 xhigh(超高)级别。在这个级别下,面对复杂难题,Claude 4.7 会消耗更多的 Token,花更多的时间去「思考」。Claude Code 已经把所有套餐的默认 effort level 直接拉到了 xhigh。

Anthropic 用行动告诉所有人,对于真正的编码任务,省着用不如想清楚。

为了匹配这种工作流,Claude Code 顺势推出了两个杀手级功能:

/ultrareview(深度审查):开启一个专门的审查会话,像一个极其挑剔的资深 Reviewer 一样,通读所有代码更改,精准标记出深层的架构设计缺陷和 Bug。Pro 和 Max 用户可以免费试用三次。

Auto Mode(自动模式)扩展到 Max 用户:一种介于「逐项授权」和「跳过所有权限」之间的新权限模式。Claude 会在你授权的范围内自主做决策,既能跑完漫长无聊的任务,又比完全放权更安全。

为了防止这个「太能思考」的 AI 把账户余额刷爆,API 端还推出了「任务预算」(Task Budgets)功能公测版,让开发者可以显式规划 Claude 在长任务中的 Token 支出优先级。


当然,4.7 并不是 Anthropic 手里最强的牌。

那个更强的 Claude Mythos Preview,本月刚以「Project Glasswing」的名义,小范围开放给了一批企业用于网络安全研究。Mythos 没有公开发布,原因则是因为它的网络攻防能力太强,Anthropic 觉得还没想清楚怎么安全地推给所有人。

4.7 本身也做了主动取舍,训练阶段就压低了网络攻防能力,内置自动拦截机制,碰到高风险请求直接挡掉。有合规需求的安全研究人员,可以通过官方渠道单独申请。

不急着把最强的牌打出去,和不停地往桌上加新牌,背后是同一套逻辑。实际上,Anthropic 真正的护城河,是交付节奏本身。

在今年 2 月 1 日至 3 月 24 日,短短 52 天里,Anthropic 一共更新了 74 款产品,平均不到两天一个。Cowork、插件……这些动作扎扎实实地击中了职场办公的痛点。

如今的 Claude 生态,早就超越了单纯的「聊天机器人」。对于那些渴望将 AI 深度嵌入实际工作流的团队而言,这种稳定、高频且可预期的更新节奏,才是最让人感到踏实的定心丸。

今天发布的 Claude 4.7,是这条链条上最新的一块压舱石。而那个 Mythos Preview,迟早也会来。到那时候,我们现在觉得已经很能打的 4.7,可能只是个开端。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
卡普空小萝莉爆火!国外玩家:想生孩子了

卡普空小萝莉爆火!国外玩家:想生孩子了

游民星空
2026-04-20 22:55:15
美国顶尖科学家密集死亡,真相扑朔迷离

美国顶尖科学家密集死亡,真相扑朔迷离

史政先锋
2026-04-20 22:00:23
阿森纳别慌!1-2后仍领先3分,曼城后6场对4强队,英超争冠有变数

阿森纳别慌!1-2后仍领先3分,曼城后6场对4强队,英超争冠有变数

体育知多少
2026-04-20 07:23:09
从0开始,在国内用上Claude Code的终极保姆教程来了。

从0开始,在国内用上Claude Code的终极保姆教程来了。

数字生命卡兹克
2026-04-20 10:11:26
队史首进季后赛创历史!宁波大胜吉林结束6连败 辛普森准三双

队史首进季后赛创历史!宁波大胜吉林结束6连败 辛普森准三双

醉卧浮生
2026-04-20 21:23:33
先收藏南再收台?国家藏南布大棋:先稳后方再收台,这招真绝!

先收藏南再收台?国家藏南布大棋:先稳后方再收台,这招真绝!

元宝课堂
2026-04-20 11:30:38
媒体人:广东队滑落至第五不能只怪杜锋,阵容先天就有短板

媒体人:广东队滑落至第五不能只怪杜锋,阵容先天就有短板

懂球帝
2026-04-20 23:43:05
机器人半马最诡异机器人出现,网友:半夜送外卖要被吓死

机器人半马最诡异机器人出现,网友:半夜送外卖要被吓死

第一财经资讯
2026-04-19 11:39:06
男孩爬山发现问荆草推测山下有黄金,专家:有问荆草不一定有金矿

男孩爬山发现问荆草推测山下有黄金,专家:有问荆草不一定有金矿

半岛晨报
2026-04-20 20:10:41
日本突袭!28万亿市场,中国惨遭清场,高市早苗亮出3张底牌

日本突袭!28万亿市场,中国惨遭清场,高市早苗亮出3张底牌

古史青云啊
2026-04-20 11:37:06
瑞典:国王拒绝与泽连斯基握手的说法,是“错误且丑陋的”。俄媒在这个问题上断章取义!

瑞典:国王拒绝与泽连斯基握手的说法,是“错误且丑陋的”。俄媒在这个问题上断章取义!

李未熟擒话2
2026-04-19 17:08:59
广东一医院发生一级甲等医疗事故,家属申请刑事立案监督

广东一医院发生一级甲等医疗事故,家属申请刑事立案监督

医脉圈
2026-04-20 12:04:46
伊朗媒体:伊朗超目前第四名球队CEO不满前三直接参加亚冠的决定

伊朗媒体:伊朗超目前第四名球队CEO不满前三直接参加亚冠的决定

懂球帝
2026-04-21 00:47:56
国民党郑丽文时代来临,2028卢秀燕难挑战

国民党郑丽文时代来临,2028卢秀燕难挑战

范瞼舍长
2026-04-21 01:25:45
这8种病立马办残疾证!符合条件每月领钱,别傻傻把福利扔了!

这8种病立马办残疾证!符合条件每月领钱,别傻傻把福利扔了!

记录生活日常阿蜴
2026-04-14 07:01:50
中超第7轮悬念拉满!泰山两大主力未随队,津门虎冲2连胜

中超第7轮悬念拉满!泰山两大主力未随队,津门虎冲2连胜

海阔山遥YAO
2026-04-21 01:05:46
2020年粟戎生写信询问:孟良崮上为何只见敌酋招魂,不见我军神勇

2020年粟戎生写信询问:孟良崮上为何只见敌酋招魂,不见我军神勇

历史龙元阁
2026-04-18 08:50:13
美媒感慨:要不是中国还在反抗特朗普,几乎全世界都向他投降了

美媒感慨:要不是中国还在反抗特朗普,几乎全世界都向他投降了

正经的烧杯1
2026-04-20 22:08:46
陈皮不就是晒干的橘子皮吗?为啥卖那么贵?

陈皮不就是晒干的橘子皮吗?为啥卖那么贵?

科普中国
2026-04-01 10:10:10
想远离癌症,先管住嘴!肿瘤科医生内部的“忌口清单”,很多人天天吃

想远离癌症,先管住嘴!肿瘤科医生内部的“忌口清单”,很多人天天吃

环球网资讯
2026-04-18 17:59:25
2026-04-21 03:44:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2935635文章数 6820关注度
往期回顾 全部

数码要闻

16GB能当20GB用!华为超空间内存技术适配计划公布:Mate X7系列6月推送

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

科技要闻

HUAWEI Pura X Max发布 售价10999元起

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

时尚
本地
游戏
亲子
军事航空

春天衣服不用准备太多!这几大单品提前备好,百搭实用又不过时

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

大司马回归两个月,某音人气稳居顶流行列,道出风光背后心酸现状

亲子要闻

【孤独症科普】啥是孤独症,哪些孩子易发生,如何应对?

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版