网易首页 > 网易号 > 正文 申请入驻

Opus 4.7发布:更强更准,同样文本token更多

0
分享至

来源:市场资讯

(来源:石臻说AI)


石臻说AI

编辑:石臻

导读: Anthropic 今天正式发布 Claude Opus 4.7。这是 Opus 系列目前最强的版本,专门盯着那些你以前不敢完全放手的复杂任务打磨:长任务更稳、代码能力大跳、视觉分辨率翻了三倍多,还上线了一套主动拦截高风险网络安全请求的机制。值得关注的细节很多,展开说。

发布背景:Opus 4.7 在 Anthropic 产品线里是什么位置

先说清楚一件事:Opus 4.7 不是 Anthropic 目前最强的模型。

他们的旗舰是 Claude Mythos Preview,仍在限量访问阶段。Opus 4.7 定位是 Opus 系列的迭代,在 Mythos Preview 之下——但在所有公开可用的模型里,它是现在最强的 Opus。

理解这个背景很重要,因为后面会讲到为什么 Opus 4.7 的网络安全能力被主动降档——这不是能力不足,而是 Anthropic 的策略。



代码和长任务:这是最大的改进方向

Anthropic 把 Opus 4.7 的主要卖点集中在「可以放心交出去的复杂工作」上,具体体现在三点:

任务完整性——长流程不中途放弃,工具调用失败了会自己绕过去继续。Notion Agent 测试里,Opus 4.7 是第一个通过他们「隐性需求测试」的模型,tool error 减少了三分之二。

自我验证——输出前会主动检查自己的逻辑。Hex 团队说 Opus 4.7 会正确报告「数据缺失」而不是给个听起来合理但错误的答案,而且能识别出 Opus 4.6 会踩的「数据陷阱」。

执行精度——更严格地遵守指令,副作用是:给旧模型写的 prompt 可能需要重新调整,因为 Opus 4.7 会更字面地执行,而不是自己补全你的意图。

几个有说服力的实测数据:

平台

测试场景

提升

Cursor

CursorBench 通过率

58% → 70%

Rakuten

生产任务解决量

Opus 4.6 的 3 倍

Notion Agent

多步骤工作流

+14%,token 更少

Factory Droids

企业工程任务

+10-15% 成功率

CodeRabbit

代码审查 Recall

提升超 10%

这些数字来自各平台内测,不是 Anthropic 自己跑的 benchmark,可信度相对高。

benchmark 数据:四个维度全面领先

官方发布了多张 benchmark 对比图,和 Opus 4.6、GPT-5.4、Gemini 3.1 Pro 做对比:


知识工作(GDPVal-AA)——这是衡量金融、法律等经济价值型任务的第三方评测,Opus 4.7 得分 1753,Opus 4.6 是 1619,GPT-5.4 是 1674,Gemini 3.1 Pro 是 1314。


文档推理(OfficeQA Pro)——Opus 4.7 正确率 80.6%,Opus 4.6 是 57.1%,GPT-5.4 是 51.1%,Gemini 3.1 Pro 是 42.9%。这个提升幅度比较夸张,文档分析场景应该能明显感受到差距。


长上下文推理(GraphWalks 1M)——Opus 4.7 在 BFS 1M 方法下得 58.6%,Opus 4.6 是 41.2%,提升超过 17 个百分点。1M token 长上下文推理,这个提升对 agent 场景意义很大。


视觉能力:分辨率直接翻三倍

这个改动很直接——接受的图片分辨率上限提升到长边 2576 像素(约 375 万像素),比此前 Claude 模型高三倍以上。

这是模型层面的改动,不需要开发者改代码,发更高清的图就行。

代价是 token 消耗增加——更高分辨率的图片会被映射到更多 token。不需要高分辨率的场景,可以在发图前自行降采样。

视觉导航(ScreenSpot-Pro)——这是衡量 computer-use 代理准确定位屏幕元素的能力。Opus 4.7 高分辨率模式在「有工具辅助」条件下达到 87.6%,Opus 4.6 低分辨率是 83.1%。


XBOW 的数据更直接:他们做自动化渗透测试时,视觉准确度基准从 54.5% 跳到了 98.5%。这个跨度不像正常迭代,更像是之前有个硬卡点被解决了。

三个新功能

xhigh 努力级别

API 的 effort 参数新增了 xhigh 档位,填在 high 和 max 之间:

low / medium / high / xhigh / max

Claude Code 已把默认档位调到 xhigh。测试代码和 agent 场景时,Anthropic 建议从 high 或 xhigh 开始。


task budgets(API 公测)

开发者可以设定 Claude 在长任务里的 token 预算,让它知道怎么分配精力。对于要跑很久的 agent 流程,可以避免前段就把 token 烧光的问题。

Claude Code /ultrareview

新增的 slash 命令,会启动专门的审查会话,通读你的代码变更,找出一个细心 reviewer 会抓到的 bug 和设计问题。Pro 和 Max 用户各有三次免费试用。

另外,auto mode(让 Claude 代替你做权限决策,减少运行中断)已扩展到 Max 用户。


安全机制:网络安全能力被主动压制

Anthropic 同步发布了 Project Glasswing——一份专门研究 AI 与网络安全风险的报告。

他们的逻辑是:在把 Mythos Preview 广泛开放之前,需要先在能力较弱的模型上验证新的安全拦截机制。Opus 4.7 是第一个被用来「试验」的。

具体做法:在训练过程中主动压制了 Opus 4.7 的网络安全能力,使其低于 Mythos Preview。同时上线自动检测,屏蔽涉及高风险网络安全操作的请求。

从安全行为评分来看,Opus 4.7 在诚实性和抵抗恶意 prompt injection 上比 4.6 更好,但在某些场景下(比如非法物质相关的过度详细建议)稍弱。整体结论是「基本对齐、可信,但不完美」。


想把 Opus 4.7 用于合法安全研究(渗透测试、漏洞挖掘、红队演练)的,可以申请 Cyber Verification Program:https://claude.com/form/cyber-use-case

社区怎么看:有人买单,有人冷眼

新模型一出,评论区的反应比官方博客有意思多了。

第一类是直接怀疑:


这个质疑有一定道理——确实有用户反映 Opus 4.6 在某个时间节点后表现变差了。Anthropic 没有正式承认过这件事,但这次 Opus 4.7 的发布时机,让不少人觉得"被套路了"。



这种情绪能理解。AI 模型的"悄悄降级"一直是个争议话题,用户没有好的工具去验证,只能靠主观感受。

但这不影响我对 Opus 4.7 能力的判断——多家平台的内测数据是独立跑出来的,而且指向一致。

番外:文言文 prompt,省 60% token

还有人评论区的人说,别逼我用中国的文言文来对话!

用文言文写 prompt,token 消耗直接砍 60%。


原理很简单:文言文高度压缩,表达同样意思只需要更少的字符,自然映射到更少的 token。

这跟 Opus 4.7 的 tokenizer 更新正好对上——新 tokenizer 本身会让同样的输入占用更多 token(最多 1.35 倍)。如果你对 token 消耗比较敏感,这个 trick 值得试试。

用一门 2000 年前的语言做 token 压缩层……确实有点疯狂。

迁移到 Opus 4.7 要注意什么

两个会影响 token 消耗的变化:

tokenizer 更新:同样的输入文本,Opus 4.7 可能映射到更多 token,大约是原来的 1.0–1.35 倍,具体取决于内容类型(代码、中文、英文差异较大)。

高 effort 级别下推理 token 增加:在 agent 任务的后续对话轮次里尤其明显——因为它想得更多,所以输出更多推理内容。

官方说综合 token 效率更好(因为更准确,更少废话),但建议用真实流量实测一下。


价格没变:输入 $5/M tokens,输出 $25/M tokens,和 Opus 4.6 一样。

模型名:claude-opus-4-7

现在在哪里能用到

今天起,Opus 4.7 已上线:

  • Claude.ai 全线产品(含 Claude Code,默认 xhigh effort)

  • Anthropic API

  • Amazon Bedrock

  • Google Cloud Vertex AI

  • Microsoft Foundry

  • Cursor(已上线,有限时五折优惠)

  • Anthropic 官方博客:https://www.anthropic.com/news/claude-opus-4-7

  • Claude Opus 4.7 System Card:https://anthropic.com/claude-opus-4-7-system-card

  • Cyber Verification Program:https://claude.com/form/cyber-use-case

  • 迁移指南:https://platform.claude.com/docs/en/about-claude/models/migration-guide

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美日彻底慌了!日本军舰闯台海,中国解放军把军舰开到其家门口

美日彻底慌了!日本军舰闯台海,中国解放军把军舰开到其家门口

别吵吵
2026-04-21 09:55:48
太难了!贵州女子哭诉生意不好,想把女儿生活费2000降到1600遭拒

太难了!贵州女子哭诉生意不好,想把女儿生活费2000降到1600遭拒

火山詩话
2026-04-20 13:51:19
杜兰特伤情进展!队记近距离观训:KD无跛行或不适,G2复出稳了?

杜兰特伤情进展!队记近距离观训:KD无跛行或不适,G2复出稳了?

熊哥爱篮球
2026-04-21 13:20:54
狼队超市正式开张:多名拉丁派国脚待出售,世预赛名将阵容受检阅

狼队超市正式开张:多名拉丁派国脚待出售,世预赛名将阵容受检阅

五姑娘台球
2026-04-21 09:10:09
更新大潮来了?中央发文定调:2026年起20年房龄老房子或又吃香了

更新大潮来了?中央发文定调:2026年起20年房龄老房子或又吃香了

专业聊房君
2026-04-18 16:45:50
3年前就戳穿西贝预制菜没人信,如今被实锤!这个探店博主藏得太深了

3年前就戳穿西贝预制菜没人信,如今被实锤!这个探店博主藏得太深了

马蹄烫嘴说美食
2026-04-15 18:29:48
突发!340亿开源巨头彻底撤离中国,419名顶级工程师被疯抢,18年深耕终落幕…

突发!340亿开源巨头彻底撤离中国,419名顶级工程师被疯抢,18年深耕终落幕…

新浪财经
2026-04-20 04:31:06
沉默1天,中国准时发话,“高市下岗”传遍全境,石破茂判断没错

沉默1天,中国准时发话,“高市下岗”传遍全境,石破茂判断没错

动漫里的童话
2026-04-21 10:54:50
古今第一奇文,一千字写尽五千年历史,无一字重复

古今第一奇文,一千字写尽五千年历史,无一字重复

长风文史
2026-04-08 14:30:03
69年陈云下放江西,时任省委书记拒不见面,陈云:此人胆子很大

69年陈云下放江西,时任省委书记拒不见面,陈云:此人胆子很大

鉴史录
2026-04-20 22:03:41
长期吃瑞舒伐他汀,需要明白的获益与风险,避开误区

长期吃瑞舒伐他汀,需要明白的获益与风险,避开误区

药师华子
2026-04-20 21:16:17
退休阿姨说:和再婚老伴同居后才明白,男人老了还要找老伴的原因

退休阿姨说:和再婚老伴同居后才明白,男人老了还要找老伴的原因

热心柚子姐姐
2026-04-20 10:15:40
喜讯!2026夏季这些生肖贵人相助,半点不穷,财神就守在身边

喜讯!2026夏季这些生肖贵人相助,半点不穷,财神就守在身边

毅谈生肖
2026-04-21 12:59:51
国内或将逐渐停止肠镜检查?做检查对身体有影响?医生告诉您真相

国内或将逐渐停止肠镜检查?做检查对身体有影响?医生告诉您真相

健康科普365
2026-04-17 20:05:08
香蕉被点名!医生:高血脂患者常吃香蕉,很快或迎来这些后果

香蕉被点名!医生:高血脂患者常吃香蕉,很快或迎来这些后果

坠入二次元的海洋
2026-04-21 11:56:21
李想怒喷日产的背后,藏着“增程帝国”崩塌的无能为力

李想怒喷日产的背后,藏着“增程帝国”崩塌的无能为力

少数派报告Report
2026-04-19 09:17:16
从中国驶向伊朗的货船,遭美军开火截停,不到24小时,中方表态

从中国驶向伊朗的货船,遭美军开火截停,不到24小时,中方表态

谛听骨语本尊
2026-04-21 13:30:55
山西长治万达广场一女子坠楼身亡,警方通报:张某(女,31岁)独自进入商场到4楼,翻越栏杆后坠落,排除刑事案件

山西长治万达广场一女子坠楼身亡,警方通报:张某(女,31岁)独自进入商场到4楼,翻越栏杆后坠落,排除刑事案件

扬子晚报
2026-04-21 09:21:30
兵败如山倒!国产新能源或已证明:中国压根不需要二线豪华品牌

兵败如山倒!国产新能源或已证明:中国压根不需要二线豪华品牌

青烟小先生
2026-04-21 09:44:04
35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

网络易不易
2026-04-21 12:45:10
2026-04-21 15:00:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2942245文章数 6827关注度
往期回顾 全部

科技要闻

重磅官宣:库克卸任,特努斯接任苹果CEO

头条要闻

丈夫在海外做生意 妻子和儿子在家里充电经历惊魂一夜

头条要闻

丈夫在海外做生意 妻子和儿子在家里充电经历惊魂一夜

体育要闻

“被优化”8年后,国乒方博决定换一条路重新上场

娱乐要闻

周润发时隔16年再卖楼,变现数亿资产

财经要闻

减速机订单已排到明年!

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

艺术
房产
本地
数码
公开课

艺术要闻

任伯年写竹,真带劲

房产要闻

大规模商改住!海口西海岸,这波项目要赢麻了!

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

数码要闻

三星Galaxy Buds Able骨传导耳机曝光,耳夹式设计

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版