网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.7 发布,全网最详细解读

Claude Opus4.7

0
分享至

PRODUCT

我把手上几个活都换到 4.7 试了试,比 4.6 好用太多,断档的强

刚刚,Anthropic 发布 Claude Opus 4.7,已经在 Claude 的所有产品、API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 上全面可用。模型 id claude-opus-4-7


这是 Opus 4.6 的直接升级版。三条主线:编程能力在最难的任务上明显提升、视觉分辨率扩大到过去的三倍多、同时是 Project Glasswing 之后第一个试验新网络安全护栏的对外模型

定价完全不变,$5/M 输入 token,$25/M 输出 token。相比之下 Mythos Preview 的 API 价格是 $25/$125 per million,Opus 4.7 便宜 5 倍

Anthropic 官方给出的总体对比图,Opus 4.7 在多个基准上高于 Opus 4.6,但仍然弱于内部的 Mythos Preview


Opus 4.7 / Opus 4.6 / GPT-5.4 / Gemini 3.1 Pro / Mythos Preview 横向对比

编程是主升级点

Opus 4.7 最显眼的变化在高难度软件工程任务上。用户反馈里反复出现两个词:长程自主

过去必须盯着改的那类代码活,现在可以放手让它跑

28 家早期客户给了反馈,这里挑最硬核的几个数据点

GitHub:93 个任务的编程基准上,比 Opus 4.6 高 13%,4 个任务是 Opus 4.6 和 Sonnet 4.6 都搞不定的

Cursor:CursorBench 过 70%,Opus 4.6 是 58%

Rakuten:Rakuten-SWE-Bench 上解决的生产任务是 Opus 4.6 的 3 倍

Hex:低 effort 档的 Opus 4.7 大致等于中 effort 档的 Opus 4.6

Notion:准确率提升 14%,token 用得更少,工具调用错误减少到 三分之一。第一个通过 Notion 「隐含需求」测试的模型

Cognition(Devin 的公司):能连贯工作几个小时,不会卡在难题上放弃

Replit、Vercel、Databricks、Warp、Factory、Ramp、CodeRabbit、Qodo、Bolt 等一系列厂商都给出了正面反馈。公告里一个反复出现的观察是:Opus 4.7 减少了无意义的包装函数和兜底脚手架,写的时候自己发现问题自己改

XBOW 的视觉敏锐度基准:Opus 4.6 是 54.5%,Opus 4.7 是 98.5%

XBOW 做自动化渗透测试,这是这次发布里最硬的一个数据跳变

Imbue 的案例最极端:Opus 4.7 自主从零构建了一个完整的 Rust TTS 引擎,包括神经网络模型、SIMD 内核、浏览器 demo,然后用语音识别器反过来验证自己的输出是否匹配 Python 参考实现。代码库公开

官方给出的编程基准图


编程基准横扫

视觉能力是第二大升级

Opus 4.7 能接受的图片长边从之前的水平上升到 2,576 像素(约 3.75 兆像素),是此前 Claude 模型的三倍多

这个能力是模型层的变化,没有 API 参数开关。直接送图过去就行,需要更高分辨率就不要自己压缩

顺便把 Anthropic 的 Vision 文档看一下,背景信息在这里:用 base64 或 URL 喂图,单次请求最多可以传 600 张(API)或 20 张(claude.ai)。上传太大(单边超过 1568 像素或超过约 1600 token 的图)会先被服务端 down-sample。计价按 tokens ≈ (width × height) / 750 估算,1 兆像素大约 1334 tokens

能用得上的场景:computer-use agent 读密集截图、复杂图表里的数据抽取、需要像素级对照的工作。XBOW 的数据说明这个升级对 computer-use 是实质的


视觉理解、OCR、计算机使用、图表阅读多项基准

安全策略:Mythos 还没放,先用 Opus 4.7 练手

这次的安全设计要配合 Project Glasswing 一起看

上周 Anthropic 联合 AWS、苹果、博通、思科、CrowdStrike、Google、摩根大通、Linux 基金会、微软、NVIDIA、Palo Alto Networks 成立了 Project Glasswing。起因是 Anthropic 训出了 Claude Mythos Preview 这个没发布的前沿模型,在挖漏洞方面达到了超过大多数安全专家的水平

Mythos Preview 过去几周已经在每一个主流操作系统和主流浏览器里都找出了 0-day 漏洞。有三个公开案例:

→ OpenBSD 上存活了 27 年 的漏洞,攻击者可以只靠连接就远程崩掉任何一台机器

→ FFmpeg 里的 16 年老洞,自动化测试工具跑过同一行代码五百万次都没发现

→ Linux 内核里自主链起了几个漏洞,把普通用户权限升到完全控制

Anthropic 的结论是,前沿 AI 在代码漏洞发现和利用上已经进入可以比肩顶级安全专家的阶段。如果护栏跟不上,这种能力一旦扩散会非常危险

Opus 4.7 就是为这个问题准备的第一个对外模型。训练过程中差异性地降低了网络安全能力,发布时带上了自动检测和拦截高风险网络安全用途请求的护栏。做合法用途的安全研究员(漏洞研究、渗透测试、红队)可以申请加入 Cyber Verification Program

Mythos Preview 不会广泛发布,Anthropic 给 Glasswing 参与方承诺了最高一亿美元的使用额度。它的 API 价格是 $25/$125 每百万 token,是 Opus 4.7 的 5 倍

Opus 4.7 在网络安全能力上弱于 Mythos Preview(训练时就是这么设计的)。这些现实部署数据里学到的护栏经验,会用来为后面更大范围放 Mythos 级模型做准备

对齐评估的总体结论:Opus 4.7 比 Opus 4.6 和 Sonnet 4.6 好一些,但 Mythos Preview 仍然是 Anthropic 训出来的对齐最好的模型

官方原话是 largely well-aligned and trustworthy, though not fully ideal in its behavior


对齐评估总分,越低越好

诚实度、抗 prompt injection 上 Opus 4.7 有改进。受控物质减害建议过于详细这类问题上有小幅倒退。完整评估在 Claude Opus 4.7 System Card 里

同步发布的东西

除了模型本身,这次还有几项更新

新的 effort 档位 xhigh。原来的档位是 low / medium / high / max,这次在 highmax 中间插了一个 xhigh


effort 档位示意,xhigh 是这次新增

这个参数控制的是 Claude 响应的 token 花费规模,覆盖文字回答、工具调用、extended thinking 全部。Claude Code 里默认 effort 已经拉到 xhigh。官方建议编程和 agentic 场景用 highxhigh 起步

task budgets 公测。API 端新功能,让开发者能给 Claude 设置 token 预算,让它在长任务里自己分配优先级。和 effort 参数一起用更细

/ultrareview slash 命令。Claude Code 里新增,专门跑一个独立的 review 会话,把改动从头到尾过一遍,找 bug 和设计问题。Pro 和 Max 用户有 3 次免费额度

Auto mode 下放到 Max 用户。3 月 24 日 Anthropic 先在 Team 计划上发布了这个模式。机制是在 --dangerously-skip-permissions 和默认每步都问的两极之间加了一个中间档:每次工具调用前有个分类器检查是否有危险操作(批量删文件、敏感数据外泄、恶意代码执行),安全的直接放行,危险的拦下来让 Claude 换方案。这次 Max 用户也能用

迁移:两个变化影响 token 消耗

从 Opus 4.6 升 Opus 4.7 是直接替换,但有两个点值得提前规划

第一:tokenizer 换了,文本处理方式更好了。代价是同样的输入文本,新 tokenizer 下的 token 数大约是旧版的 1.0–1.35 倍,取决于内容类型

第二:高 effort 档位下 Opus 4.7 想得更多,尤其是 agentic 场景里靠后的轮次。这带来更高的硬题可靠性,但也意味着更多的输出 token

控制 token 使用的方法:调 effort、调 task budgets、提示模型更简洁。Anthropic 自己的内部编程评估上,整体是 token 效率改善的,不同 effort 档位都更优,但他们建议用户在真实流量上自己量


内部编程评估里,不同 effort 档位都更优

还有一个容易踩的坑:指令跟随强度大幅提升

意思是,为老模型写的 prompt 有可能在 Opus 4.7 上产生意料之外的结果。过去 Claude 会宽松解读或者跳过的指令,Opus 4.7 会严格按字面执行。升级的时候,prompt 和 harness 要重新调

Anthropic 的迁移指南里还有一条老账:用 Claude 4.6 或以上模型,thinking: {type: "enabled", budget_tokens: N} 已经 deprecated,推荐迁到 thinking: {type: "adaptive"}effort 参数。老的 beta header(effort-2025-11-24fine-grained-tool-streaming-2025-05-14interleaved-thinking-2025-05-14)也该删掉了,这些功能都已经正式上线

真实工作

除了跑分,Anthropic 内部测试里 Opus 4.7 在金融分析师任务上比 Opus 4.6 更有效:更严谨的分析和建模、更专业的演示、任务之间的衔接更紧

在第三方评估 GDPval-AA 上,Opus 4.7 拿到 state-of-the-art。这个评估是 Artificial Analysis 基于 OpenAI 的 GDPval 数据集做的,覆盖 44 个职业、9 大行业的 220 个真实经济价值任务。模型需要产出文档、幻灯片、图表、电子表格等实际工作交付物

在 Opus 4.7 之前的榜单上,前三是 GPT-5.4 xhigh(ELO 1677)、Claude Sonnet 4.6 Max(1654)、Claude Opus 4.6 Max(1620)

记忆方面,Opus 4.7 更会用基于文件系统的记忆。跨多轮、多 session 的长任务里记得住重要笔记,开新任务时需要的前置上下文更少

其他 benchmark

官方博客里还给出了办公、文档推理、长上下文、生物、长程一致性等基准的详细数据

办公任务


文档推理


长上下文推理


生物


长程一致性


Anthropic 还特别标注了 benchmark 上的几个细节。Terminal-Bench 2.0 用的是 Terminus-2 harness 关闭 thinking 模式。CyberGym 上 Opus 4.6 的分数从原报的 66.6 更新到 73.8。SWE-bench Verified / Pro / Multilingual 上做了记忆化筛查,排除可能被模型记住的问题后,Opus 4.7 对 Opus 4.6 的领先仍然成立

和竞品对比的时候,用的是 API 可用的最好版本,GPT-5.4 和 Gemini 3.1 Pro 都是这个口径

入口

模型字符串:claude-opus-4-7

Claude 所有产品已经切到 Opus 4.7。API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 同步可用

Claude Code 用户默认 effort 拉到 xhigh,Pro/Max 有 3 次免费 /ultrareview,Max 用户开启 auto mode

参考材料

微信打不开外链,长按复制 URL 到浏览器打开

Opus 4.7 发布公告

https://www.anthropic.com/news/claude-opus-4-7

Claude Opus 4.7 System Card

https://anthropic.com/claude-opus-4-7-system-card

Claude API 模型总览

https://platform.claude.com/docs/en/about-claude/models/overview

从 Opus 4.6 迁移到 Opus 4.7 的官方指南

https://platform.claude.com/docs/en/about-claude/models/migration-guide#migrating-to-claude-opus-4-7

Effort 参数文档

https://platform.claude.com/docs/en/build-with-claude/effort

高分辨率 Vision 能力文档

https://platform.claude.com/docs/en/build-with-claude/vision

Claude Code slash 命令文档(含 /ultrareview)

https://code.claude.com/docs/en/commands

Auto mode 发布说明

https://claude.com/blog/auto-mode

Project Glasswing 发布公告

https://www.anthropic.com/glasswing

Cyber Verification Program 申请入口

https://claude.com/form/cyber-use-case

GDPval-AA 榜单

https://artificialanalysis.ai/evaluations/gdpval-aa

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
婆婆带人住进来的第一晚,我就开始悄悄准备,三个月后我拎包离开

婆婆带人住进来的第一晚,我就开始悄悄准备,三个月后我拎包离开

老红点评社
2026-04-13 11:19:12
程晓玥挺大肚为女庆生,富二代老公罕见同框,一家三口画面太甜

程晓玥挺大肚为女庆生,富二代老公罕见同框,一家三口画面太甜

黔乡小姊妹
2026-04-15 08:49:46
方力申自爆与太太闪婚生女原因!直呼单身太久,一下子被她外表吸引!

方力申自爆与太太闪婚生女原因!直呼单身太久,一下子被她外表吸引!

我爱追港剧
2026-04-19 13:39:35
采访了100个娶了小三的男人,他们几乎都说了同一句话,让人恍然

采访了100个娶了小三的男人,他们几乎都说了同一句话,让人恍然

千秋文化
2026-04-15 20:18:32
郑钦文马德里或再战莱巴金娜!王欣瑜斯瓦泰克同区,张帅最先出战

郑钦文马德里或再战莱巴金娜!王欣瑜斯瓦泰克同区,张帅最先出战

排球黄金眼
2026-04-20 01:29:07
爱沙尼亚铁了心拒绝斯洛伐克总理过境,菲科莫斯科之旅再遭断航

爱沙尼亚铁了心拒绝斯洛伐克总理过境,菲科莫斯科之旅再遭断航

桂系007
2026-04-19 23:52:15
赵心童10-7晋级,赛后采访引热议!谈到克鲁斯堡魔咒以及下轮比赛

赵心童10-7晋级,赛后采访引热议!谈到克鲁斯堡魔咒以及下轮比赛

小火箭爱体育
2026-04-19 07:42:11
消失近40年再次出现!浙江渔民捕鱼数十年,第一次见到

消失近40年再次出现!浙江渔民捕鱼数十年,第一次见到

阿芒娱乐说
2026-04-19 20:06:16
历史留名!詹姆斯创季后赛神迹,湖人G1力克火箭旗开得胜

历史留名!詹姆斯创季后赛神迹,湖人G1力克火箭旗开得胜

夜白侃球
2026-04-19 20:19:51
三大顶级华人歌唱家新加坡首度合体,近20首金曲听到过瘾

三大顶级华人歌唱家新加坡首度合体,近20首金曲听到过瘾

新加坡眼
2026-04-19 18:16:15
为什么飞机提前40分钟停止值机了?网友:那40分钟就不是留给你的

为什么飞机提前40分钟停止值机了?网友:那40分钟就不是留给你的

夜深爱杂谈
2026-03-18 19:53:27
这4个蜀将战力达到一流水平,但是都没参加北伐,实在是太可惜了

这4个蜀将战力达到一流水平,但是都没参加北伐,实在是太可惜了

铭记历史呀
2026-04-19 15:38:51
240万手封跌停!4个月跌53%,抄底客亏麻了

240万手封跌停!4个月跌53%,抄底客亏麻了

慧眼看世界哈哈
2026-04-19 16:45:01
中方行使否决权,新加坡称感到失望,新国大使:应取消一票否决权

中方行使否决权,新加坡称感到失望,新国大使:应取消一票否决权

无法克制的烦恼
2026-04-20 01:15:27
德甲冠军排行榜:拜仁34冠居首,多特、门兴5冠并列第二

德甲冠军排行榜:拜仁34冠居首,多特、门兴5冠并列第二

懂球帝
2026-04-20 02:03:03
香港一工地近百人追讨欠薪,结果网友们却乐了

香港一工地近百人追讨欠薪,结果网友们却乐了

映射生活的身影
2026-04-19 09:55:59
等不到特朗普访华了,美国提前对华摊牌:要求秘鲁把中国赶出港口

等不到特朗普访华了,美国提前对华摊牌:要求秘鲁把中国赶出港口

安珈使者啊
2026-04-19 11:44:14
潜伏在中国高层的大间谍,遍布军界政界,简直令人唏嘘

潜伏在中国高层的大间谍,遍布军界政界,简直令人唏嘘

咸説历史
2026-04-14 14:21:44
悲催!网传武汉某双非高校一寝室6人,仅1人找到月薪3500元工作…

悲催!网传武汉某双非高校一寝室6人,仅1人找到月薪3500元工作…

火山詩话
2026-04-16 13:58:24
人民日报:已投放500万辆!新国标电动车为何突然反转,有3大原因

人民日报:已投放500万辆!新国标电动车为何突然反转,有3大原因

电动车的那些事儿
2026-04-18 07:37:58
2026-04-20 02:39:00
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
390文章数 50关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

艺术
时尚
数码
旅游
教育

艺术要闻

超模施特洛耶克写真曝光,简直美到窒息,别错过!

装修“精神角落”,就是这么上瘾

数码要闻

华为新机发布前瞻:阔折叠X Max+影像旗舰Pura 90,都没悬念了

旅游要闻

北京投入2.2亿元建成和田“三馆一院”

教育要闻

655家单位、1.29万个岗位,湖南用心帮大学生找工作

无障碍浏览 进入关怀版