网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.7 来了,编程能力又炸了

0
分享至

今天继续聊 Claude —— Anthropic 刚刚正式发布了 Claude Opus 4.7,编程能力这次又是一次暴击

Benchmark 一览

下图是 Anthropic 给出的跨领域 benchmark 对比,Opus 4.7 在大多数任务上超过了 Opus 4.6,以及 GPT-5.4 和 Gemini 3.1 Pro:


Claude Opus 4.7 跨领域 Benchmark 对比 它比 Opus 4.6 强在哪?

Anthropic 官方说,Opus 4.7 在高级软件工程上是 Opus 4.6 的「显著提升」,尤其是在那些最难的任务上

这话我本来要打个折,但看了一圈测试用户的反馈之后,我信了

几个让我印象深刻的数据:

  • Cursor :在 93 个编程任务的 benchmark 上,任务解决率比 Opus 4.6 **提升了 13%**,包括 4 个 Opus 4.6 和 Sonnet 4.6 都搞不定的任务

  • Rakuten :在 SWE-bench 上,Opus 4.7 解决的真实生产 bug 是 Opus 4.6 的 3 倍

  • XBOW(自主渗透测试) :视觉准确性从 Opus 4.6 的 54.5% 直接干到 **98.5%**,这简直是量变引发质变

  • Notion :工具调用准确率和规划能力提升超过 **10%**,更难得的是,它是第一个通过隐式需求测试(implicit-need tests)的模型

视觉能力:分辨率翻了 3 倍多

这次 Opus 4.7 的视觉升级幅度相当大

之前的 Claude 模型能接受的图片分辨率,现在 Opus 4.7 可以接受最长边 2,576 像素(约 3.75 百万像素),是之前版本的 3 倍以上

这意味着什么?

  • 读密集截图的 computer-use agent,再也不会因为文字太小看不清而出错

  • 从复杂图表里提取数据,精度大幅提升

  • 科学、法律文档里那些需要像素级精准的工作,终于能干了

来自 Solve Intelligence(生命科学专利工作流)的反馈印证了这一点:从化学结构式到复杂技术图纸,理解能力大幅跃升

注意这是模型层面的变化,不是 API 参数,图片会自动以更高精度处理。但因为高分辨率图片消耗 token 更多,如果你不需要那么高的精度,可以在发送前先降采样

指令遵循:这次是认真的

Opus 4.7 在指令遵循上大幅提升

听起来是好事,但 Anthropic 自己也提醒了:之前给旧模型写的 prompt,有时候会跑出意外结果——因为旧模型对指令是「松散理解」甚至跳过某些部分,现在 Opus 4.7 是字面意思照单全收

所以如果你是 API 用户,升级前最好重新审视一下你的 prompt,该精确的地方要精确,该删掉的废话要删掉

新功能:xhigh 努力等级

Opus 4.7 引入了全新的 xhigh(extra high)努力等级,介于原来的 highmax 之间

这给用户提供了更细粒度的控制:在硬问题上,你可以选择在「思考质量」和「响应延迟」之间找到更合适的平衡点

在 Claude Code 里,现在默认把所有计划的努力等级提升到了 xhigh

官方建议在编程和 Agent 场景下测试时,从 highxhigh 开始

下图是不同努力等级下,token 使用量和任务得分的关系:


不同努力等级下的 token 使用量与任务得分对比 网络安全:先迈一步,但很谨慎

Anthropic 上周公布了 Project Glasswing,直面 AI 在网络安全领域的两面性——风险与机遇。

Opus 4.7 是 Glasswing 框架下第一个正式落地的模型,它的网络安全能力不如 Claude Mythos Preview(目前最强的 Anthropic 模型),Anthropic 在训练阶段专门做了差异化处理,有意限制了部分网络安全能力

同时,Opus 4.7 配备了自动检测和拦截高危网络安全请求的防护机制

真正有合法需求的安全研究人员、渗透测试工程师,可以通过 Cyber Verification Program 加入白名单

这条路子我觉得挺对的:先在能力较弱的模型上验证防护机制是否有效,积累经验后,再逐步向更强的 Mythos 级别模型开放

安全性测评
Claude Opus 4.7 行为审计评分

在安全对齐方面,Opus 4.7 和 Opus 4.6 整体差不多——欺骗行为、谄媚、滥用配合率都处于低水平

部分维度(比如诚实性、对抗 prompt 注入攻击)比 4.6 有改进,少数地方(比如有害物质信息的过度详细回复)略微退步

整体结论:「大体对齐、基本可信,但还没达到理想状态」

Mythos Preview 依然是 Anthropic 目前对齐效果最好的模型

价格 & 可用性

好消息:价格不变,和 Opus 4.6 一样:

  • 输入:**$5 / 百万 tokens**

  • 输出:**$25 / 百万 tokens**

支持平台:

  • Claude 全产品线

  • Claude API(模型 ID: claude-opus-4-7

  • Amazon Bedrock

  • Google Cloud Vertex AI

  • Microsoft Foundry

还有这些新东西一起上

随 Opus 4.7 一起发布的还有几个配套更新:

  1. /ultrareview 命令 (Claude Code):一键启动深度代码审查,像一个认真的 reviewer 一样帮你找 bug 和设计问题,Pro 和 Max 用户各有 3 次免费试用额度。

  2. Task Budgets(公测) (API):给开发者一个新机制,引导 Claude 在长任务中合理分配 token 预算,避免前紧后松或前松后紧

  3. Auto Mode 扩展 :Max 用户现在也可以开启 Auto Mode,让 Claude 在长任务里自主决策权限请求,减少中断

升级注意事项

如果你在生产上用 Opus 4.6,升级到 4.7 有两个点要注意:

  1. 新 tokenizer :同样的输入,token 数大约会增加 1.0–1.35 倍 ,取决于内容类型

  2. 更高努力等级下思考更多 :尤其是 Agent 场景的后续对话轮次,输出 token 会增加

Anthropic 提供了迁移指南,建议先在真实流量上测一下差异

总结

Opus 4.7 的核心关键词:编程更强、视觉更清、指令更准、安全更严

如果你是:

  • Claude Code 用户 :直接用,默认已升级到 xhigh 努力等级,新的 /ultrareview 也很值得试

  • API 开发者 :记得重新调 prompt,关注 token 用量变化,迁移指南先读一遍

  • 网络安全从业者 :有合法需求的走 Cyber Verification Program

最让我感兴趣的其实是这个关于「更好同事」的描述——一个会在技术讨论中反驳你、帮你做出更好决定的 AI

这可能才是 AI 应该有的样子,不是附和你,是真的帮你。

.7

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王曼昱轻松击败申裕斌,为何孙颖莎赢金娜英艰难?马琳贡献表情包

王曼昱轻松击败申裕斌,为何孙颖莎赢金娜英艰难?马琳贡献表情包

体育大学僧
2026-05-08 09:39:34
深圳网约车真实一天!早6充电干到到晚9,一天流水太现实!

深圳网约车真实一天!早6充电干到到晚9,一天流水太现实!

三农老历
2026-05-08 14:47:16
“我做了20次试管婴儿!”知名女星在澳洲公开孕肚,流泪分享艰辛求子路

“我做了20次试管婴儿!”知名女星在澳洲公开孕肚,流泪分享艰辛求子路

澳洲红领巾
2026-05-08 15:33:51
貔貅认主不看财富,这四个生肖千万别碰,戴了反而会破财

貔貅认主不看财富,这四个生肖千万别碰,戴了反而会破财

纸鸢奇谭
2026-04-13 16:06:54
笑死,原来大多数中年人都没觉得自己已经老了!8090后最先破防了

笑死,原来大多数中年人都没觉得自己已经老了!8090后最先破防了

夜深爱杂谈
2026-05-08 11:19:34
交通银行:坚决拥护党中央决定

交通银行:坚决拥护党中央决定

新京报
2026-05-07 12:30:05
以军:巴卢特身亡

以军:巴卢特身亡

第一财经资讯
2026-05-07 17:37:06
6月1日起全国医院统一新规,看病再也不用愁,谁都不能例外

6月1日起全国医院统一新规,看病再也不用愁,谁都不能例外

老特有话说
2026-05-07 15:20:09
伊朗外长太聪明了:不求中国给飞机大炮,只求中国一件事!

伊朗外长太聪明了:不求中国给飞机大炮,只求中国一件事!

回京历史梦
2026-05-08 15:45:37
1977年,李敏见到失散多年的亲姐杨月花,杨月花却向李敏提一要求

1977年,李敏见到失散多年的亲姐杨月花,杨月花却向李敏提一要求

磊子讲史
2025-12-23 20:04:20
全体员工收到通知了

全体员工收到通知了

新浪财经
2026-05-06 11:43:13
巴拉圭总统窜台!不到24小时,中方下达最后通牒:与台“断交”

巴拉圭总统窜台!不到24小时,中方下达最后通牒:与台“断交”

井普椿的独白
2026-05-08 15:10:41
四个跌停!600759,控股股东被申请破产清算

四个跌停!600759,控股股东被申请破产清算

中国基金报
2026-05-08 08:43:39
世界正在发生一个极其恶心的变化!印度最终可能会成为地球大患

世界正在发生一个极其恶心的变化!印度最终可能会成为地球大患

世界圈
2026-05-04 16:42:27
泰康人寿全国销冠被拘

泰康人寿全国销冠被拘

菜鸟理财
2026-05-08 11:42:38
五一各地旅游收入排名,河南381亿第二,北京没进前五,第一是谁

五一各地旅游收入排名,河南381亿第二,北京没进前五,第一是谁

丁丁鲤史纪
2026-05-07 14:04:42
乾隆皇帝包裹遗体的被子,拍出了1.3亿天价,为何会如此值钱?

乾隆皇帝包裹遗体的被子,拍出了1.3亿天价,为何会如此值钱?

兴趣知识
2026-05-08 00:40:30
炸裂!江苏砸 23 亿建顶级脑科医院!国家区域医疗中心落地南京

炸裂!江苏砸 23 亿建顶级脑科医院!国家区域医疗中心落地南京

荷兰豆爱健康
2026-05-08 14:10:30
CoCo不再隐瞒!曝光和谢贤分手原因,他身体机能不行,俩人有差距

CoCo不再隐瞒!曝光和谢贤分手原因,他身体机能不行,俩人有差距

临云史策
2026-05-07 11:28:55
世界杯门票太贵,特朗普惊了:即使是我也不会花1000美元看比赛!央视拒绝花天价买转播权,底气何在?“国际足联可能已经慌了”上热搜

世界杯门票太贵,特朗普惊了:即使是我也不会花1000美元看比赛!央视拒绝花天价买转播权,底气何在?“国际足联可能已经慌了”上热搜

每日经济新闻
2026-05-08 14:58:09
2026-05-08 16:51:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3382文章数 11146关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

沙特翻脸突然对美军关闭领空 特朗普连忙打电话都没用

头条要闻

沙特翻脸突然对美军关闭领空 特朗普连忙打电话都没用

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

一觉醒来,美伊又打起来了

汽车要闻

智能双舱大五座SUV 乐道L80将于5月15日正式上市

态度原创

家居
房产
健康
手机
公开课

家居要闻

流动的尺度 打破家的形式主义

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

干细胞治烧烫伤能用了么?

手机要闻

某厂骁龙2nm新机配置全曝光:2nm+2亿像素,或为荣耀Magic 9系列

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版