网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.7深夜炸场!胜任更长任务、自主检查,视觉能力拉满

0
分享至

来源:市场资讯

(来源:智东西)


智东西

编译 杨京丽

编辑 李水青

智东西4月17日报道,昨天夜间,Anthropic发布新一代旗舰大模型Claude Opus 4.7。


▲Anthropic发布新模型Claude Opus 4.7(图源:X)

该模型在高级软件工程方面相比Opus 4.6有显著提升,尤其在处理最复杂的任务时提升明显;高分辨率图像处理能力大幅提升,是此前Claude模型的3倍以上;此外,Claude Code还同步新增了/ultrareview代码审查命令,输入后会启动审查会话,逐行检查代码变更。

用户反馈称,他们可以放心地将最难的编码工作交给Opus 4.7处理。Opus 4.7能够严谨一致地处理复杂的长时间运行任务,精确遵循指令,并在汇报结果之前自行验证输出。

Opus 4.7今日起在所有Claude产品和API、Amazon Bedrock、谷歌云Vertex AI以及Microsoft Foundry上线。定价与Opus 4.6一致:输入每百万token 5美元(约合人民币34元),输出每百万token 25美元(约合人民币170.5元)。开发者可通过Claude API使用claude-opus-4-7。

不得不说,Claude最近更新实在是快,大家都跟不上了,网友在Claude的评论区下面刷起了表情包,“两眼一睁,Claude又更新了”。


▲网友评论Claude推文(图源:X)

一、更严格执行指令,多模态支持增强

测试中,Claude Opus 4.7在以下几个方面表现突出,显著超越Opus 4.6:

1、指令遵循。Opus 4.7在遵循指令方面有显著提升。以前的模型会宽松地解读指令或完全跳过部分内容,而Opus 4.7会按字面意思执行指令。用户应相应地重新调优提示词和应用框架。

2、多模态支持增强。Opus 4.7对高分辨率图像的视觉能力更强:它可以接受长边最高2576像素(约375万像素)的图像,是此前Claude模型的3倍以上。这为依赖精细视觉细节的多模态应用开辟了广阔的空间:比如用Agent操作电脑时识别密集的屏幕截图、从复杂图表中提取数据、以及需要像素级精度的设计工作等。

3、实际工作。除了在金融Agent评测中取得最优成绩外,Anthropic内部测试显示Opus 4.7是比Opus 4.6更有效的金融分析师,能产出更严谨的分析和模型、更专业的演示文稿,能做到更紧密地进行跨任务整合。Opus 4.7在金融、法律等领域的第三方经济价值知识工作评测GDPval-AA上也达到了最优水平。

4、记忆能力。Opus 4.7在使用基于文件系统的记忆方面更强。它能在长时间、多会话的工作中记住重要笔记,并利用这些记忆来推进新任务,从而减少对前置上下文的需求。


▲Opus 4.7模型基准测试表现(图源:Anthropic)

Opus 4.7获得了部分早期测试者的积极反馈。财务软件公司Intuit技术副总裁Clarence Huang称,该模型能在规划阶段自行发现逻辑错误,执行速度也远超前代。AI编程工具公司Augment Code的CTO Igor Ostrovsky则认为,Opus 4.7的优势在于它能处理好实际工作中的自动化流程、CI/CD(持续集成与部署)和长任务流程,且会主动给出自己的判断,而非一味附和用户。

二、多项测评领先,生物推理、文档推理提升显著

Anthropic在预发布测试中,针对不同领域对Opus 4.7进行了测评,并对比了Opus 4.6、GPT-5.4和Gemini 3.1 Pro。


生物推理进步最为明显,Opus 4.7得分74.0%,Opus 4.6仅30.9%,提升了1.4倍。


文档推理方面,Opus 4.7得分80.6%,远超Opus 4.6的57.1%,也大幅领先GPT-5.4(51.1%)和Gemini 3.1 Pro(42.9%),是横评中差距最明显的项目之一。


另外,知识工作方面,Opus 4.7以1753的Elo分数排名第一,领先明显,超过GPT-5.4(1674)、Opus 4.6(1619)、Gemini 3.1 Pro(1314)。


长上下文推理方面,在处理较简单的父节点查找任务(Parents 1M)时,Opus 4.7得分75.1%,Opus 4.6为71.1%,差距不大;但处理更难的广度优先搜索任务(BFS 1M)时,Opus 4.7得分58.6%,Opus4.6仅41.2%,拉开了17个百分点。越难的任务,模型提升效果越明显。


在安全与对齐方面,Anthropic还公布了各模型的错位行为评分。Opus 4.7的错位行为得分约为2.47(满分10分,越低越好),略优于Opus 4.6的2.75,但与Mythos Preview的1.78仍有明显差距。

总体而言,Opus 4.7 的安全性能与 Opus 4.6 相似,其出现欺骗、奉承和与滥用者合作等行为比例较低。Anthropic对此评价:“Opus 4.7总体对齐良好且值得信赖,但行为并非完全理想。”目前,对齐表现最好的Mythos Preview尚未全面开放。

三、其他更新:新增xhigh等级、审查命令,任务预算进入公测

除Opus 4.7本身外,Anthropic还同步推出了几项功能更新。

推理等级方面,新增xhigh(extra high)等级,介于现有的high和max之间,让用户在推理深度和响应速度之间有更细的调节空间。Claude Code的默认推理等级已提升至xhigh。

API方面,任务预算功能进入公测,开发者可以引导Claude在长任务中如何分配token消耗。

Claude Code方面,新增/ultrareview命令,输入后会启动一个专门的审查会话,逐行检查代码变更,并标记Bug和设计问题,Pro和Max用户各赠3次免费体验。此外,Auto模式扩展至Max用户,该模式下Claude可自主做出操作决策,减少人工确认中断。

四、当心Opus 4.7更费token,但生成质量更优

Opus 4.7是Opus 4.6的直接升级版,但有两个影响token用量的变化值得注意。

一是文本处理方式有更新,Opus 4.7相同输入消耗的token最多增加约35%;二是模型在较高推理等级下会进行更多思考,尤其在Agent场景的后续轮次中,Opus 4.7输出token也会相应增多。用户可以通过调整推理等级、设置任务预算,或在提示词中要求更简洁来控制用量。


从Agent编程评测图表来看,Opus 4.7在每个推理等级上都以更少的token达到了更高的得分。例如Opus 4.7在xhigh等级下消耗约10万token,得分超过70%;而Opus 4.6在max等级下消耗约13万token,得分才刚过60%。不过,该评测中模型是根据单一提示自主工作,结果不一定能代表交互式编程中的实际token消耗。

结语:更准确更全能,竞争对手将至

从Anthropic公布的数据来看,Opus 4.7在编程、文档推理、生物推理等多个基准上的提升是实打实的,token效率也有所提升。但测评终归是测评,实际表现还需要在真实场景中进一步验证。

随着Opus 4.7的发布,OpenAI后续又会做出哪些新动作,大家期待已久的DeepSeek月底会不会发布新模型,大模型厂商的竞争可谓是越来越有意思了。

来源:Anthropic

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小宝与王某雷,谁探访花的数量更多?

小宝与王某雷,谁探访花的数量更多?

挪威森林
2026-01-31 12:15:26
电脑一管硅脂用十年引热议!网友直呼太离谱

电脑一管硅脂用十年引热议!网友直呼太离谱

游民星空
2026-04-17 19:40:21
事实证明,已经“消失”7年的周立波,早已走上一条不归路

事实证明,已经“消失”7年的周立波,早已走上一条不归路

素衣读史
2026-04-16 19:41:20
这是李鸿章妻妾的真实样貌,个个美艳身材修长,颜值不输当代女星

这是李鸿章妻妾的真实样貌,个个美艳身材修长,颜值不输当代女星

阿废冷眼观察所
2026-04-11 18:41:14
瓜帅:这是英超的一次精彩展示;赛季最佳新人必须颁给奥赖利

瓜帅:这是英超的一次精彩展示;赛季最佳新人必须颁给奥赖利

懂球帝
2026-04-20 02:54:06
抵京!首钢新外援威廉姆斯:我是全能型,会去做球队要求的一切

抵京!首钢新外援威廉姆斯:我是全能型,会去做球队要求的一切

懂球帝
2026-04-19 22:36:59
2-1,4-2!足坛疯狂一夜,拜仁提前四轮卫冕!阿森纳掉链子,英超冠军悬了!巴黎爆冷!

2-1,4-2!足坛疯狂一夜,拜仁提前四轮卫冕!阿森纳掉链子,英超冠军悬了!巴黎爆冷!

体坛最前线66
2026-04-20 06:18:31
刚上任就赢球!但迈阿密国际新帅说梅西才是世界第一主教练!

刚上任就赢球!但迈阿密国际新帅说梅西才是世界第一主教练!

历史第一人梅西
2026-04-19 10:47:16
局势恶化,日媒曝高市为战争铺路,30国已介入

局势恶化,日媒曝高市为战争铺路,30国已介入

笙歌君独幽a
2026-04-20 05:13:48
麻豆传媒彻底关停!是什么把它逼上绝路?

麻豆传媒彻底关停!是什么把它逼上绝路?

牲产队
2026-04-09 15:05:30
许家印案最新进展:68岁认罪,前恒大歌舞团长白珊珊被曝定居澳门

许家印案最新进展:68岁认罪,前恒大歌舞团长白珊珊被曝定居澳门

鉴史录
2026-04-19 09:44:38
比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

芳芳历史烩
2025-12-25 20:32:52
卡梅隆·迪亚兹:2003年那顿饭,终结了明星时代

卡梅隆·迪亚兹:2003年那顿饭,终结了明星时代

热搜摘要官
2026-04-19 05:19:52
斯诺克世锦赛10强赛:5人晋级,中国2人出局

斯诺克世锦赛10强赛:5人晋级,中国2人出局

铿锵格斗
2026-04-20 06:00:53
10-1胜传奇名将,五连鞭打懵世界第一,三利好成就第二人

10-1胜传奇名将,五连鞭打懵世界第一,三利好成就第二人

逗比演员说体育
2026-04-06 11:02:36
回国之后才敢说:真实的越南,部分中国人去了简直就是一个小白鼠

回国之后才敢说:真实的越南,部分中国人去了简直就是一个小白鼠

番外行
2026-03-22 00:05:09
预售价近40万元的小鹏,把所有人都忽悠了!

预售价近40万元的小鹏,把所有人都忽悠了!

新浪财经
2026-04-19 02:52:50
一天4次!19岁少女患上外阴癌,崩溃大哭:这个习惯我真的戒不掉

一天4次!19岁少女患上外阴癌,崩溃大哭:这个习惯我真的戒不掉

健康科普365
2026-03-15 11:20:06
欧尔班威胁:下周恢复油运我们就解冻90亿欧元援助

欧尔班威胁:下周恢复油运我们就解冻90亿欧元援助

桂系007
2026-04-19 23:49:10
伊朗一仗点醒普京,俄罗斯或不再是世界大国,中国不是第二强?

伊朗一仗点醒普京,俄罗斯或不再是世界大国,中国不是第二强?

阿雹娱乐
2026-04-16 07:46:23
2026-04-20 06:55:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2919799文章数 6777关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

数码
教育
时尚
亲子
军事航空

数码要闻

华为新机发布前瞻:阔折叠X Max+影像旗舰Pura 90,都没悬念了

教育要闻

中国为什么不禁网络游戏?

装修“精神角落”,就是这么上瘾

亲子要闻

孩子总打喷嚏、起疹子,时过敏吗?

军事要闻

伊朗逼退美扫雷艇:美方求给15分钟撤退

无障碍浏览 进入关怀版