网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.7深夜炸场!胜任更长任务、自主检查,视觉能力拉满

0
分享至


智东西
编译 杨京丽
编辑 李水青

智东西4月17日报道,昨天夜间,Anthropic发布新一代旗舰大模型Claude Opus 4.7。


▲Anthropic发布新模型Claude Opus 4.7(图源:X)

该模型在高级软件工程方面相比Opus 4.6有显著提升,尤其在处理最复杂的任务时提升明显;高分辨率图像处理能力大幅提升,是此前Claude模型的3倍以上;此外,Claude Code还同步新增了/ultrareview代码审查命令,输入后会启动审查会话,逐行检查代码变更。

用户反馈称,他们可以放心地将最难的编码工作交给Opus 4.7处理。Opus 4.7能够严谨一致地处理复杂的长时间运行任务,精确遵循指令,并在汇报结果之前自行验证输出。

Opus 4.7今日起在所有Claude产品和API、Amazon Bedrock、谷歌云Vertex AI以及Microsoft Foundry上线。定价与Opus 4.6一致:输入每百万token 5美元(约合人民币34元),输出每百万token 25美元(约合人民币170.5元)。开发者可通过Claude API使用claude-opus-4-7。

不得不说,Claude最近更新实在是快,大家都跟不上了,网友在Claude的评论区下面刷起了表情包,“两眼一睁,Claude又更新了”。


▲网友评论Claude推文(图源:X)

一、更严格执行指令,多模态支持增强

测试中,Claude Opus 4.7在以下几个方面表现突出,显著超越Opus 4.6:

1、指令遵循。Opus 4.7在遵循指令方面有显著提升。以前的模型会宽松地解读指令或完全跳过部分内容,而Opus 4.7会按字面意思执行指令。用户应相应地重新调优提示词和应用框架。

2、多模态支持增强。Opus 4.7对高分辨率图像的视觉能力更强:它可以接受长边最高2576像素(约375万像素)的图像,是此前Claude模型的3倍以上。这为依赖精细视觉细节的多模态应用开辟了广阔的空间:比如用Agent操作电脑时识别密集的屏幕截图、从复杂图表中提取数据、以及需要像素级精度的设计工作等。

3、实际工作。除了在金融Agent评测中取得最优成绩外,Anthropic内部测试显示Opus 4.7是比Opus 4.6更有效的金融分析师,能产出更严谨的分析和模型、更专业的演示文稿,能做到更紧密地进行跨任务整合。Opus 4.7在金融、法律等领域的第三方经济价值知识工作评测GDPval-AA上也达到了最优水平。

4、记忆能力。Opus 4.7在使用基于文件系统的记忆方面更强。它能在长时间、多会话的工作中记住重要笔记,并利用这些记忆来推进新任务,从而减少对前置上下文的需求。


▲Opus 4.7模型基准测试表现(图源:Anthropic)

Opus 4.7获得了部分早期测试者的积极反馈。财务软件公司Intuit技术副总裁Clarence Huang称,该模型能在规划阶段自行发现逻辑错误,执行速度也远超前代。AI编程工具公司Augment Code的CTO Igor Ostrovsky则认为,Opus 4.7的优势在于它能处理好实际工作中的自动化流程、CI/CD(持续集成与部署)和长任务流程,且会主动给出自己的判断,而非一味附和用户。

二、多项测评领先,生物推理、文档推理提升显著

Anthropic在预发布测试中,针对不同领域对Opus 4.7进行了测评,并对比了Opus 4.6、GPT-5.4和Gemini 3.1 Pro。


生物推理进步最为明显,Opus 4.7得分74.0%,Opus 4.6仅30.9%,提升了1.4倍。


文档推理方面,Opus 4.7得分80.6%,远超Opus 4.6的57.1%,也大幅领先GPT-5.4(51.1%)和Gemini 3.1 Pro(42.9%),是横评中差距最明显的项目之一。


另外,知识工作方面,Opus 4.7以1753的Elo分数排名第一,领先明显,超过GPT-5.4(1674)、Opus 4.6(1619)、Gemini 3.1 Pro(1314)。


长上下文推理方面,在处理较简单的父节点查找任务(Parents 1M)时,Opus 4.7得分75.1%,Opus 4.6为71.1%,差距不大;但处理更难的广度优先搜索任务(BFS 1M)时,Opus 4.7得分58.6%,Opus4.6仅41.2%,拉开了17个百分点。越难的任务,模型提升效果越明显。


安全与对齐方面,Anthropic还公布了各模型的错位行为评分。Opus 4.7的错位行为得分约为2.47(满分10分,越低越好),略优于Opus 4.6的2.75,但与Mythos Preview的1.78仍有明显差距。

总体而言,Opus 4.7 的安全性能与 Opus 4.6 相似,其出现欺骗、奉承和与滥用者合作等行为比例较低。Anthropic对此评价:“Opus 4.7总体对齐良好且值得信赖,但行为并非完全理想。”目前,对齐表现最好的Mythos Preview尚未全面开放。

三、其他更新:新增xhigh等级、审查命令,任务预算进入公测

除Opus 4.7本身外,Anthropic还同步推出了几项功能更新。

推理等级方面,新增xhigh(extra high)等级,介于现有的high和max之间,让用户在推理深度和响应速度之间有更细的调节空间。Claude Code的默认推理等级已提升至xhigh。

API方面,任务预算功能进入公测,开发者可以引导Claude在长任务中如何分配token消耗。

Claude Code方面,新增/ultrareview命令,输入后会启动一个专门的审查会话,逐行检查代码变更,并标记Bug和设计问题,Pro和Max用户各赠3次免费体验。此外,Auto模式扩展至Max用户,该模式下Claude可自主做出操作决策,减少人工确认中断。

四、当心Opus 4.7更费token,但生成质量更优

Opus 4.7是Opus 4.6的直接升级版,但有两个影响token用量的变化值得注意。

一是文本处理方式有更新,Opus 4.7相同输入消耗的token最多增加约35%;二是模型在较高推理等级下会进行更多思考,尤其在Agent场景的后续轮次中,Opus 4.7输出token也会相应增多。用户可以通过调整推理等级、设置任务预算,或在提示词中要求更简洁来控制用量。


从Agent编程评测图表来看,Opus 4.7在每个推理等级上都以更少的token达到了更高的得分。例如Opus 4.7在xhigh等级下消耗约10万token,得分超过70%;而Opus 4.6在max等级下消耗约13万token,得分才刚过60%。不过,该评测中模型是根据单一提示自主工作,结果不一定能代表交互式编程中的实际token消耗。

结语:更准确更全能,竞争对手将至

从Anthropic公布的数据来看,Opus 4.7在编程、文档推理、生物推理等多个基准上的提升是实打实的,token效率也有所提升。但测评终归是测评,实际表现还需要在真实场景中进一步验证。

随着Opus 4.7的发布,OpenAI后续又会做出哪些新动作,大家期待已久的DeepSeek月底会不会发布新模型,大模型厂商的竞争可谓是越来越有意思了。

来源:Anthropic

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
参加学术会议最大的收获是:茶歇

参加学术会议最大的收获是:茶歇

必记本
2026-04-19 15:15:30
日本军舰闯台海,我军为啥不打?三个原因告诉你:不是不敢,是不想

日本军舰闯台海,我军为啥不打?三个原因告诉你:不是不敢,是不想

荷兰豆爱健康
2026-04-19 00:44:34
新代言人火爆全球,以色列慌了

新代言人火爆全球,以色列慌了

侠客栈
2026-04-18 13:14:53
破案!外教带队逆转,杜锋一回归却遭爆冷原因找到,粤迷说出实话

破案!外教带队逆转,杜锋一回归却遭爆冷原因找到,粤迷说出实话

后仰大风车
2026-04-19 08:15:07
21亿崩塌!皇马四大天王谁是真救星?

21亿崩塌!皇马四大天王谁是真救星?

茅塞盾开本尊
2026-04-18 23:19:53
三连败!张安达遭艾伦六连鞭逆转,中国名将无缘世锦赛16强!

三连败!张安达遭艾伦六连鞭逆转,中国名将无缘世锦赛16强!

世界体坛观察家
2026-04-19 20:22:17
刘德华罕见谈14岁女儿

刘德华罕见谈14岁女儿

鲁中晨报
2026-04-19 08:52:10
55岁上海炒股冠军罕见发声:如果本金有20W,建议死磕这五条铁律

55岁上海炒股冠军罕见发声:如果本金有20W,建议死磕这五条铁律

股经纵横谈
2026-04-19 19:03:09
赖清德不装了、马英九暴露真面目!郑丽文:台海没事,世界都没事

赖清德不装了、马英九暴露真面目!郑丽文:台海没事,世界都没事

老做体育解说
2026-04-19 18:35:42
6个家庭天塌了!成都面包车追尾致6死5伤,原因公布,真相太气人

6个家庭天塌了!成都面包车追尾致6死5伤,原因公布,真相太气人

奇思妙想草叶君
2026-04-18 23:52:46
有人说:男人二婚,就图睡觉那点事;女人二婚,都是奔那两个子!

有人说:男人二婚,就图睡觉那点事;女人二婚,都是奔那两个子!

游戏收藏指南
2026-04-19 18:55:34
预计科尔会续约回归,新合同年薪或将高达2000万

预计科尔会续约回归,新合同年薪或将高达2000万

体坛周报
2026-04-19 17:59:15
突发!两家A股公司遭立案,超6万股东踩雷

突发!两家A股公司遭立案,超6万股东踩雷

财经智多星
2026-04-19 08:05:32
国内“退休收入十级表”出炉,6级以上生活没压力,你达到了吗?

国内“退休收入十级表”出炉,6级以上生活没压力,你达到了吗?

大果小果妈妈
2026-04-18 22:36:28
林彪得知前未婚妻卖鞋为生,托人送去3000元,汪静宜:他还没忘我

林彪得知前未婚妻卖鞋为生,托人送去3000元,汪静宜:他还没忘我

历史龙元阁
2026-04-10 13:30:19
你可以活多久?美国教授推出“寿命公式"

你可以活多久?美国教授推出“寿命公式"

霹雳炮
2026-04-18 23:28:44
2026年纪委大数据有多强?看完你就知道,什么叫天网恢恢

2026年纪委大数据有多强?看完你就知道,什么叫天网恢恢

爱下厨的阿酾
2026-04-19 15:18:50
5月1日正式落地!医院全面大整改,老百姓看病再也不用遭罪了!

5月1日正式落地!医院全面大整改,老百姓看病再也不用遭罪了!

老特有话说
2026-04-19 15:35:43
马筱梅抑郁有迹可循,徐妈黄春梅被曝在其产后第四天向她催债

马筱梅抑郁有迹可循,徐妈黄春梅被曝在其产后第四天向她催债

悄悄史话
2026-04-19 19:03:04
王健林,被逼到崩溃边缘...

王健林,被逼到崩溃边缘...

鸣金网
2026-04-16 19:42:33
2026-04-19 22:03:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11632文章数 117035关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

印度当晚召见伊朗大使抗议两船只遭开火袭击 伊朗回应

头条要闻

印度当晚召见伊朗大使抗议两船只遭开火袭击 伊朗回应

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

手机
家居
数码
健康
公开课

手机要闻

华为Pura 90系列再次被确认:尺寸、续航全曝光,大家会选谁?

家居要闻

法式线条 时光静淌

数码要闻

何刚晒华为WATCH FIT 5 Pro手表真机,明日亮相

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版