网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.6 发布,全线碾压 GPT-5.2,一文详解

0
分享至

刚刚,Anthropic 发布 Claude Opus 4.6


BenchMark

在知识工作评测 GDPval-AA 上,Opus 4.6 赢 GPT-5.2 约 144 Elo,赢自家前代 Opus 4.5 约 190 Elo
翻译成人话,就是十局赢七局

同时拿下 Terminal-Bench 2.0(Agent 编码)、Humanity's Last Exam(多学科推理)、BrowseComp(Agent 搜索)的最高分

这是 Opus 级模型第一次支持 1M token 上下文窗口(beta),输出上限拉到 128K token

模型之外,Anthropic 这次把产品线也一起更新了。Claude Code 加了 agent teams,Excel 升级,PowerPoint 新出了 research preview,API 加了 adaptive thinking 和 context compaction

官方介绍视频 跑分

先看总表


Benchmark 总表,Opus 4.6 vs 各家模型

分项来看

知识工作(GDPval-AA)

这个评测由 Artificial Analysis 独立运营,测的是金融、法律等专业领域的实际工作能力。Opus 4.6 在各个子领域都排在前面


GDPval-AA 各领域得分

Agent 搜索(DeepSearchQA / BrowseComp)

BrowseComp 测的是模型在网上找难找的信息的能力。Opus 4.6 单 Agent 跑分就已经领先,加上多 Agent 框架之后分数到了 86.8%


DeepSearchQA 跑分对比

Agent 编码(Terminal-Bench 2.0 / SWE-bench Verified)

Terminal-Bench 2.0 拿了最高分。SWE-bench Verified 平均跑了 25 轮,调整 prompt 后最高到了 81.42%


Terminal-Bench 2.0 跑分

多学科推理(Humanity's Last Exam / ARC AGI 2)

Humanity's Last Exam 跑的时候带了 web search、code execution、context compaction(50K token 触发,最大 3M token),用了 max effort + adaptive thinking

ARC AGI 2 用了 max effort 和 120K thinking budget


多学科推理跑分 长上下文

1M 上下文不新鲜,但 Opus 级模型一直没给

之前的问题是 context rot,上下文一长,模型表现就往下掉。Opus 4.6 在 MRCR v2 八针 1M 测试里拿了 76%,同一个测试 Sonnet 4.5 只有 18.5%

这特么...足足四倍

Anthropic 说 Opus 4.6 在大量文档中检索信息的能力也有明显提升,能在几十万 token 的上下文里追踪信息,抓住 Opus 4.5 会漏掉的细节


长上下文检索,提升很明显 长上下文推理能力对比 其他领域的 benchmark

除了上面几个主要方向,Opus 4.6 还跑了软件工程、多语言编码、长期连贯性、网络安全、生命科学几个方向

根因分析(OpenRCA)

测的是模型诊断复杂软件故障的能力。每个 case 如果所有生成的根因要素都和 ground truth 匹配就得 1 分,否则 0 分


OpenRCA,诊断复杂软件故障

多语言编码


多语言编码跑分

长期连贯性(MCP Atlas)

Opus 4.6 用 max effort 跑出最高分。用 high effort 的时候也到了 62.7%,同样领先


MCP Atlas,长期连贯性

网络安全(CyberGym)

跑的时候没开 thinking,用默认 effort、temperature 和 top_p,给了一个 think tool 做多轮评测的交叉思考


CyberGym,网络安全能力

生命科学


生命科学跑分 Anthropic 内部怎么用的

Anthropic 自己用 Claude 造 Claude。工程师每天用 Claude Code 写代码,每个新模型都先在内部跑

他们对 Opus 4.6 的观察:模型会自动把精力集中在任务最难的部分,简单的地方快速通过,处理模糊问题时判断更好,长时间工作保持稳定

但也有个问题,Opus 4.6 有时候会「想太多」。简单任务上会增加成本和延迟,Anthropic 建议这种场景把 effort 从默认的 high 调到 medium

Early Access 合作伙伴的反馈集中在三点:能自主工作不需要手把手带,之前模型搞不定的任务能搞定了,改变了团队协作的方式

产品更新

Claude Code:agent teams

可以同时起多个 Agent,让它们并行工作、自主协调。适合能拆成独立子任务的场景,比如大规模 code review

你可以用 Shift+Up/Down 或者 tmux 随时接管任意一个子 Agent。目前是 research preview

Claude in Excel

能处理更长、更复杂的任务了。可以先规划再执行,能自动识别非结构化数据并推断出合理的表结构,支持条件格式和数据验证,多步操作一次完成

Claude in Excel 演示视频(1 分 27 秒)

Claude in PowerPoint

这个东西目前,research preview 阶段,Max、Team、Enterprise 可用

Claude 会读你的版式、字体、母版,保持品牌一致性。可以从模板出发,也可以从一段描述直接生成整套 deck

一个实用的组合:先用 Claude in Excel 处理和结构化数据,再用 Claude in PowerPoint 做可视化呈现

Cowork

在 Cowork 里,Opus 4.6 可以自主执行多任务。跑分析、做研究、处理文档、表格、演示文稿,都可以自动跑

API 更新

Adaptive thinking
以前 extended thinking 只有开和关两个选项。现在 Claude 可以自己判断什么时候需要深度推理,什么时候快速过。默认 effort 是 high,这个档位下模型会在需要的时候自动启用深度推理

Effort 控制
四档可选:low、medium、high(默认)、max。开发者可以根据任务调

Context compaction(beta)
长对话或 Agent 任务快撞到上下文窗口的时候,自动把旧的上下文压缩成摘要替换掉,触发阈值可配置

1M 上下文(beta)
超过 200K token 的输入,价格从 涨 到 10/百万 token,输出从 涨 到 37.50。200K 以内价格不变

128K 输出
大输出任务不用拆成多次请求了

US-only inference
需要数据留在美国境内的,可以选 US-only inference,价格 1.1 倍

安全

Anthropic 说这是他们做过最全面的安全评估,很多测试是第一次用

自动行为审计里,Opus 4.6 的对齐偏差率(欺骗、谄媚、配合滥用等)和 Opus 4.5 持平。over-refusal 率(该回答却拒绝)是近期 Claude 模型里最低的


安全评估,各代 Claude 对齐偏差率对比

新增了用户福祉评测、更复杂的拒绝危险请求测试、模型是否会偷偷执行有害操作的升级版测试

因为 Opus 4.6 的网络安全能力提升明显,Anthropic 额外开发了 6 个新的网络安全探针来追踪潜在滥用。同时也在用这个模型帮开源软件找漏洞和打补丁

一个细节:system card 里提到他们首次用可解释性(interpretability)技术去理解模型行为的底层原因,试图抓住标准测试可能漏掉的问题

详细的能力和安全评估在 system card 里:https://www.anthropic.com/claude-opus-4-6-system-card


定价

今天起在 claude.ai、Claude API、AWS、GCP、Azure 可用

模型 API 标识:claude-opus-4-6

定价: 25 每百万 token(200K 以内), 37.50 每百万 token(200K 以上)


完整定价:https://claude.com/pricing

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
许家印终于认罪!但2.4万亿窟窿里,还有900亿分红追不回来……

许家印终于认罪!但2.4万亿窟窿里,还有900亿分红追不回来……

毯叔盘钱
2026-04-15 18:59:43
欧冠决赛稳了?阿森纳半决赛对手确定,小组赛曾4球血洗对手

欧冠决赛稳了?阿森纳半决赛对手确定,小组赛曾4球血洗对手

夜白侃球
2026-04-15 09:42:25
恭喜俄罗斯和乌克兰!俄乌战争打了4年,打成全球都喜欢的样子

恭喜俄罗斯和乌克兰!俄乌战争打了4年,打成全球都喜欢的样子

莫地方
2026-04-16 00:50:03
欧冠激战:皇马半场5球领先拜仁,总比分4-4追平

欧冠激战:皇马半场5球领先拜仁,总比分4-4追平

小染说台球
2026-04-16 04:15:51
4月13日,山东和江西公布了2026年养老金调整通知,是真的吗?

4月13日,山东和江西公布了2026年养老金调整通知,是真的吗?

混沌录
2026-04-15 15:46:10
知名博主B太称花18万帮“大山女孩”被骗:父亲体弱多病、哥哥弟弟去世是剧本…律师:可主张撤销该赠与合同

知名博主B太称花18万帮“大山女孩”被骗:父亲体弱多病、哥哥弟弟去世是剧本…律师:可主张撤销该赠与合同

上观新闻
2026-04-15 06:54:03
大连市普兰店区人民法院副院长苏欣欣接受监察调查

大连市普兰店区人民法院副院长苏欣欣接受监察调查

半岛晨报
2026-04-15 10:52:27
世上没有后悔药,二婚嫁给修车工的江珊,58岁至今'心病'未解

世上没有后悔药,二婚嫁给修车工的江珊,58岁至今'心病'未解

君笙的拂兮
2026-04-15 03:54:29
硬核新人!下一个环神!

硬核新人!下一个环神!

贵圈真乱
2026-04-15 13:35:22
韩国存储芯片面临重大风险:以色列溴供应处于伊朗导弹袭击半径内

韩国存储芯片面临重大风险:以色列溴供应处于伊朗导弹袭击半径内

财联社
2026-04-15 13:54:07
金立创始人刘立荣消失8年后最新动向:被曝在印尼卖家具,海尔、宁德时代、小米都是客户

金立创始人刘立荣消失8年后最新动向:被曝在印尼卖家具,海尔、宁德时代、小米都是客户

金融界
2026-04-15 09:45:24
从大陆回来,李鸿源感慨:我们连人家的车尾灯都看不见!

从大陆回来,李鸿源感慨:我们连人家的车尾灯都看不见!

有态度的何总
2026-04-15 12:18:14
我敢说,大部分会跟我一样,选择黑色衣服那个女孩!

我敢说,大部分会跟我一样,选择黑色衣服那个女孩!

草莓解说体育
2026-04-12 17:05:01
时隔八年再访澳!哈里梅根同框秀恩爱,梅根造型利落气场全开

时隔八年再访澳!哈里梅根同框秀恩爱,梅根造型利落气场全开

述家娱记
2026-04-15 09:10:49
张婉婷曝宋宁峰近况:他每天就是下跪、哭、悔过,就是死都不离开

张婉婷曝宋宁峰近况:他每天就是下跪、哭、悔过,就是死都不离开

观鱼听雨
2026-04-15 22:30:00
Redmi涨价了!1999元的小米没了,这次我站小米这边

Redmi涨价了!1999元的小米没了,这次我站小米这边

数码Antenna
2026-04-13 12:09:46
大面积闭店!深圳“奶茶一姐”为何输给了河南草根兄弟?

大面积闭店!深圳“奶茶一姐”为何输给了河南草根兄弟?

帅真商业
2026-04-15 18:58:55
向华强自曝与向太分房睡十多年,“她凌晨刷短剧,我刚醒她正要睡”,网友:相爱和尊重不矛盾

向华强自曝与向太分房睡十多年,“她凌晨刷短剧,我刚醒她正要睡”,网友:相爱和尊重不矛盾

台州交通广播
2026-04-14 19:33:51
“父亲的心已经死了!”10后女孩职高报到,父亲用沉默诠释了心死

“父亲的心已经死了!”10后女孩职高报到,父亲用沉默诠释了心死

妍妍教育日记
2026-04-14 10:30:08
美军:有9艘船只遵从美军指令,掉头返回伊朗港口或沿海区域,“没有任何船只成功通过美军防线”

美军:有9艘船只遵从美军指令,掉头返回伊朗港口或沿海区域,“没有任何船只成功通过美军防线”

极目新闻
2026-04-15 23:48:10
2026-04-16 05:03:00
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
379文章数 50关注度
往期回顾 全部

科技要闻

ChatGPT十亿用户又怎样?Anthropic直接贴脸

头条要闻

法国全票通过 “将不义之财归还中国”

头条要闻

法国全票通过 “将不义之财归还中国”

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

谢娜现身环球影城,牵手女儿温馨有爱

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

游戏
房产
数码
手机
公开课

《GTA6》抢劫玩法泄露引热议!NPC与警察全面升级

房产要闻

重磅调规!341亩商改住+中小学用地!宝龙城这把稳了?

数码要闻

明基新款显示器首发12499元:4K专业级色彩校准 根据环境光自动调整

手机要闻

一加Ace6至尊版再次被确认:魔改天玑9500+165Hz屏,本月发布!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版