网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.6 发布,全线碾压 GPT-5.2,一文详解

0
分享至

刚刚,Anthropic 发布 Claude Opus 4.6


BenchMark

在知识工作评测 GDPval-AA 上,Opus 4.6 赢 GPT-5.2 约 144 Elo,赢自家前代 Opus 4.5 约 190 Elo
翻译成人话,就是十局赢七局

同时拿下 Terminal-Bench 2.0(Agent 编码)、Humanity's Last Exam(多学科推理)、BrowseComp(Agent 搜索)的最高分

这是 Opus 级模型第一次支持 1M token 上下文窗口(beta),输出上限拉到 128K token

模型之外,Anthropic 这次把产品线也一起更新了。Claude Code 加了 agent teams,Excel 升级,PowerPoint 新出了 research preview,API 加了 adaptive thinking 和 context compaction

官方介绍视频 跑分

先看总表


Benchmark 总表,Opus 4.6 vs 各家模型

分项来看

知识工作(GDPval-AA)

这个评测由 Artificial Analysis 独立运营,测的是金融、法律等专业领域的实际工作能力。Opus 4.6 在各个子领域都排在前面


GDPval-AA 各领域得分

Agent 搜索(DeepSearchQA / BrowseComp)

BrowseComp 测的是模型在网上找难找的信息的能力。Opus 4.6 单 Agent 跑分就已经领先,加上多 Agent 框架之后分数到了 86.8%


DeepSearchQA 跑分对比

Agent 编码(Terminal-Bench 2.0 / SWE-bench Verified)

Terminal-Bench 2.0 拿了最高分。SWE-bench Verified 平均跑了 25 轮,调整 prompt 后最高到了 81.42%


Terminal-Bench 2.0 跑分

多学科推理(Humanity's Last Exam / ARC AGI 2)

Humanity's Last Exam 跑的时候带了 web search、code execution、context compaction(50K token 触发,最大 3M token),用了 max effort + adaptive thinking

ARC AGI 2 用了 max effort 和 120K thinking budget


多学科推理跑分 长上下文

1M 上下文不新鲜,但 Opus 级模型一直没给

之前的问题是 context rot,上下文一长,模型表现就往下掉。Opus 4.6 在 MRCR v2 八针 1M 测试里拿了 76%,同一个测试 Sonnet 4.5 只有 18.5%

这特么...足足四倍

Anthropic 说 Opus 4.6 在大量文档中检索信息的能力也有明显提升,能在几十万 token 的上下文里追踪信息,抓住 Opus 4.5 会漏掉的细节


长上下文检索,提升很明显 长上下文推理能力对比 其他领域的 benchmark

除了上面几个主要方向,Opus 4.6 还跑了软件工程、多语言编码、长期连贯性、网络安全、生命科学几个方向

根因分析(OpenRCA)

测的是模型诊断复杂软件故障的能力。每个 case 如果所有生成的根因要素都和 ground truth 匹配就得 1 分,否则 0 分


OpenRCA,诊断复杂软件故障

多语言编码


多语言编码跑分

长期连贯性(MCP Atlas)

Opus 4.6 用 max effort 跑出最高分。用 high effort 的时候也到了 62.7%,同样领先


MCP Atlas,长期连贯性

网络安全(CyberGym)

跑的时候没开 thinking,用默认 effort、temperature 和 top_p,给了一个 think tool 做多轮评测的交叉思考


CyberGym,网络安全能力

生命科学


生命科学跑分 Anthropic 内部怎么用的

Anthropic 自己用 Claude 造 Claude。工程师每天用 Claude Code 写代码,每个新模型都先在内部跑

他们对 Opus 4.6 的观察:模型会自动把精力集中在任务最难的部分,简单的地方快速通过,处理模糊问题时判断更好,长时间工作保持稳定

但也有个问题,Opus 4.6 有时候会「想太多」。简单任务上会增加成本和延迟,Anthropic 建议这种场景把 effort 从默认的 high 调到 medium

Early Access 合作伙伴的反馈集中在三点:能自主工作不需要手把手带,之前模型搞不定的任务能搞定了,改变了团队协作的方式

产品更新

Claude Code:agent teams

可以同时起多个 Agent,让它们并行工作、自主协调。适合能拆成独立子任务的场景,比如大规模 code review

你可以用 Shift+Up/Down 或者 tmux 随时接管任意一个子 Agent。目前是 research preview

Claude in Excel

能处理更长、更复杂的任务了。可以先规划再执行,能自动识别非结构化数据并推断出合理的表结构,支持条件格式和数据验证,多步操作一次完成

Claude in Excel 演示视频(1 分 27 秒)

Claude in PowerPoint

这个东西目前,research preview 阶段,Max、Team、Enterprise 可用

Claude 会读你的版式、字体、母版,保持品牌一致性。可以从模板出发,也可以从一段描述直接生成整套 deck

一个实用的组合:先用 Claude in Excel 处理和结构化数据,再用 Claude in PowerPoint 做可视化呈现

Cowork

在 Cowork 里,Opus 4.6 可以自主执行多任务。跑分析、做研究、处理文档、表格、演示文稿,都可以自动跑

API 更新

Adaptive thinking
以前 extended thinking 只有开和关两个选项。现在 Claude 可以自己判断什么时候需要深度推理,什么时候快速过。默认 effort 是 high,这个档位下模型会在需要的时候自动启用深度推理

Effort 控制
四档可选:low、medium、high(默认)、max。开发者可以根据任务调

Context compaction(beta)
长对话或 Agent 任务快撞到上下文窗口的时候,自动把旧的上下文压缩成摘要替换掉,触发阈值可配置

1M 上下文(beta)
超过 200K token 的输入,价格从 涨 到 10/百万 token,输出从 涨 到 37.50。200K 以内价格不变

128K 输出
大输出任务不用拆成多次请求了

US-only inference
需要数据留在美国境内的,可以选 US-only inference,价格 1.1 倍

安全

Anthropic 说这是他们做过最全面的安全评估,很多测试是第一次用

自动行为审计里,Opus 4.6 的对齐偏差率(欺骗、谄媚、配合滥用等)和 Opus 4.5 持平。over-refusal 率(该回答却拒绝)是近期 Claude 模型里最低的


安全评估,各代 Claude 对齐偏差率对比

新增了用户福祉评测、更复杂的拒绝危险请求测试、模型是否会偷偷执行有害操作的升级版测试

因为 Opus 4.6 的网络安全能力提升明显,Anthropic 额外开发了 6 个新的网络安全探针来追踪潜在滥用。同时也在用这个模型帮开源软件找漏洞和打补丁

一个细节:system card 里提到他们首次用可解释性(interpretability)技术去理解模型行为的底层原因,试图抓住标准测试可能漏掉的问题

详细的能力和安全评估在 system card 里:https://www.anthropic.com/claude-opus-4-6-system-card


定价

今天起在 claude.ai、Claude API、AWS、GCP、Azure 可用

模型 API 标识:claude-opus-4-6

定价: 25 每百万 token(200K 以内), 37.50 每百万 token(200K 以上)


完整定价:https://claude.com/pricing

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
超模坎贝尔陷爱泼斯坦丑闻,私交密切,她是招揽年轻女孩的诱饵

超模坎贝尔陷爱泼斯坦丑闻,私交密切,她是招揽年轻女孩的诱饵

译言
2026-02-06 08:51:55
霍去病二十四岁病逝,武帝哭三日,第四日却杀尽其十七名贴身侍卫

霍去病二十四岁病逝,武帝哭三日,第四日却杀尽其十七名贴身侍卫

掠影后有感
2025-12-25 12:38:58
韩媒曝大S与具俊晔结婚时身体很差,甩锅给霖霖,具俊晔疑似买房

韩媒曝大S与具俊晔结婚时身体很差,甩锅给霖霖,具俊晔疑似买房

老沮系戏精北鼻
2026-02-05 20:23:12
山东是怎么得到他?陈林坚19+6连中关键球 用实力回报邱彪信任

山东是怎么得到他?陈林坚19+6连中关键球 用实力回报邱彪信任

狼叔评论
2026-02-06 18:18:08
6分钟19个导弹连全军覆没,82架战机被击落,此战给我们敲响警钟

6分钟19个导弹连全军覆没,82架战机被击落,此战给我们敲响警钟

混沌录
2026-02-04 22:25:03
“抛售一切”席卷全球市场?投资者开始质疑过去持续上涨的各类资产

“抛售一切”席卷全球市场?投资者开始质疑过去持续上涨的各类资产

财联社
2026-02-06 16:17:08
白银LOF五连跌停、逾1.7万人集体投诉,国投瑞银称“已成立工作小组”

白银LOF五连跌停、逾1.7万人集体投诉,国投瑞银称“已成立工作小组”

第一财经资讯
2026-02-06 19:17:29
阿里纳斯:哈登怎么去骑士呢?没人愿意主动去克利夫兰!

阿里纳斯:哈登怎么去骑士呢?没人愿意主动去克利夫兰!

氧气是个地铁
2026-02-06 14:34:18
六台:恩德里克带了一个7人团队到里昂,包括在皇马的理疗师

六台:恩德里克带了一个7人团队到里昂,包括在皇马的理疗师

懂球帝
2026-02-06 16:45:06
袭人与贾宝玉多次同房,为什么不怀孕?个中原因早被蒋玉菡戳破了

袭人与贾宝玉多次同房,为什么不怀孕?个中原因早被蒋玉菡戳破了

谈史论天地
2026-02-03 16:10:22
春晚主持人上新!39岁刘心悦是谁?

春晚主持人上新!39岁刘心悦是谁?

大象新闻
2026-02-04 12:13:01
决战今夜!2月6日晚23:20!中央5套CCTV5、CCTV5+直播节目表

决战今夜!2月6日晚23:20!中央5套CCTV5、CCTV5+直播节目表

皮皮观天下
2026-02-06 12:21:24
我国收回南海最大岛礁:8400平方公里国土的战略价值

我国收回南海最大岛礁:8400平方公里国土的战略价值

启迪你的思维
2026-02-06 20:26:57
刚刚,常州发布预警!明早,尽量减少出行

刚刚,常州发布预警!明早,尽量减少出行

中吴网
2026-02-06 19:58:23
美国3位前总统集体出山,鼓动全体美国人反抗,特朗普知道怕了

美国3位前总统集体出山,鼓动全体美国人反抗,特朗普知道怕了

混沌录
2026-02-05 21:17:26
1903年,30岁梁启超和17岁王桂荃行房,两人大汗淋漓

1903年,30岁梁启超和17岁王桂荃行房,两人大汗淋漓

南权先生
2026-02-03 15:53:04
大S刚嫁具俊晔「健康就已极差」:吃不下动不了! 医曝生二胎急速恶化

大S刚嫁具俊晔「健康就已极差」:吃不下动不了! 医曝生二胎急速恶化

ETtoday星光云
2026-02-05 13:50:07
放着便宜俄油不买?印度信实据悉已进口200万桶委内瑞拉石油

放着便宜俄油不买?印度信实据悉已进口200万桶委内瑞拉石油

财联社
2026-02-06 14:52:15
伊朗与美国恢复核谈判

伊朗与美国恢复核谈判

界面新闻
2026-02-06 06:59:22
谢岳回应还有一个儿子?没亏待过浩男妈妈,还替她交房贷和物业费

谢岳回应还有一个儿子?没亏待过浩男妈妈,还替她交房贷和物业费

江山挥笔
2026-02-06 15:23:52
2026-02-06 23:15:00
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
283文章数 33关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

客户存大连银行1.8亿理财无法兑付 查询发现只剩44万

头条要闻

客户存大连银行1.8亿理财无法兑付 查询发现只剩44万

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

本地
家居
旅游
房产
亲子

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

家居要闻

现代轻奢 温馨治愈系

旅游要闻

新春随手拍|古镇迎春启新程,品美食赏武术

房产要闻

新春三亚置业,看过这个热盘再说!

亲子要闻

当孩子有了自己的审美眼光,理解了家长为什么会帮孩子买丑衣服!

无障碍浏览 进入关怀版