网易首页 > 网易号 > 正文 申请入驻

Claude最强Sonnet模型4.6来了,百万token上下文

0
分享至



机器之心编辑部

大年初二,海外就开始发新模型了!

这次是 Anthropic,率先发布了他们称之为「我们目前能力最强的 Sonnet 模型」Claude Sonnet 4.6。



Claude 称,新模型对编码、计算机使用、长上下文推理、智能体规划、知识工作和设计进行了全面升级。

Beta 版还包含 100 万 token 的上下文窗口。

在价格方面,对于免费和专业版用户,Claude Sonnet 4.6 现已成为 claude.ai 和 Claude Cowork 的默认模型。定价与 Sonnet 4.5 保持一致,仍为每百万输入 token 3 美元,每百万输出 token 15 美元。

那么具体性如何?在 GDPval-AA 测试中,Claude Sonnet 4.6 甚至略微领先于 Anthropic 刚刚发布不久的 Opus 4.6。



接下来,就让我们仔细看下技术博客介绍。

计算机使用

2024 年 10 月,Claude 率先推出了通用的计算机使用模型。当时,这种技术「仍处于实验阶段 —— 有时操作繁琐且容易出错」。

AI 计算机使用的标准基准 OSWorld 展示了 Claude 模型的进步程度。该基准会在模拟计算机上运行真实软件(Chrome、LibreOffice、VS Code 等),设置数百项任务。该基准也没有没有特殊的 API 或专用连接器;模型看到计算机并与其互动的方式与人非常相似:点击(虚拟)鼠标和在(虚拟)键盘上打字。

在过去的十六个月里,Sonnet 模型在 OSWorld 上的性能稳步提升。这些改进在基准测试之外也可见一斑:早期的 Sonnet 4.6 用户在多项任务(诸如浏览复杂电子表格或填写多步骤网页表单)中,看到了达到人类水平的能力,并且能在多个浏览器标签页中整合处理信息。

当然,该模型在使用计算机方面仍落后于最熟练的人类。但进步的速度依然显著。这意味着:计算机使用的价值在提升 —— 并且表明能力更强的模型已指日可待。



图表比较了多个 Sonnet 模型在 OSWorld 基准上的得分。注:Claude Sonnet 4.5 之前的得分基于原始 OSWorld 测量;从 Sonnet 4.5 开始使用 OSWorld-Verified。OSWorld-Verified(2025 年 7 月发布)是原始 OSWorld 基准的原位升级,对任务质量、评估评分和基础设施进行了更新。

与此同时,计算机使用也带来了风险:恶意行为者可能试图通过提示注入攻击,将指令隐藏在网站中来劫持模型。

Anthropic 致力于提高模型抵抗提示注入的能力 —— 其安全评估显示,与其前代 Sonnet 4.5 相比,Sonnet 4.6 在这方面有重大改进,表现与 Opus 4.6 相近。

评估 Claude Sonnet 4.6

除了计算机使用,Claude Sonnet 4.6 在各项基准测试中均有提升。它的智能水平接近 Opus 级别,但价格更实惠,使其适用于更广泛的任务。



一个表格展示了流行基准测试中 Sonnet 4.6 与其他前沿模型的相对性能比较。

Anthropic 的早期 Claude Code 测试发现,用户大约有 70% 的时间更喜欢 Sonnet 4.6 而非 Sonnet 4.5。

用户报告说,它在修改代码前能更有效地理解上下文,并能整合共享逻辑而非简单复制。

相比于 11 月发布的前沿模型 Opus 4.5,用户甚至有 59% 的时间更喜欢 Sonnet 4.6。他们评价 Sonnet 4.6 在过度工程化和「偷懒」方面显著减少,在指令遵循方面有明显改进。用户报告了更少的虚假成功声明、更少的幻觉,以及在多步骤任务中更一致的执行力。

Sonnet 4.6 的上下文窗口为 100 万 token,足以在单个请求中容纳整个代码库、长篇合同或数十篇研究论文。更重要的是,Sonnet 4.6 能有效地在所有上下文中进行推理。这使得它在长程规划方面表现更佳。

在 Vending-Bench Arena 评估中特别清晰地看到了这一点。该测试评估模型长期运营(模拟)业务的能力 —— 并且包含竞争元素,不同 AI 模型相互竞争以获取最大利润。

Sonnet 4.6 发展出一种有趣的新策略:它在模拟的前十个月大力投资于产能,支出远超竞争对手,然后在最后阶段急剧转向专注于盈利能力。这一转向的时机使其最终远远领先于竞争对手。



图表显示 Sonnet 4.6 在 Vending-Bench Arena 上优于 Sonnet 4.5:通过早期投资产能,然后在最后阶段转向盈利。

Claude Sonnet 4.6 已经向哪些用户开放?

Claude Sonnet 4.6 现已面向所有 Claude 套餐、Claude Cowork、Claude Code、API 以及所有主流云平台开放。Anthropic 也已将免费套餐默认升级至 Sonnet 4.6 版本 —— 现在包含文件创建、连接器、技能和压缩功能。

如果你是开发者,也可以通过 Claude API 快速开始使用 claude-sonnet-4-6。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
断层收视第一,骂声全网刷屏!2026辽视春晚,烂得彻头彻尾

断层收视第一,骂声全网刷屏!2026辽视春晚,烂得彻头彻尾

另子维爱读史
2026-02-16 12:49:32
哈登交易后遗症显露 5投0中原形毕露 影响最大之人竟是他

哈登交易后遗症显露 5投0中原形毕露 影响最大之人竟是他

林子说事
2026-02-18 03:51:14
外媒:85个国家及3个组织发表联合声明,强烈谴责以色列涉约旦河西岸措施

外媒:85个国家及3个组织发表联合声明,强烈谴责以色列涉约旦河西岸措施

环球网资讯
2026-02-18 11:57:11
她58岁仍是干净之身,至今没谈过恋爱,除非是最爱不然不会献身

她58岁仍是干净之身,至今没谈过恋爱,除非是最爱不然不会献身

小熊侃史
2026-02-15 07:30:10
意甲欧冠全面崩塌!三大豪门遭重创,仅剩国米明日独撑门面!

意甲欧冠全面崩塌!三大豪门遭重创,仅剩国米明日独撑门面!

田先生篮球
2026-02-18 22:54:01
全身而退!北京一家5口完美套现24亿,临走前又坑了甘肃国资一把

全身而退!北京一家5口完美套现24亿,临走前又坑了甘肃国资一把

文史旺旺旺
2025-12-27 18:22:03
有记者问谷爱凌:“你痛失2块金牌有什么感想吗?”她一句话回怼

有记者问谷爱凌:“你痛失2块金牌有什么感想吗?”她一句话回怼

魔都姐姐杂谈
2026-02-18 15:16:17
突发!美国将78家中企列入黑名单,将12家中企移除!附全名单

突发!美国将78家中企列入黑名单,将12家中企移除!附全名单

讯崽侃天下
2026-02-18 12:17:13
美国是否已经具备了所有的亡国条件?

美国是否已经具备了所有的亡国条件?

李玄清
2026-01-26 10:39:14
吴前晒全家福!父亲是亿万富豪,妻子毕业浙大,儿子十分可爱

吴前晒全家福!父亲是亿万富豪,妻子毕业浙大,儿子十分可爱

观察鉴娱
2026-02-18 18:01:35
欧尔班的天塌了:利用一票否决权从欧盟获102亿欧元,却要被追回

欧尔班的天塌了:利用一票否决权从欧盟获102亿欧元,却要被追回

凉羽亭
2026-02-18 23:46:52
中国队大捷添2金1铜金牌榜升5位 将挑战都灵成绩冲击队史第三佳绩

中国队大捷添2金1铜金牌榜升5位 将挑战都灵成绩冲击队史第三佳绩

劲爆体坛
2026-02-18 22:26:20
原来花小钱就能过得舒服很多,网友:不要心疼电费,该省省该花花

原来花小钱就能过得舒服很多,网友:不要心疼电费,该省省该花花

另子维爱读史
2026-01-23 20:02:10
“一代鞋王”达芙妮没落,家族内斗中亏40亿,最后败给了红颜祸水

“一代鞋王”达芙妮没落,家族内斗中亏40亿,最后败给了红颜祸水

小熊侃史
2025-12-28 11:02:11
罕见!维尼修斯进球后愤怒罢赛:投诉对手歧视 贴着穆帅耳朵说话

罕见!维尼修斯进球后愤怒罢赛:投诉对手歧视 贴着穆帅耳朵说话

风过乡
2026-02-18 05:55:36
冬奥会女选手夺冠时激动拉开上衣,露出内衣品牌,或将因此赚得100万美元!

冬奥会女选手夺冠时激动拉开上衣,露出内衣品牌,或将因此赚得100万美元!

大象新闻
2026-02-17 17:43:34
法国专家:中国电力已经让世界畏惧!为何中国人自己却浑然不知?

法国专家:中国电力已经让世界畏惧!为何中国人自己却浑然不知?

爱吃醋的猫咪
2026-01-23 20:38:06
过年喝酒注意,这些饮料千万别混着喝,可能会永久损伤大脑

过年喝酒注意,这些饮料千万别混着喝,可能会永久损伤大脑

都市快报橙柿互动
2026-02-18 22:41:53
爆笑自助餐糗事冷笑话,朋友告诉我吃自助餐一定只吃海鲜这样才能把成本吃回来,于是我听从了他的建议吃了!

爆笑自助餐糗事冷笑话,朋友告诉我吃自助餐一定只吃海鲜这样才能把成本吃回来,于是我听从了他的建议吃了!

天天明星
2026-02-18 00:04:01
别被马斯克忽悠了!星链撑不起人类通讯,中国通信基建才是底气

别被马斯克忽悠了!星链撑不起人类通讯,中国通信基建才是底气

像梦一场a
2026-02-13 20:20:26
2026-02-19 02:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12318文章数 142568关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

27岁女子上门做年夜饭月入4.5万:一桌10个菜1888元

头条要闻

27岁女子上门做年夜饭月入4.5万:一桌10个菜1888元

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

手机
数码
房产
游戏
本地

手机要闻

三星预热S26系列全新相机功能,AI修复画面、切换昼夜场景

数码要闻

谷歌 Android XR 设计文档曝光,安卓17流畅度提升

房产要闻

三亚新机场,又传出新消息!

PS王牌引擎太强大!成为《死亡搁浅2》唯一选择

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

无障碍浏览 进入关怀版