网易首页 > 网易号 > 正文 申请入驻

Claude最强Sonnet模型4.6来了,百万token上下文

0
分享至



机器之心编辑部

大年初二,海外就开始发新模型了!

这次是 Anthropic,率先发布了他们称之为「我们目前能力最强的 Sonnet 模型」Claude Sonnet 4.6。



Claude 称,新模型对编码、计算机使用、长上下文推理、智能体规划、知识工作和设计进行了全面升级。

Beta 版还包含 100 万 token 的上下文窗口。

在价格方面,对于免费和专业版用户,Claude Sonnet 4.6 现已成为 claude.ai 和 Claude Cowork 的默认模型。定价与 Sonnet 4.5 保持一致,仍为每百万输入 token 3 美元,每百万输出 token 15 美元。

那么具体性如何?在 GDPval-AA 测试中,Claude Sonnet 4.6 甚至略微领先于 Anthropic 刚刚发布不久的 Opus 4.6。



接下来,就让我们仔细看下技术博客介绍。

计算机使用

2024 年 10 月,Claude 率先推出了通用的计算机使用模型。当时,这种技术「仍处于实验阶段 —— 有时操作繁琐且容易出错」。

AI 计算机使用的标准基准 OSWorld 展示了 Claude 模型的进步程度。该基准会在模拟计算机上运行真实软件(Chrome、LibreOffice、VS Code 等),设置数百项任务。该基准也没有没有特殊的 API 或专用连接器;模型看到计算机并与其互动的方式与人非常相似:点击(虚拟)鼠标和在(虚拟)键盘上打字。

在过去的十六个月里,Sonnet 模型在 OSWorld 上的性能稳步提升。这些改进在基准测试之外也可见一斑:早期的 Sonnet 4.6 用户在多项任务(诸如浏览复杂电子表格或填写多步骤网页表单)中,看到了达到人类水平的能力,并且能在多个浏览器标签页中整合处理信息。

当然,该模型在使用计算机方面仍落后于最熟练的人类。但进步的速度依然显著。这意味着:计算机使用的价值在提升 —— 并且表明能力更强的模型已指日可待。



图表比较了多个 Sonnet 模型在 OSWorld 基准上的得分。注:Claude Sonnet 4.5 之前的得分基于原始 OSWorld 测量;从 Sonnet 4.5 开始使用 OSWorld-Verified。OSWorld-Verified(2025 年 7 月发布)是原始 OSWorld 基准的原位升级,对任务质量、评估评分和基础设施进行了更新。

与此同时,计算机使用也带来了风险:恶意行为者可能试图通过提示注入攻击,将指令隐藏在网站中来劫持模型。

Anthropic 致力于提高模型抵抗提示注入的能力 —— 其安全评估显示,与其前代 Sonnet 4.5 相比,Sonnet 4.6 在这方面有重大改进,表现与 Opus 4.6 相近。

评估 Claude Sonnet 4.6

除了计算机使用,Claude Sonnet 4.6 在各项基准测试中均有提升。它的智能水平接近 Opus 级别,但价格更实惠,使其适用于更广泛的任务。



一个表格展示了流行基准测试中 Sonnet 4.6 与其他前沿模型的相对性能比较。

Anthropic 的早期 Claude Code 测试发现,用户大约有 70% 的时间更喜欢 Sonnet 4.6 而非 Sonnet 4.5。

用户报告说,它在修改代码前能更有效地理解上下文,并能整合共享逻辑而非简单复制。

相比于 11 月发布的前沿模型 Opus 4.5,用户甚至有 59% 的时间更喜欢 Sonnet 4.6。他们评价 Sonnet 4.6 在过度工程化和「偷懒」方面显著减少,在指令遵循方面有明显改进。用户报告了更少的虚假成功声明、更少的幻觉,以及在多步骤任务中更一致的执行力。

Sonnet 4.6 的上下文窗口为 100 万 token,足以在单个请求中容纳整个代码库、长篇合同或数十篇研究论文。更重要的是,Sonnet 4.6 能有效地在所有上下文中进行推理。这使得它在长程规划方面表现更佳。

在 Vending-Bench Arena 评估中特别清晰地看到了这一点。该测试评估模型长期运营(模拟)业务的能力 —— 并且包含竞争元素,不同 AI 模型相互竞争以获取最大利润。

Sonnet 4.6 发展出一种有趣的新策略:它在模拟的前十个月大力投资于产能,支出远超竞争对手,然后在最后阶段急剧转向专注于盈利能力。这一转向的时机使其最终远远领先于竞争对手。



图表显示 Sonnet 4.6 在 Vending-Bench Arena 上优于 Sonnet 4.5:通过早期投资产能,然后在最后阶段转向盈利。

Claude Sonnet 4.6 已经向哪些用户开放?

Claude Sonnet 4.6 现已面向所有 Claude 套餐、Claude Cowork、Claude Code、API 以及所有主流云平台开放。Anthropic 也已将免费套餐默认升级至 Sonnet 4.6 版本 —— 现在包含文件创建、连接器、技能和压缩功能。

如果你是开发者,也可以通过 Claude API 快速开始使用 claude-sonnet-4-6。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谈崩了!21小时马拉松谈判无果,伊美又将开启新一轮冲突?

谈崩了!21小时马拉松谈判无果,伊美又将开启新一轮冲突?

凤眼论
2026-04-12 12:47:38
经济学家贾康:年轻人可以考虑购买住房了

经济学家贾康:年轻人可以考虑购买住房了

大象新闻
2026-03-27 14:45:03
新版人民币已经发行!腐败分子要失眠了?大清洗或要开始了

新版人民币已经发行!腐败分子要失眠了?大清洗或要开始了

巢客HOME
2026-04-07 05:30:03
一张折线图揭露人类寿命暴增的真正秘密!是儿童死亡率从50%跌到4.3%

一张折线图揭露人类寿命暴增的真正秘密!是儿童死亡率从50%跌到4.3%

三言四拍
2026-04-12 10:37:11
国羽1金2银!王祉怡惜败安洗莹,女双NO.1首局退赛,石宇奇冲冠!

国羽1金2银!王祉怡惜败安洗莹,女双NO.1首局退赛,石宇奇冲冠!

刘姚尧的文字城堡
2026-04-12 16:50:11
美美哒!网友说:谭大扔子没那么大了

美美哒!网友说:谭大扔子没那么大了

挖掘机007
2026-04-12 15:43:46
新型卖淫方式五花八门,让人大开眼界。

新型卖淫方式五花八门,让人大开眼界。

蔚蓝的珊瑚海
2026-04-10 17:02:21
快讯!万斯突然宣布了!

快讯!万斯突然宣布了!

达文西看世界
2026-04-12 13:20:48
又死了一对一年赚200万的

又死了一对一年赚200万的

求实处
2026-04-11 22:29:22
特朗普自曝还有“王牌”!伊朗警告美国:霍尔木兹海峡是“红线”,通行费必须以伊朗货币支付,伊方完全掌握控制权且不容谈判

特朗普自曝还有“王牌”!伊朗警告美国:霍尔木兹海峡是“红线”,通行费必须以伊朗货币支付,伊方完全掌握控制权且不容谈判

每日经济新闻
2026-04-12 18:43:22
国羽3连冠梦碎!王祉怡1-2无缘连斩世界第1,安洗莹首夺亚锦赛

国羽3连冠梦碎!王祉怡1-2无缘连斩世界第1,安洗莹首夺亚锦赛

钉钉陌上花开
2026-04-12 15:45:44
巴西将比亚迪列入“耻辱名单”

巴西将比亚迪列入“耻辱名单”

深度报
2026-04-11 22:22:26
官方通报从云南拉到焦作的11吨西瓜全坏

官方通报从云南拉到焦作的11吨西瓜全坏

黄河新闻网吕梁
2026-04-12 11:18:44
靠结婚化债的小仙女越来越多了!

靠结婚化债的小仙女越来越多了!

黯泉
2026-04-12 17:20:57
长谈21小时未果,万斯离开前竖大拇指,特朗普关键时刻看格斗赛 ,伊朗:不着急

长谈21小时未果,万斯离开前竖大拇指,特朗普关键时刻看格斗赛 ,伊朗:不着急

红星新闻
2026-04-12 15:44:23
连谈21小时,美伊不欢而散,特朗普:特朗普:中国不许送武器,否则有麻烦

连谈21小时,美伊不欢而散,特朗普:特朗普:中国不许送武器,否则有麻烦

闻识
2026-04-12 13:53:31
反智的航天学院副院长

反智的航天学院副院长

问道求真
2026-04-12 00:05:29
央行原统计司长盛松成:面对预期下行,做好资产价格大幅下降准备

央行原统计司长盛松成:面对预期下行,做好资产价格大幅下降准备

专业聊房君
2026-04-10 16:41:31
参加会见连正装都不穿了!郑丽文抵达首都第2天更加放松了!

参加会见连正装都不穿了!郑丽文抵达首都第2天更加放松了!

阿龙聊军事
2026-04-12 12:09:16
这5个行业,已经发不出工资了!真的很严重了

这5个行业,已经发不出工资了!真的很严重了

细说职场
2026-04-12 14:35:35
2026-04-12 19:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12729文章数 142623关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

女子将闺蜜6.8万紫貂大衣粘上粘鼠板 硬扯下来还撒谎

头条要闻

女子将闺蜜6.8万紫貂大衣粘上粘鼠板 硬扯下来还撒谎

体育要闻

五大联赛首冠出炉?拜仁或提前4轮卫冕德甲

娱乐要闻

46岁赵达官宣结婚!曾与殷桃谈婚论嫁

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

教育
时尚
亲子
手机
健康

教育要闻

Q开头的单词!

伊姐周六热推:电视剧《八千里路云和月》;综艺《乘风2026》......

亲子要闻

河南A妈4-09上改

手机要闻

“作弊” 内幕曝光!3DMark回应将某知名国产手机除名:实测性能相差24%、温度超过50℃

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版