网易首页 > 网易号 > 正文 申请入驻

Claude Sonnet 4.6 发布

0
分享至

大年初二,祝大家新年好

然后,Anthropic 今天发布了 Claude Sonnet 4.6

编码、Computer Use、长上下文推理、Agent 规划、知识工作、设计,全线升级。上下文窗口拉到 100 万 token(beta)。价格没变,还是 $3/$15 每百万 token,跟 Sonnet 4.5 一样


模型价格对比

Free 和 Pro 用户现在打开 claude.ai 和 Claude Cowork,默认模型已经换成 Sonnet 4.6 了

到底强多少

Anthropic 在 Claude Code 里做了内测,用户 70% 的时候更喜欢 Sonnet 4.6 而不是 Sonnet 4.5

更狠的数据是,用户拿它跟去年 11 月发的旗舰模型 Opus 4.5 比,59% 的时候更喜欢 Sonnet 4.6

内测用户的反馈集中在几个点:修改代码之前会先好好读上下文,会主动合并重复逻辑而不是到处复制粘贴,长时间使用不那么让人抓狂了。过度工程化和「偷懒」的情况明显少了,instruction following 好了一截。虚报完成、幻觉、多步任务半途而废的情况都在减少


Sonnet 4.6 benchmark 对比

基准测试上,Sonnet 4.6 全面接近 Opus 级别的智力水平。前端代码和金融分析是客户反馈里提升最突出的两个方向,多个客户独立地说视觉输出更精致了,布局、动画、设计感都比之前的模型好,迭代轮次也少了

100 万 token 上下文

1M token 的上下文窗口能装下整个代码库、长合同、几十篇论文

但关键不只是能装,是装进去之后还能有效推理。Anthropic 拿 Vending-Bench Arena 测了一下,这个评测让模型去经营一家(模拟的)公司,不同 AI 模型之间还会互相竞争

Sonnet 4.6 搞出了一个有意思的策略:前 10 个模拟月大量投入产能,花得比竞争对手多很多,然后在最后阶段急转弯聚焦盈利。靠这个时间差,最终利润远超其他模型


Vending-Bench Arena 策略对比图 Computer Use

2024 年 10 月 Anthropic 首发通用 Computer Use 的时候,自己都说「还是实验性的,用起来有时候笨手笨脚还容易出错」

16 个月过去了,OSWorld 基准测试(让模型在真实软件环境里完成任务,用的是 Chrome、LibreOffice、VS Code 这些,没有特殊 API,就是看屏幕、点鼠标、打字)上,Sonnet 系列模型的分数一路在涨


OSWorld 分数趋势

早期用户反馈,在操作复杂电子表格、填写多步骤网页表单、跨多个浏览器标签页协同这些任务上,Sonnet 4.6 已经接近人类水平了

安全方面,Computer Use 最大的风险是 prompt injection,恶意网站藏指令让模型执行。Sonnet 4.6 在抵御 prompt injection 上比 Sonnet 4.5 有大幅提升,跟 Opus 4.6 水平接近

平台更新

API 侧,Sonnet 4.6 同时支持 adaptive thinking 和 extended thinking,context compaction(beta)可以在对话接近上限时自动压缩旧上下文

Claude 的 web search 和 fetch 工具现在会自动写代码来过滤和处理搜索结果,只保留相关内容在上下文里。code execution、memory、programmatic tool calling、tool search、tool use examples 这几个功能正式 GA 了

Claude in Excel 插件现在支持 MCP connectors,可以在 Excel 里直接调用 S&P Global、LSEG、Daloopa、PitchBook、Moody's、FactSet 这些工具。如果你在 claude.ai 已经配好了 MCP connectors,Excel 里直接能用。Pro、Max、Team、Enterprise 计划可用

Anthropic 的建议是,extended thinking 关掉的情况下 Sonnet 4.6 表现也很好,可以根据具体场景调整 thinking effort 找到速度和质量的平衡点。需要最深度推理的任务(代码库重构、多 Agent 协调、对精度要求极高的场景),Opus 4.6 仍然是更好的选择

怎么用

所有 Claude 计划、Claude Cowork、Claude Code、API、各大云平台,现在都能用

免费版也升级到 Sonnet 4.6 了,还带上了 file creation、connectors、skills 和 compaction

开发者用 API 调用的模型名是 claude-sonnet-4-6

安全评估方面,Anthropic 的安全研究员对 Sonnet 4.6 的总结是:整体跟其他近期 Claude 模型一样安全或者更安全,性格温和、诚实、亲社会,偶尔还挺有趣,安全行为很强,没有发现重大的高风险 misalignment 迹象

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小鹏为什么这么“烦”L3

小鹏为什么这么“烦”L3

虎嗅APP
2026-02-17 01:58:05
谈判结束,伊美双方发声!油价跳水,金银齐跌

谈判结束,伊美双方发声!油价跳水,金银齐跌

金融界
2026-02-18 08:26:12
拉玛西亚“锋无力”之谜:为何巴萨青训始终难产顶级9号?

拉玛西亚“锋无力”之谜:为何巴萨青训始终难产顶级9号?

星耀国际足坛
2026-02-17 21:05:38
马英九:若赖清德不放弃“台独”意识形态,两岸未来没有乐观空间

马英九:若赖清德不放弃“台独”意识形态,两岸未来没有乐观空间

海峡导报社
2026-02-17 15:10:01
为了印度得罪中国,要中国归还港口99年使用权,看到违约金后闭嘴

为了印度得罪中国,要中国归还港口99年使用权,看到违约金后闭嘴

安珈使者啊
2026-01-24 11:44:51
左小青的女儿,眉毛也太浓了

左小青的女儿,眉毛也太浓了

小椰的奶奶
2026-02-15 05:58:07
全部销毁?辽宁舰每次回港都带回几十吨海鲜,为何不给解放军加餐

全部销毁?辽宁舰每次回港都带回几十吨海鲜,为何不给解放军加餐

老羴学科普
2026-02-18 10:32:02
饭店遭两只熊砸门“拜年” 店主回应:已回家过年,店里没人

饭店遭两只熊砸门“拜年” 店主回应:已回家过年,店里没人

大象新闻
2026-02-18 12:59:11
原地踏步16年的“政治明星”

原地踏步16年的“政治明星”

特例的猫
2026-02-18 13:22:50
欧洲小偷,都传疯了,达成了一个行业共识,中国人的钱包,随便拿

欧洲小偷,都传疯了,达成了一个行业共识,中国人的钱包,随便拿

西楼知趣杂谈
2026-02-14 18:35:51
当年举报毕福剑的那位告密者竟然变成这样了!谁能想到啊?

当年举报毕福剑的那位告密者竟然变成这样了!谁能想到啊?

霹雳炮
2026-02-06 13:48:54
徐波生了300个孩子?揭露了人类社会的本质问题

徐波生了300个孩子?揭露了人类社会的本质问题

历史总在押韵
2025-11-17 00:05:07
十几年前波士顿动力机器人就会翻跟斗了,中国的机器人厉害在哪里

十几年前波士顿动力机器人就会翻跟斗了,中国的机器人厉害在哪里

狐狸先森讲升学规划
2026-02-17 12:12:04
得分126.7!登顶联盟第一,哈登影响力太大了,米切尔也把话挑明

得分126.7!登顶联盟第一,哈登影响力太大了,米切尔也把话挑明

巴叔GO聊体育
2026-02-18 10:50:10
新加坡急了,外长几乎是拍着桌子,让中国“尊重”马六甲的地位。

新加坡急了,外长几乎是拍着桌子,让中国“尊重”马六甲的地位。

南权先生
2026-01-26 15:41:26
太监是否会出现净身不彻底的情况?晚清一名宫女道出其中一些门道

太监是否会出现净身不彻底的情况?晚清一名宫女道出其中一些门道

抽象派大师
2026-01-28 02:30:30
赵孟頫用10两黄金写的书法,几百年过去依旧闪闪发光,这才是“最美中国字”!

赵孟頫用10两黄金写的书法,几百年过去依旧闪闪发光,这才是“最美中国字”!

书法网
2026-02-03 18:31:49
2026年的春运,长途大巴结结实实给了“智能时代”一记耳光

2026年的春运,长途大巴结结实实给了“智能时代”一记耳光

老特有话说
2026-02-09 23:34:10
2005年,老人公开隐瞒47年的身份,政府十分疑惑,老人说:当年毛主席曾对我有过嘱托

2005年,老人公开隐瞒47年的身份,政府十分疑惑,老人说:当年毛主席曾对我有过嘱托

史海孤雁
2026-02-13 11:05:07
发现一个奇怪现象:越是独来独往、没有朋友、不合群的人,人品往往越没问题,慢慢你就知道了

发现一个奇怪现象:越是独来独往、没有朋友、不合群的人,人品往往越没问题,慢慢你就知道了

LULU生活家
2026-01-11 17:53:51
2026-02-18 16:00:49
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
295文章数 39关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

赖清德新年发福袋 宫庙主委突然捂嘴呕吐喷溅他身上

头条要闻

赖清德新年发福袋 宫庙主委突然捂嘴呕吐喷溅他身上

体育要闻

夺银被问丢金,谷爱凌回击外媒:很荒谬

娱乐要闻

6大卫视春晚收视出炉 北京台稳居第一

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

手机
教育
本地
数码
房产

手机要闻

荣耀Magic V6真机曝光!MWC即将发布,折叠屏+机器人手机双王炸

教育要闻

“新校长”应有的模样

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

数码要闻

realme真我Buds T500 Pro耳机曝光:满电续航56小时

房产要闻

三亚新机场,又传出新消息!

无障碍浏览 进入关怀版