网易首页 > 网易号 > 正文 申请入驻

Claude Sonnet 4.6空降!Office性能干翻旗舰模型,软件股哀嚎一片

0
分享至


智东西
编译 李水青 程茜
编辑 心缘

智东西2月18日报道,今日凌晨,Anthropic推出史上最强Sonnet模型——Claude Sonnet 4.6来了,新模型在编程、计算机使用、长上下文推理、Agent规划、知识工作和设计工作上全面进化。

从Anthropic公布的基准测试结果来看,Claude Sonnet 4.6的智能水平已接近Opus级别,在Agent金融分析、办公任务、视觉推理几项测评中甚至超过在2月6日刚刚发布的Opus 4.6,但成本更亲民。在Claude系列模型中,最小的模型通常称为Haiku,中型模型称为Sonnet,最大、智能水平最高的模型是Opus。


在Sonnet 4.6发布后,美股软件股哀嚎一片。截至美东时间周二收盘,Intuit跌超5%,甲骨文、Applovin跌超3%,Salesforce、Atlassian、Palo Alto Networks、Autodesk跌超2%,Adobe、ServiceNow跌超1%。

一位开发者在社交平台X上公布了其试用体验,亮出了Claude Sonnet 4.6与Claude Opus 4.6的游戏生成对比,他称两者效果不相上下,而Claude Sonnet 4.6价格却便宜了近一半



▲社交平台X上Claude Sonnet 4.6的体验实例

Sonnet 4.6测试版拥有100万token上下文窗口。对于免费和Pro订阅用户,Claude Sonnet 4.6已成为claude.ai和Claude Cowork的默认模型,现已支持文件创建、连接器、专业技能与内容压缩等功能。该模型的价格与Sonnet 4.5一致,每百万token的输入价格为3美元(约合人民币21元),输出价格为15美元(约合人民币104元)。


AWS第一时间宣布Sonnet 4.6已在Amazon Bedrock上架。AWS称,这是Anthropic的最强计算机使用模型,对于正在扩展AI工作流程的企业而言,这意味着在不牺牲质量的前提下获得更高的投资回报率。


这也是Anthropic成为万亿独角兽后,首次亮相新模型。2月13日,Anthropic宣布完成300亿美元(约合人民币2072.61亿元)G轮融资,估值一举跃升至3800亿美元(约合人民币2.63万亿元)。

在Sonnet 4.6发布后,美股软件股哀嚎一片。截至美东时间周二收盘,Intuit跌超5%,甲骨文、Applovin跌超3%,Salesforce、Atlassian、Palo Alto Networks、Autodesk跌超2%,Adobe、ServiceNow跌超1%。

一、效果接近Opus 4.6、成本更低,搜索操作、百万token上下文是亮点

Claude Sonnet 4.6一经发布就在开发者圈引起了关注和讨论。

一位海外开发者称:“Claude Sonnet 4.6以更低的成本实现了接近Opus的智能水平,这意义非凡,适用于预算有限的团队。”另一位网友称:“Anthropic的真正策略已显露:Opus争夺王座,Sonnet蚕食市场。


100万token上下文窗口被多位开发者提及为最大亮点。“100万个token?终于找到一个能读取我整个混乱代码库而不评判我的模型了。”一位网友称。另一位网友也将模型运行了一整天,提到智能编码方面的改进明显:“多文件修改时不再需要过多干预,而且能够记住长时间会话中的上下文。不过,100万个token窗口才是真正的亮点,你可以导出整个代码库,它也不会丢失任何信息。



另一位网友展示了他的试用案例,Claude Sonnet 4.6只用一次调用就重构了他的整个代码库。25次工具调用,新增了3000多行代码,创建了12个全新的文件。它实现了模块化,拆分了单体应用,清理了混乱的代码。“虽然所有功能还没运行,但效果真是太棒了。”


▲社交平台X上Claude Sonnet 4.6的体验实例

Claude Sonnet 4.6的视觉推理能力有所提升,这一能力之前与Gemini和ChatGPT相比更逊色。一位开发者展示出了Grok 4.20 beta和Claude Sonnet 4.6的SVG生成效果,提示词是“编写SVG代码以创建一个详细的Xbox控制器”。可以看到,Claude Sonnet 4.6生成的图像具有更强的立体感。


在Agent编程方面表现出色”是值得关注的关键点。一位开发者称,Agent编程需要模型一直以来都难以做到的两件事:保持在模型范围内以及不偏离地执行多步骤指令。如果4.6版本确实改进了这两点,那么它就能改变模型的交付方式。


有的开发者则关注“专注于搜索操作”,称这意味着其正在超越自动补全,转而理解代码库之间的连接方式,它将成为复杂系统的导航工具。一位网友称:“搜索功能的改进确实有效,它大大节省了在大型代码库中查找所需函数的时间。

不过也有人担心Copilot Agent模式的代码安全问题。一位网友称,擅长搜索和代码编写的Agent与聊天助手的影响范围截然不同,如果它拥有生产环境提交权限,那么一旦工作流程遭到破坏,就会对供应链构成风险


尽管好评如潮,但也有开发者认为Sonnet 4.6没有达到期待。“我们原本预期Sonnet 4.6在编程方面会胜过Opus 4.5,但结果表明它只是在Cowork方面进行了升级。”有网友甚至称“Sonnet 4.6=Opus 4.5”,也有多位网友提到Sonnet 4.6不仅没有超过GPT-5.2,而且没有对比Codex 5.3的效果,对模型能力天花板表示质疑。



二、多项能力超GPT-5.2,处理复杂表格、填写多步骤网页表单能力接近人类

在整体的基准测试中,Claude Sonnet 4.6的表现在多个项目中表现都超过自家的Opus 4.6,以及Gemini 3 Pro、GPT-5.2。

GDPval-AA是一个独立的评估框架,用于测试模型在具有经济价值的真实世界专业任务上的表现,Claude Sonnet 4.6在Claude Opus 4.6、GPT-5.2等所有比较模型中排名第一。


对于真实世界的软件工程任务测试SWE-bench、衡量Agent交互能力的τ²-bench、多选题测试GPQA Diamond等测试,Claude Sonnet 4.6的表现接近或已超过Claude Opus 4.6。

值得一提的是,OSWorld是衡量AI计算机使用的标准基准,其在模拟计算机环境中,基于真实软件Chrome、LibreOffice、VS Code等设置了数百项任务,不提供任何专用API或定制连接器。在完成任务时,模型就像人类一样看屏幕、操作电脑,如通过点击虚拟鼠标、敲击虚拟键盘完成交互。

2024年10月,Anthropic率先推出一款通用计算机使用模型,但当时,这一模型仍处于实验阶段,容易出错。经过16个月时间,其Sonnet模型在OSWorld基准测试上的成绩逐渐提升。


并且其博客提到,这些进步不仅体现在测试指标上,早期使用Sonnet 4.6的用户还发现,在处理复杂表格、填写多步骤网页表单以及在多个浏览器标签页之间协同操作等任务中,该模型已具备接近人类水平的能力。

在Claude Code中,Anthropic在早期测试中发现,用户大约有70%的时间更喜欢Sonnet 4.6而不是Sonnet 4.5。其原因是,Sonnet 4.6在修改代码之前能更有效地读取上下文,并整合共享逻辑而不是重复它。

此外,更偏爱Sonnet 4.6而非Opus 4.5的用户占到了59%,他们认为Sonnet 4.6不会把问题搞得太复杂,也不会偷懒敷衍,并且在指令遵循方面有显著提升。这些用户报告称,Sonnet 4.6产生的成功假象更少、幻觉更少,在多步任务上的执行也更一致。

三、模拟商业运营盈利能力超对手,深度推理Opus 4.6依然是最强

Claude Sonnet 4.6提供两种模式:一种是“扩展思维模式”,在此模式下,模型会花费更多时间进行推理;另一种是“自适应思维模式”,在此模式下,模型会根据任务的难度,灵活调整在扩展思维模式下花费的时间。开发者可以根据具体任务,自主控制Sonnet 4.6以哪种模式执行任务。

Sonnet 4.6拥有100万token的上下文窗口,研究人员在Vending-Bench Arena评测中看到了这一点,这一基准测试考验的是模型模拟商业运营中的表现,并包含竞争机制,不同AI模型需要相互对抗以获取最大利润。

Sonnet 4.6在这个测试中开发了新策略,它在最初的十个月模拟期间大量投资于能力建设,花费显著高于竞争对手,然后在最后阶段迅速转向专注于盈利。这使得它在最后的盈利结果远远领先于竞争对手。


开发者还发现,Sonnet 4.6在前端代码、财务分析上的改进尤为突出,并且其视觉输出更加精致,布局、动画和设计感均优于之前的模型,仅需要更少的迭代轮次即可达到生产质量的结果。

Anthropic在博客中还公布了其他具体的产品更新:

在Claude开发者平台上,Sonnet 4.6支持自适应思考和扩展思考,以及处于测试阶段的上下文压缩功能。在API中,Claude的网页搜索与内容获取工具可以自动编写并运行代码,对搜索结果进行筛选和处理。

Sonnet 4.6无论思考强度高低,表现都很稳定。相比之下,对于需要深度推理的任务,Opus 4.6依然是最佳选择,例如代码库重构、工作流中多Agent协同,以及精准度至关重要的复杂问题。

在安全评估方面,研究人员评估了Claude Sonnet 4.6在单回合对话场景中提供信息的意愿,并测试了预期Claude会做出无害回应的违规请求,以及涉及敏感话题的良性请求。该评估使用了普通话、阿拉伯语、英语、法语、印地语、韩语和俄语。

结语:高性价比、会用电脑,让AI加速进入真实工作流

Anthropic的模型布局分为Haiku、Sonnet、Opus系列,这些模型对应着不同的价格和智能水平。此次其Sonnet模型的大幅跃升,部分场景可对标甚至超越Opus系列模型,再加上价格亲民、免费版直接可用,都表明大模型高端性能与高成本的强绑定正在被逐步打破。

从具体的性能升级来看,Sonnet 4.6的实际任务执行、幻觉缓解、指令遵循能力上大幅提升,尤其在“像人一样使用电脑”上,其交互更加自然,这也进一步模型深度融入用户在办公、研发、金融、数据分析场景真实工作潜力大幅提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
没想到,陈丽华去世后,竟给无儿无女的迟重瑞留下了一个“礼物”

没想到,陈丽华去世后,竟给无儿无女的迟重瑞留下了一个“礼物”

阿讯说天下
2026-04-10 11:37:38
我在国安退休后在村口下棋,年轻人观棋时,他的手势竟是特工暗号

我在国安退休后在村口下棋,年轻人观棋时,他的手势竟是特工暗号

千秋文化
2026-03-03 20:17:48
关于卢卡·东契奇在欧洲腿筋治疗的最新报道

关于卢卡·东契奇在欧洲腿筋治疗的最新报道

夜白侃球
2026-04-10 10:34:05
简氏防务:中国建造新型大型海军补给舰!

简氏防务:中国建造新型大型海军补给舰!

达文西看世界
2026-04-10 14:05:50
风向突然变了?赖清德喊话两岸交流,关键时刻,台校贴出五星红旗

风向突然变了?赖清德喊话两岸交流,关键时刻,台校贴出五星红旗

混沌录
2026-04-10 15:31:07
梁天怎么也想不到,自己主动收的演员徒弟,如今竟在名导手里火了

梁天怎么也想不到,自己主动收的演员徒弟,如今竟在名导手里火了

以茶带书
2026-04-09 23:14:14
中国已无退路了!美军为中美选好了主战场,决心要跟中国打场大战

中国已无退路了!美军为中美选好了主战场,决心要跟中国打场大战

余塩搞笑段子
2026-04-03 10:21:46
如果当初中国不改革开放,今天仍是全球最落后的国家之一吗?

如果当初中国不改革开放,今天仍是全球最落后的国家之一吗?

掠影后有感
2026-04-10 09:58:45
状态突然间出现了巨大的下滑!火箭后场新星这个情况令人担心?

状态突然间出现了巨大的下滑!火箭后场新星这个情况令人担心?

稻谷与小麦
2026-04-10 15:47:30
张雪公布自己设计的跨界踏板车设计图,最新回应:正在制作踏板摩托,这款踏板偏运动越野风格,售价可能比传统的贵一点

张雪公布自己设计的跨界踏板车设计图,最新回应:正在制作踏板摩托,这款踏板偏运动越野风格,售价可能比传统的贵一点

鲁中晨报
2026-04-07 17:13:05
苹果新品官宣:4月9日,正式开售

苹果新品官宣:4月9日,正式开售

科技堡垒
2026-04-08 10:22:36
官方:CCTV5转播U20女足亚洲杯1/4决赛,中国女足vs乌兹女足

官方:CCTV5转播U20女足亚洲杯1/4决赛,中国女足vs乌兹女足

懂球帝
2026-04-10 10:22:09
“这种人谁敢录?”39岁华东师范考生举报第一名,学校回应来了

“这种人谁敢录?”39岁华东师范考生举报第一名,学校回应来了

妍妍教育日记
2026-04-09 10:55:07
厉害了!一个无人机外卖,把郑丽文看呆了,那其他硬科技怎么办

厉害了!一个无人机外卖,把郑丽文看呆了,那其他硬科技怎么办

魔都姐姐杂谈
2026-04-09 19:25:43
别查了,受不了!巴拿马外长终于急了:请中国尊重我!

别查了,受不了!巴拿马外长终于急了:请中国尊重我!

青青子衿
2026-04-10 01:19:51
全红婵后续:香港媒体先爆料,检察日报喊话严查,队友集体背刺!

全红婵后续:香港媒体先爆料,检察日报喊话严查,队友集体背刺!

眼光很亮
2026-04-09 12:34:30
毛泽覃牺牲后遗孀想再婚,毛主席说:我不反对,但你要记住一件事

毛泽覃牺牲后遗孀想再婚,毛主席说:我不反对,但你要记住一件事

抽象派大师
2026-04-09 14:51:21
中央曾经内定的台湾省委书记,是他…

中央曾经内定的台湾省委书记,是他…

年代回忆
2026-04-09 20:07:20
施瓦辛格私生子太争气,首夺健美冠军!女保姆所生,肌肉复制父亲

施瓦辛格私生子太争气,首夺健美冠军!女保姆所生,肌肉复制父亲

头号电影院
2026-04-03 22:24:38
战国七雄旧都如今景象如何?楚国都城竟然变为普通乡镇!

战国七雄旧都如今景象如何?楚国都城竟然变为普通乡镇!

春秋砚
2026-04-01 14:15:03
2026-04-10 16:24:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11549文章数 117026关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

"小镇唯一骑手"月入过万:没人跟他抢单 全镇靠他吃饭

头条要闻

"小镇唯一骑手"月入过万:没人跟他抢单 全镇靠他吃饭

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

夏克立婚内出轨 曾参加《爸爸去哪儿》

财经要闻

爱尔眼科一院长被指猥亵 总部:已被停职

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

健康
时尚
房产
公开课
军事航空

干细胞抗衰4大误区,90%的人都中招

浪姐7乱成一锅粥,谁都没想到翻红担当竟然是她

房产要闻

2400亩!大三亚又一个滨海度假区,规划曝光!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:对美国与伊朗达成和平协议“非常乐观”

无障碍浏览 进入关怀版