网易首页 > 网易号 > 正文 申请入驻

Anthropic半月两发新模型 “史上最强Sonnet”剑指智能体 定价仅为旗舰五分之一

0
分享至

《科创板日报》2月18日讯(编辑 宋子乔) 北京时间2月18日凌晨,Anthropic悄然发布了其新一代中型模型Claude Sonnet 4.6。这款被官方称为“史上最强Sonnet”的模型,在多项基准测试中接近Opus水平,但价格仅为后者的五分之一


Anthropic半月两发新模型

此时距离Anthropic的旗舰模型Claude Opus 4.6发布不到半个月,Claude Opus 4.6于2026年2月5日正式发布。

Claude Sonnet 4.6可以被视为智能体(Agent)的理想基础模型。它的设计目标和核心能力升级,正是为了支撑复杂的智能体任务。据介绍,其在计算机使用能力和智能体规划方面表现尤为突出,可以执行需要多个步骤的计算机操作,例如填写网页表单,然后跨多个浏览器标签页协调信息。Anthropic称:“在操作计算机方面,该模型当然仍落后于最熟练的人类。但尽管如此,其进步速度依然惊人。”不过,该模型在抵御提示词注入攻击(Prompt Injection Attacks)等安全威胁方面表现更好,这类攻击是指通过恶意指令操控AI模型。

Anthropic预计,到2029年将向亚马逊、谷歌和微软支付至少800亿美元,以在其云服务器上运行Claude AI。

性能跃升 逼近“旗舰级”

Sonnet 4.6在编程、计算机操作、长上下文推理、智能体规划等任务处理上有了跨越式提升。Anthropic公布的基准测试显示,该模型在多项关键指标上已接近甚至超越其2月6日刚发布的旗舰模型Opus 4.6。

在Agent金融分析和办公任务(GDPVal-AA)两项测评中,Sonnet 4.6的得分分别达到63.3%和1633 Elo,双双超过Opus 4.6的60.1%和1606 Elo。在评估真实世界软件工程能力的SWE-bench测试中,其表现同样逼近Opus水平。

模型保留了100万token的超大上下文窗口(测试版),这意味着它可以一次性处理整部《三体》trilogy级别的代码库或数百页的研究论文。更重要的是,Anthropic强调Sonnet 4.6能够“有效地在整个上下文中进行推理”,这对于需要长期规划的复杂任务至关重要。

在计算机使用能力方面,Sonnet 4.6在OSWorld基准测试中取得了72.5分,较一年前的28.0分实现质的飞跃。早期用户反馈显示,它在处理复杂电子表格、填写多步骤网页表单以及跨浏览器标签协同操作等任务时,已展现出接近人类水平的能力。

应用场景:从代码重构到企业办公

Sonnet 4.6的升级直接转化为广泛的应用场景落地。在编程领域,一位开发者在社交平台X上分享了他的惊艳体验:Sonnet 4.6仅用一次API调用就重构了整个代码库——执行了25次工具调用,新增3000多行代码,创建了12个全新文件,将单体应用成功模块化。

在企业级应用中,Box公司首席技术官Ben Kus证实:“Sonnet 4.6在深度推理和复杂Agent任务上表现出了显著进步,在重度推理Q&A任务上比Sonnet 4.5提升了15个百分点。”金融科技公司Hebbia也报告称,其内部基准测试的答案匹配率出现大幅跃升。

值得注意的是,Sonnet 4.6展现出了一种近乎“战略思考”的能力。在Vending-Bench Arena模拟商业运营的评测中,该模型发展出了一套独特策略:前期重金投资能力建设,最后阶段迅速转向盈利,最终收益远超竞争对手。

Anthropic的“性价比之作”

Claude Sonnet 4.6延续了Sonnet系列的经济定价策略:每百万token输入3美元、输出15美元,与Sonnet 4.5持平。由于性能直接逼近Opus级别,对于免费和Pro订阅用户,它已成为claude.ai和Claude Cowork的默认模型。

AWS已第一时间宣布Sonnet 4.6在Amazon Bedrock上架,称其为“Anthropic的最强计算机使用模型”。

市场担忧,Anthropic这种以低成本提供高性能模型的做法,正在加速AI融入真实工作流,并可能重构企业软件的定价模式,这种情绪在短时间内转为焦虑与担忧:AI是否会颠覆或是直接取代SaaS乃至软件行业。

在与Opus 4.5的对比测试里,用户有59%的时间更偏好Sonnet 4.6。开发者普遍认为,Sonnet 4.6在修改代码前能更有效地读取上下文,整合共享逻辑而非简单复制,并且“过度工程化更少、幻觉更少、多步骤任务执行更稳”。一位开发者直言:“Claude Sonnet 4.6以更低的成本实现了接近Opus的智能水平,这对预算有限的团队意义非凡。”

不过,也有部分用户认为Sonnet 4.6未达到预期,指出其在编程方面并未全面超越Opus 4.5,更像是“Cowork功能的升级”。

关于Anthropic

Anthropic由前OpenAI研究副总裁达里奥·阿莫迪兄妹于2021年创立,核心团队曾参与GPT-2和GPT-3的早期研发。因对OpenAI的发展方向存在分歧,他们离职创办了这家致力于AI安全与研究的公司。

凭借创始人团队的光鲜背景,该公司融资步伐迅猛,自成立以来累计融资额已超300亿美元。2026年2月,公司刚完成300亿美元G轮融资,投后估值飙升至3800亿美元,使其成为全球估值第二高的AI独角兽,仅次于OpenAI。本轮融资参与方包括光速创投(Lightspeed Venture Partners)、门洛风险投资(Menlo Ventures)、摩根士丹利投资(Morgan Stanley Investment)、NX1资本(NX1 Capital)及卡塔尔投资局(Qatar Investment Authority)。

Anthropic最核心的产品是Claude系列大语言模型,按照能力梯队划分为三个层级:

Claude Opus系列:旗舰级模型,代表当前最高智能水平。
Claude Sonnet系列:性能与成本的平衡之选,也是大众用户接触最多的模型。
Claude Haiku系列:轻量级模型,主打快速响应和低成本,适用于实时交互场景。

基于上述模型,Anthropic开发了AI编程助手Claude Code和办公场景智能体Claude Cowork。Anthropic的年化营收在2025年年底超过90亿美元,其中,Claude Code的年化收入已达25亿美元。

责任编辑:荀建国_NN7379

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全世界都被特朗普耍了!打击伊朗只是个幌子,真正目标已布局四年

全世界都被特朗普耍了!打击伊朗只是个幌子,真正目标已布局四年

烟雨洛神生
2026-02-18 09:46:40
2nm,真狂啊

2nm,真狂啊

放毒
2026-02-18 14:40:43
208850元!宇树科技春晚同款机器人上架,不支持7天无理由退货

208850元!宇树科技春晚同款机器人上架,不支持7天无理由退货

封面新闻
2026-02-17 15:47:18
台湾“国运签”除夕夜出炉!签上28字令民进党冒汗,一切才刚开始

台湾“国运签”除夕夜出炉!签上28字令民进党冒汗,一切才刚开始

头条爆料007
2026-02-18 08:56:09
重庆一小区大门竟是百米隧道,业主:回家像大王回洞府

重庆一小区大门竟是百米隧道,业主:回家像大王回洞府

台州交通广播
2026-02-17 15:11:29
为了“掏空”老百姓家底,而编造出来的“4大谎言”,谁信谁倒霉

为了“掏空”老百姓家底,而编造出来的“4大谎言”,谁信谁倒霉

平说财经
2026-02-18 08:38:03
高市早苗手舞足蹈公布“天大喜讯”,英媒秒懂:中国的阳谋奏效了

高市早苗手舞足蹈公布“天大喜讯”,英媒秒懂:中国的阳谋奏效了

东极妙严
2026-02-18 12:53:10
西双版纳深夜4.6级地震游客全跑下楼,当地酒店称是小震,对生活影响不大

西双版纳深夜4.6级地震游客全跑下楼,当地酒店称是小震,对生活影响不大

潇湘晨报
2026-02-18 15:43:10
因种族歧视维尼修斯,本菲卡球员普雷斯蒂安尼社媒被冲

因种族歧视维尼修斯,本菲卡球员普雷斯蒂安尼社媒被冲

懂球帝
2026-02-18 14:14:43
飞虎队”再现乌克兰天空,美国撕下面具强行干涉匈牙利大选

飞虎队”再现乌克兰天空,美国撕下面具强行干涉匈牙利大选

史政先锋
2026-02-17 20:22:20
中日激烈交锋开始了

中日激烈交锋开始了

凤眼论
2026-02-18 07:48:22
玉渊谭天:菲律宾海警在南海投放不明物体,被我方海警全程监控并拍下

玉渊谭天:菲律宾海警在南海投放不明物体,被我方海警全程监控并拍下

环球网资讯
2026-02-18 12:18:51
大年初二,金价银价还在下跌

大年初二,金价银价还在下跌

8099999街头巷尾
2026-02-18 12:11:03
高市早苗内阁集体辞职,是谢幕还是开场? 上午辞职下午重选背后唱的哪一出

高市早苗内阁集体辞职,是谢幕还是开场? 上午辞职下午重选背后唱的哪一出

大象新闻
2026-02-18 16:44:05
“宋小宝小品翻车”,冲上热搜!

“宋小宝小品翻车”,冲上热搜!

大中国
2026-02-18 16:12:14
厕所里丢一把食盐,真的太实用了,一年省下好几百,学会一定试试

厕所里丢一把食盐,真的太实用了,一年省下好几百,学会一定试试

妙招酷
2026-01-18 00:08:23
你干过哪些阴暗龌龊的事?网友:最后一个真的好炸裂好真实

你干过哪些阴暗龌龊的事?网友:最后一个真的好炸裂好真实

带你感受人间冷暖
2026-02-17 01:00:24
吴京《镖人》首波真实口碑出炉了!观众的打分评价都“一针见血”

吴京《镖人》首波真实口碑出炉了!观众的打分评价都“一针见血”

八卦南风
2026-02-17 19:41:43
布伦森提前4年索要顶薪?美记暗示他被坑 降薪1.13亿33岁将陷泥沼

布伦森提前4年索要顶薪?美记暗示他被坑 降薪1.13亿33岁将陷泥沼

颜小白的篮球梦
2026-02-18 17:34:39
马年春晚与百姓冷暖渐行渐远,非于蕾一己之力,这是时代的尴尬

马年春晚与百姓冷暖渐行渐远,非于蕾一己之力,这是时代的尴尬

姜大叔侃球
2026-02-17 12:33:58
2026-02-18 18:24:49
财联社 incentive-icons
财联社
以“准确、快速、权威、专业”为新闻准则,为投资者提供专业的投资资讯。
686008文章数 1017663关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

14岁龙凤胎姐弟替患病母亲摆摊卖春联 父亲患癌已离世

头条要闻

14岁龙凤胎姐弟替患病母亲摆摊卖春联 父亲患癌已离世

体育要闻

夺银被问丢金,谷爱凌回击外媒:很荒谬

娱乐要闻

6大卫视春晚收视出炉 北京台稳居第一

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

数码
亲子
教育
时尚
房产

数码要闻

AMD否认MI455X跳票,重申2026下半年如期交付Helios

亲子要闻

天冷给孩子洗澡,父母要避开两个时间,以免娃频繁生病

教育要闻

“新校长”应有的模样

50+女性秋冬穿搭指南,4个让年龄法则成为加分项,越穿越优雅

房产要闻

三亚新机场,又传出新消息!

无障碍浏览 进入关怀版