网易首页 > 网易号 > 正文 申请入驻

Anthropic半月两发新模型 “史上最强Sonnet”剑指智能体 定价仅为旗舰五分之一

0
分享至

《科创板日报》2月18日讯(编辑 宋子乔) 北京时间2月18日凌晨,Anthropic悄然发布了其新一代中型模型Claude Sonnet 4.6。这款被官方称为“史上最强Sonnet”的模型,在多项基准测试中接近Opus水平,但价格仅为后者的五分之一

Anthropic半月两发新模型

此时距离Anthropic的旗舰模型Claude Opus 4.6发布不到半个月,Claude Opus 4.6于2026年2月5日正式发布。

Claude Sonnet 4.6可以被视为智能体(Agent)的理想基础模型。它的设计目标和核心能力升级,正是为了支撑复杂的智能体任务。据介绍,其在计算机使用能力和智能体规划方面表现尤为突出,可以执行需要多个步骤的计算机操作,例如填写网页表单,然后跨多个浏览器标签页协调信息。Anthropic称:“在操作计算机方面,该模型当然仍落后于最熟练的人类。但尽管如此,其进步速度依然惊人。”不过,该模型在抵御提示词注入攻击(Prompt Injection Attacks)等安全威胁方面表现更好,这类攻击是指通过恶意指令操控AI模型。

Anthropic预计,到2029年将向亚马逊、谷歌和微软支付至少800亿美元,以在其云服务器上运行Claude AI。

性能跃升 逼近“旗舰级”

Sonnet 4.6在编程、计算机操作、长上下文推理、智能体规划等任务处理上有了跨越式提升。Anthropic公布的基准测试显示,该模型在多项关键指标上已接近甚至超越其2月6日刚发布的旗舰模型Opus 4.6。

在Agent金融分析和办公任务(GDPVal-AA)两项测评中,Sonnet 4.6的得分分别达到63.3%和1633 Elo,双双超过Opus 4.6的60.1%和1606 Elo。在评估真实世界软件工程能力的SWE-bench测试中,其表现同样逼近Opus水平。

模型保留了100万token的超大上下文窗口(测试版),这意味着它可以一次性处理整部《三体》trilogy级别的代码库或数百页的研究论文。更重要的是,Anthropic强调Sonnet 4.6能够“有效地在整个上下文中进行推理”,这对于需要长期规划的复杂任务至关重要。

在计算机使用能力方面,Sonnet 4.6在OSWorld基准测试中取得了72.5分,较一年前的28.0分实现质的飞跃。早期用户反馈显示,它在处理复杂电子表格、填写多步骤网页表单以及跨浏览器标签协同操作等任务时,已展现出接近人类水平的能力。

应用场景:从代码重构到企业办公

Sonnet 4.6的升级直接转化为广泛的应用场景落地。在编程领域,一位开发者在社交平台X上分享了他的惊艳体验:Sonnet 4.6仅用一次API调用就重构了整个代码库——执行了25次工具调用,新增3000多行代码,创建了12个全新文件,将单体应用成功模块化。

在企业级应用中,Box公司首席技术官Ben Kus证实:“Sonnet 4.6在深度推理和复杂Agent任务上表现出了显著进步,在重度推理Q&A任务上比Sonnet 4.5提升了15个百分点。”金融科技公司Hebbia也报告称,其内部基准测试的答案匹配率出现大幅跃升。

值得注意的是,Sonnet 4.6展现出了一种近乎“战略思考”的能力。在Vending-Bench Arena模拟商业运营的评测中,该模型发展出了一套独特策略:前期重金投资能力建设,最后阶段迅速转向盈利,最终收益远超竞争对手。

Anthropic的“性价比之作”

Claude Sonnet 4.6延续了Sonnet系列的经济定价策略:每百万token输入3美元、输出15美元,与Sonnet 4.5持平。由于性能直接逼近Opus级别,对于免费和Pro订阅用户,它已成为claude.ai和Claude Cowork的默认模型。

AWS已第一时间宣布Sonnet 4.6在Amazon Bedrock上架,称其为“Anthropic的最强计算机使用模型”。

市场担忧,Anthropic这种以低成本提供高性能模型的做法,正在加速AI融入真实工作流,并可能重构企业软件的定价模式,这种情绪在短时间内转为焦虑与担忧:AI是否会颠覆或是直接取代SaaS乃至软件行业。

在与Opus 4.5的对比测试里,用户有59%的时间更偏好Sonnet 4.6。开发者普遍认为,Sonnet 4.6在修改代码前能更有效地读取上下文,整合共享逻辑而非简单复制,并且“过度工程化更少、幻觉更少、多步骤任务执行更稳”。一位开发者直言:“Claude Sonnet 4.6以更低的成本实现了接近Opus的智能水平,这对预算有限的团队意义非凡。”

不过,也有部分用户认为Sonnet 4.6未达到预期,指出其在编程方面并未全面超越Opus 4.5,更像是“Cowork功能的升级”。

关于Anthropic

Anthropic由前OpenAI研究副总裁达里奥·阿莫迪兄妹于2021年创立,核心团队曾参与GPT-2和GPT-3的早期研发。因对OpenAI的发展方向存在分歧,他们离职创办了这家致力于AI安全与研究的公司。

凭借创始人团队的光鲜背景,该公司融资步伐迅猛,自成立以来累计融资额已超300亿美元。2026年2月,公司刚完成300亿美元G轮融资,投后估值飙升至3800亿美元,使其成为全球估值第二高的AI独角兽,仅次于OpenAI。本轮融资参与方包括光速创投(Lightspeed Venture Partners)、门洛风险投资(Menlo Ventures)、摩根士丹利投资(Morgan Stanley Investment)、NX1资本(NX1 Capital)及卡塔尔投资局(Qatar Investment Authority)。

Anthropic最核心的产品是Claude系列大语言模型,按照能力梯队划分为三个层级:

Claude Opus系列:旗舰级模型,代表当前最高智能水平。
Claude Sonnet系列:性能与成本的平衡之选,也是大众用户接触最多的模型。
Claude Haiku系列:轻量级模型,主打快速响应和低成本,适用于实时交互场景。

基于上述模型,Anthropic开发了AI编程助手Claude Code和办公场景智能体Claude Cowork。Anthropic的年化营收在2025年年底超过90亿美元,其中,Claude Code的年化收入已达25亿美元。

责任编辑:荀建国_NN7379

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
川大一口气砍掉39个本科专业,重点大学弃坑的专业,报考时要避坑

川大一口气砍掉39个本科专业,重点大学弃坑的专业,报考时要避坑

狐狸先森讲升学规划
2026-04-06 13:30:03
遭加重处罚?浙江队外援2次薅头发+踹翻赞助商水桶 足协开听证会

遭加重处罚?浙江队外援2次薅头发+踹翻赞助商水桶 足协开听证会

我爱英超
2026-04-06 17:59:41
管理的最高境界(建议收藏)

管理的最高境界(建议收藏)

德鲁克博雅管理
2026-04-05 17:03:57
男子诈骗近百万后潜逃26年,隐姓埋名化身“本分”猪肉摊主,本人忏悔:终于不用躲了

男子诈骗近百万后潜逃26年,隐姓埋名化身“本分”猪肉摊主,本人忏悔:终于不用躲了

环球网资讯
2026-04-06 17:53:22
孙颖莎从澳门带走62万大奖!还有3个好消息,王曼昱暴露两大短板

孙颖莎从澳门带走62万大奖!还有3个好消息,王曼昱暴露两大短板

曹说体育
2026-04-05 22:12:33
普通人想靠AI翻身?我研究了半年“一人公司”,给你四点大实话

普通人想靠AI翻身?我研究了半年“一人公司”,给你四点大实话

胡华成
2026-04-05 09:42:07
梅西征服美国体坛!上座率超超级碗,特朗普直呼橄榄球得改名

梅西征服美国体坛!上座率超超级碗,特朗普直呼橄榄球得改名

仰卧撑FTUer
2026-04-06 11:17:01
一斤40块,1晚上狂捞100斤,臭水沟里隐藏着怎样的“暴利黑产”?

一斤40块,1晚上狂捞100斤,臭水沟里隐藏着怎样的“暴利黑产”?

心中的麦田
2026-03-31 21:21:30
国际原油价格持续走低,WTI原油跌2.22%,布伦特原油跌1.22%

国际原油价格持续走低,WTI原油跌2.22%,布伦特原油跌1.22%

每日经济新闻
2026-04-06 16:00:10
周琦&翟晓川曝光篮球圈投资血泪史:80%球员被坑

周琦&翟晓川曝光篮球圈投资血泪史:80%球员被坑

体坛周报
2026-04-06 16:32:14
恩爱剧本不演了?奚梦瑶提离婚,何猷君掀桌子私生子传闻真相大白

恩爱剧本不演了?奚梦瑶提离婚,何猷君掀桌子私生子传闻真相大白

秋姐居
2026-04-04 22:23:29
黄晓明就“带9岁娃骑行”发文道歉:为自己的疏忽郑重道歉,已去交警部门接受处罚;相关骑行照片已删除

黄晓明就“带9岁娃骑行”发文道歉:为自己的疏忽郑重道歉,已去交警部门接受处罚;相关骑行照片已删除

极目新闻
2026-04-05 18:19:57
61胜队史第三!雷霆5连胜送爵士9连败 亚历山大连138场20+

61胜队史第三!雷霆5连胜送爵士9连败 亚历山大连138场20+

醉卧浮生
2026-04-06 09:14:50
非常罕见,特斯拉突然推出全新配置!

非常罕见,特斯拉突然推出全新配置!

XCiOS俱乐部
2026-04-05 20:27:23
英国遭到拒绝后发出警告,中国若不合作,中企海外资产将被没收!

英国遭到拒绝后发出警告,中国若不合作,中企海外资产将被没收!

共工之锚
2026-04-06 00:14:47
美走下坡路,宣扬“精神”实为自欺

美走下坡路,宣扬“精神”实为自欺

烽火瞭望者
2026-04-06 06:13:10
普通家庭给孩子最好的托举是什么?张雪峰:做到这7点少走十年弯路

普通家庭给孩子最好的托举是什么?张雪峰:做到这7点少走十年弯路

户外阿毽
2026-04-06 06:09:27
64岁郎平医美失败,铁榔头形象大变难辨认

64岁郎平医美失败,铁榔头形象大变难辨认

精彩背后
2026-04-04 16:14:39
最新消息!福建这家医院迎来新任院长!

最新消息!福建这家医院迎来新任院长!

福建卫生报
2026-04-04 18:40:01
荷甲冠军出炉!27冠霸主提前5轮捧杯创纪录 3连冠+甩阿贾克斯23分

荷甲冠军出炉!27冠霸主提前5轮捧杯创纪录 3连冠+甩阿贾克斯23分

我爱英超
2026-04-06 07:17:14
2026-04-06 19:15:00
财联社 incentive-icons
财联社
以“准确、快速、权威、专业”为新闻准则,为投资者提供专业的投资资讯。
704316文章数 1019642关注度
往期回顾 全部

科技要闻

前同事被蒸馏成Token,AI能否偷走职场经验

头条要闻

特朗普咆哮式发帖威胁伊朗 美政界人士:他像精神错乱

头条要闻

特朗普咆哮式发帖威胁伊朗 美政界人士:他像精神错乱

体育要闻

球员系列赛大满贯!赵心童10-3世界第一 加冕赛季第4冠

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

时尚
教育
游戏
本地
健康

AI时代,辨别真相的成本变高了

教育要闻

百里祭英烈,被骂形式主义,没苦硬吃?

热议不断!PS6成首个原地踏步的游戏主机世代

本地新闻

跟着歌声游安徽,听古村回响

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版