网易首页 > 网易号 > 正文 申请入驻

性能持平价格大降80%,Anthropic新模型杀疯了

0
分享至



距离ClaudeOpus 4.6的发布仅过去12天,Anthropic就发布了新的中档模型Claude Sonnet 4.6。

这次发布的核心不在于技术突破本身,而在于它以低得多的价格,达到了与竞品齐平的性能。。

Sonnet 4.6的定价保持在每百万token输入3美元、输出15美元,与前代 Sonnet 4.5相同。

然而在多项基准测试中,Sonnet 4.6接近甚至超越了价格高出五倍的Opus 4.6。

Anthropic表示,便宜不一定就没有好货。

当然了,在一些关键的测试里,仍然还是Opus 4.6领先。

具体表现如何呢?

01

Sonnet 4.6究竟有多惊艳?

在SWE-bench Verified这个衡量真实软件编码能力的基准测试中,Sonnet 4.6得分79.6%,几乎追平Opus 4.6的 80.8%,同时略微领先于OpenAI的GPT-5.2。

在代理式金融分析任务中,Sonnet 4.6以63.3%的成绩领先所有竞争对手,包括Opus 4.6的60.1%和GPT-5.2的59.0%。

在办公任务的GDPval-AA Elo评分中,Sonnet 4.6达到 1633 分,超过Opus 4.6的1606分和GPT-5.2的1462分。

过去需要旗舰模型才能完成的任务,现在用Sonnet 4.6这种中档模型就能做到。

对于每天需要处理数百万token的企业来说,这意味着可以大幅节省成本。

Opus 4.6仍然在某些高复杂度领域保持优势。

在终端编码任务Terminal-Bench 2.0中,Opus 4.6得分65.4%,Sonnet 4.6为59.1%。

在代理式搜索BrowseComp中,Opus 4.6达到84.0%, Sonnet 4.6为74.7%。

在新颖问题解决测试ARC-AGI-2中,Opus 4.6得分68.8%,Sonnet 4.6为58.3%。



这些差距表明,对于前沿研究和需要顶级准确度的场景,Opus 4.6仍是最好的模型。但对于大多数生产环境,这个差距已经缩小到可以接受的程度。

Sonnet 4.6最引人注目的进步出现在计算机使用能力上。在OSWorld-Verified基准测试中,它得分72.5%,高于Sonnet 4.5的61.4%,远超GPT-5.2的38.2%。

计算机使用能力指的是AI像人类一样操作计算机的能力,通过鼠标点击、键盘输入来与软件交互,而不依赖API接口。

前一阵引发热议的豆包手机助手,其底层的UI-TARS模型,就是在OSWorld基准上完成了权威测试,取得了47.5%的成绩。

豆包手机助手的表现是非常出色的,已经能够完成除了支付以外所有的操作。

那么以此作为判断依据,进而不难推测,Sonnet 4.6的实际表现将会非常惊艳。

这项能力之所以重要,是因为它打开了最广泛的企业应用场景。

一个能够直接看屏幕并与之交互的模型,可以在不构建定制连接器的情况下,自动操作将所有可交互的系统。

Anthropic在发布时提到,早期用户已经看到接近人类水平的表现,能够完成复杂的电子表格任务和多步骤网页表单。

保险科技公司Pace的CEO贾米·考夫(Jamie Cuffe)表示,Sonnet 4.6在他们复杂的保险计算机使用基准测试中达到94%的成绩,是所有测试过的Claude模型中最高的。

他说:“它以我们之前未见过的方式推理失败原因并自我纠正。”

恶意行为者可能在网页中隐藏指令来劫持模型,这被称为提示注入攻击。

Anthropic在公告中表示,Sonnet 4.6在抵御此类攻击方面比Sonnet 4.5有重大改进。

对于部署需要浏览网页和与外部系统交互的代理的企业来说,这种安全防护是必须的。

02

价格只要五分之一

那么Sonnet 4.6到底有多便宜呢?

外媒报道,一些早期的Sonnet 4.6用户表示,原本企业需要花五倍的钱才能买到的能力,现在用Sonnet 4.6就能获得差不多的效果。

这意味着运营成本可能直接降到原来的五分之一,而工作质量几乎不受影响。

数据分析平台Hex Technologies的CTO,同时也是Anthropic联合创始人、首席产品官的凯特琳-科尔格罗夫 (Caitlin Colgrove)说,公司正在将大部分流量迁移到Sonnet 4.6。

她指出通过自适应思考和高努力模式(high effort mode),“除了最困难的分析任务外,我们在所有任务上都看到了Opus级别的性能,且配置更高效灵活。以Sonnet的价格,这将降低工作成本。”

云存储公司Box的CTO本·喀什(Ben Kus)表示,Sonnet 4.6在真实企业文档的重度推理问答中,比Sonnet 4.5的表现提高了15个百分点。

Sonnet 4.6配备了100万token的超长上下文窗口,以容纳整个代码库、法律文件或数十篇研究论文。

Anthropic声称模型能够在整个上下文中有效推理,并通过Vending-Bench Arena这个基准测试来表现出Sonnet 4.6的有效推理。

Vending-Bench Arena测试的是模型运营模拟企业的能力,不同AI模型相互竞争以获得最大利润。



在没有人类提示的情况下,Sonnet 4.6发展出一种新颖策略:在前十个模拟月份中大量投资产能,支出远超竞争对手,然后在最后阶段急转弯专注于盈利能力。

模型在365天模拟结束时的余额约为5700美元,而Sonnet 4.5约为2100美元。

03

Anthropic开启印度市场

Anthropic正处于上市前最关键的阶段,因此他们不止要发布模型,还要借着模型去扩张业务。

在Sonnet 4.6发布当天,印度IT巨头Infosys宣布与Anthropic合作,构建企业级agent,将Claude模型集成到Infosys的Topaz AI平台中,服务于银行、电信和制造业。

与此同时,Anthropic也在印度的班加罗尔开设了首个印度办事处,印度现在占全球Claude使用量的约6%,仅次于美国。

Anthropic的进步也导致了最近几天软件股的大规模抛售,就连业绩大涨的微软,也经历了股价暴跌。

投资者越来越担心AI对这些业务的潜在颠覆,Sonnet 4.6可能会加剧这种不安的氛围。

也不知道是不是Anthropic飘了,他们还将其免费层级默认升级到了Sonnet 4.6,开发者可以通过Claude API直接调用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
何超莲晒一家四口全家福,三太陈婉珍脸色蜡黄状态不好,窦骁缺席

何超莲晒一家四口全家福,三太陈婉珍脸色蜡黄状态不好,窦骁缺席

娱乐团长
2026-06-01 21:00:25
连赢日本名将8局!李诗沣2-0晋级印尼公开赛16强,下轮或迎德比战

连赢日本名将8局!李诗沣2-0晋级印尼公开赛16强,下轮或迎德比战

钉钉陌上花开
2026-06-02 18:01:38
1958年粟裕被批,台下元帅无一人求情,最后主席却出言为他正名!

1958年粟裕被批,台下元帅无一人求情,最后主席却出言为他正名!

史之铭
2026-05-31 01:15:08
徐志胜带女友见父母!女方小眼睛低鼻梁有夫妻相,高学历是富二代

徐志胜带女友见父母!女方小眼睛低鼻梁有夫妻相,高学历是富二代

街上的行人很刺眼
2026-06-01 15:54:17
印尼公开赛中国羽毛球队表现:冯/黄“复仇”,石宇奇状态仍不稳

印尼公开赛中国羽毛球队表现:冯/黄“复仇”,石宇奇状态仍不稳

云隐南山
2026-06-02 19:11:03
冶金院校毕业!他,拟任北京一区委书记

冶金院校毕业!他,拟任北京一区委书记

新浪财经
2026-06-02 16:32:05
中国开了个头,印尼马上跟进:我们也想听听日本的解释!

中国开了个头,印尼马上跟进:我们也想听听日本的解释!

阿龙聊军事
2026-06-01 17:11:48
人口大迁徙已是定局?明后年,越来越多人会流入这4座城市?

人口大迁徙已是定局?明后年,越来越多人会流入这4座城市?

空谷幽幽蓝
2026-05-28 20:33:01
浙江嵊州一小山村被上百人“包围”捡萤石,随手捡的石头阳光下会发光,官方回应

浙江嵊州一小山村被上百人“包围”捡萤石,随手捡的石头阳光下会发光,官方回应

扬子晚报
2026-06-01 22:04:12
8.84亿的美国工厂说关就关?曹德旺:美国不讲理,我就不陪玩了

8.84亿的美国工厂说关就关?曹德旺:美国不讲理,我就不陪玩了

番外行
2026-05-06 10:29:59
一个生母的夺子之战:产子送人收7万元“营养费”,拉锯两年后法院判收养无效,赢了官司却要不回孩子

一个生母的夺子之战:产子送人收7万元“营养费”,拉锯两年后法院判收养无效,赢了官司却要不回孩子

极目新闻
2026-06-02 19:49:04
离职一年,前上海主持人丹丹终于对“辞职”释怀,曾一度情绪失控

离职一年,前上海主持人丹丹终于对“辞职”释怀,曾一度情绪失控

东方不败然多多
2026-06-02 15:08:12
迈威尔科技美股夜盘涨超12% 黄仁勋称其将成为下一个万亿美元公司

迈威尔科技美股夜盘涨超12% 黄仁勋称其将成为下一个万亿美元公司

财联社
2026-06-02 11:48:29
人社部:明确!未休年休假工资折算,企业按21.75天,事业单位按261天

人社部:明确!未休年休假工资折算,企业按21.75天,事业单位按261天

微法官
2026-06-02 08:55:03
太可怕了!江苏女生哭诉侍候父亲的至暗时刻,字里行间恐惧与绝望

太可怕了!江苏女生哭诉侍候父亲的至暗时刻,字里行间恐惧与绝望

火山詩话
2026-05-30 17:59:42
【美股盘前】迈威尔科技涨25%,黄仁勋称其将成为万亿美元公司;Alphabet计划募资800亿美元砸AI基建,伯克希尔100亿美元入局,谷歌A跌2.7%...

【美股盘前】迈威尔科技涨25%,黄仁勋称其将成为万亿美元公司;Alphabet计划募资800亿美元砸AI基建,伯克希尔100亿美元入局,谷歌A跌2.7%...

每日经济新闻
2026-06-02 18:11:05
1992年邱会作到北京,老战友请他吃饭,张震席间连连称“老同学”

1992年邱会作到北京,老战友请他吃饭,张震席间连连称“老同学”

大运河时空
2026-06-02 11:40:03
3-0,3-0法网公开赛!8强出7席!意大利扎堆,辛纳终结者被剃光头

3-0,3-0法网公开赛!8强出7席!意大利扎堆,辛纳终结者被剃光头

林子说事
2026-06-02 10:06:25
6月9日,新款本田CRV荣耀款将上市,18.59万起售

6月9日,新款本田CRV荣耀款将上市,18.59万起售

沙雕小琳琳
2026-06-02 18:16:08
奚梦瑶婚礼珠宝封神!100克拉的钻石将近5000万,这才是真老钱风

奚梦瑶婚礼珠宝封神!100克拉的钻石将近5000万,这才是真老钱风

观鱼听雨
2026-06-01 23:05:05
2026-06-02 20:44:49
字母榜 incentive-icons
字母榜
让未来不止于大。
2508文章数 8064关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

菲防长称中方未展现长期诚意 外交部:完全没感恩之心

头条要闻

菲防长称中方未展现长期诚意 外交部:完全没感恩之心

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

健康
本地
艺术
公开课
军事航空

违规干细胞应用,暗藏致命隐患!

本地新闻

用剪纸的方式,打开江苏扬州

艺术要闻

周杰伦花 1.36 亿拍下这幅画

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版