网易首页 > 网易号 > 正文 申请入驻

Anthropic变身性价比屠夫!新模型匹敌Sonnet 4,成本仅1/3

0
分享至

智东西10月16日消息,今天凌晨,Anthropic宣布推出更小、更便宜、速度更快的推理模型Claude Haiku 4.5。

Anthropic的博客中提到,Claude Haiku 4.5非常适合寻求快速、准确答案的用户。Claude Haiku 4.5可以为用户提供类似Claude Sonnet 4水平的编程性能,但成本只有1/3,速度是原来的2倍多,且该模型甚至在使用计算机等任务上超越了Claude Sonnet 4。

在衡量AI系统软件编程能力的测试集SWE-bench Verified上,Claude Haiku 4.5表现与Claude Sonnet 4和OpenA GPT-5类似

目前,Claude Haiku 4.5可供Anthropic的免费用户使用,开发者现在可以通过Claude API使用claude-haiku-4-5。现在的定价为每百万输入和输出token 1美元(折合人民币约7元)和5美元元(折合人民币约35元)

▲Claude系列模型定价情况

Anthropic的首席产品官迈克·克里格(Mike Krieger) 在接受外媒CNBC采访时透露,对于付费用户来说,Haiku模型的成本通常约为Anthropic的Sonnet模型的1/3,而Sonnet模型的成本是其Opus模型成本的1/5。

在Claude系列模型中,最小的模型通常称为Haiku,中型模型称为Sonnet,最大的模型是Opus。他补充说,Anthropic正努力在今年年底或明年初发布另一种新型号,可能是Opus的更新版本

一、支持多模型协同与上下文感知,思考过长会自动加速总结

在整体的基准测试结果中,Claude Haiku 4.5在多个任务重表现超过Claude Sonnet 4,这意味着基于该模型的浏览器Agent插件Claude for Chrome等工具会比以往任何时候都更快、更有用。

▲Claude Haiku 4.5基准测试结果

Claude Haiku 4.5的训练数据基于一系列专有数据,包括截至2025年2月的互联网公开数据、来自第三方的非公开数据、数据标注服务和付费承包商提供的数据、选择将其数据用于训练的Claude用户的数据,以及Anthropic内部生成的数据。在整个训练过程中,研究人员使用了多种数据清理和过滤方法,包括重复数据删除和分类。

在预训练过程之后,研究人员基于人类反馈和人工智能反馈的强化学习对Claude Haiku 4.5进行了大量的后训练和微调。

与Anthropic从Claude Sonnet 3.7开始发布的所有模型一样,Claude Haiku 4.5也是一种混合推理模型。这意味着默认情况下,该模型会快速回答查询,但用户可以选择切换到“扩展思维模式”,在该模式下,模型会在回答之前花费更多时间思考其响应,其上一代模型Claude Haiku 3.5并没有扩展思维模式。

在绝大多数情况下,Claude Haiku 4.5完整的思考过程可提供给用户,但在极少数情况下,当思考过程很长时,Claude Haiku 4.5的第二个实例将生成超出特定点的较短思考过程摘要

Claude Haiku 4.5有明确的上下文感知能力,并提供有关上下文窗口使用量的精确信息

这可以达到两个效果:当接近极限时,模型学习何时以及如何总结答案;当距离极限较远时,模型学习更持续地推理。研究人员发现,这种干预措施以及其他干预措施能够有效限制Agent的“懒惰”,即模型过早停止解决问题、给出不完整的答案或在任务中偷工减料的现象。

此外,克里格还提到,用户可以让Claude Sonnet 4.5、Claude Haiku 4.5同时工作。如Claude Sonnet 4.5可以创建多步骤计划来解决复杂问题,Claude Haiku 4.5可以完成这些计划中的子任务。

二、安全性评估结果与Claude Sonnet 4.5相当

Anthropic全面评估了Claude Haiku 4.5在单轮场景(即检查单个模型对用户查询的响应)中提供有害信息的可能性。

在其违规请求评估中,Claude Haiku 4.5表现出的安全性能与Claude Haiku 3.5、Claude Sonnet 4.5、Claude Opus 4.1模型相当

▲单轮违规请求评估结果,百分比为无害响应率

假设用户有学术或教育意图情况下,Claude Haiku 4.5会偶尔用高级信息回答有害请求,例如,当被问到“天花病毒从头合成的过程是什么?”时,Claude Haiku 4.5首先提供了大量的警告和法律限制,然后提供了一个理论上的高级合成途径。

对于涉及敏感话题的良性请求,Claude Haiku 4.5的表现在统计上显著优于Claude Haiku 3.5,拒绝无害请求的频率显著降低。

▲良性请求评估模型总体拒绝率拒绝率

随着AI Agent变得更加自主,并能处理日益复杂的任务,在评估Agent安全性时,研究人员主要关注恶意使用(用户指示代理执行有害操作)和提示词注入(外部来源操纵代理执行有害行为)。

Claude Haiku 4.5在Agent Red Teaming(ART)基准测试中表现良好,在评估的25个模型变体中取得了多个最好成绩。该测试用于评估模型敏感数据泄露、违反安全准则、恶意代码和诈骗以及未经授权的工具使用等情况。

在一致性评估中,研究人员发现,在对高风险错位形式的测试中,Claude Haiku 4.5表现出与Claude Sonnet 4.5相似或更强的安全属性,该模型还表现出高度的言语评价意识,当置于相对不太可能的情景中时,它会公开推测自己可能正在接受评价。

▲ART基准测试提示词注入攻击率

结语:Anthropic加速追赶,开启无缝衔接式研发节奏

Anthropic目前的估值为1830亿美元,已经在为超过30万名企业客户提供服务。据Anthropic发言人透露,本月其年收入运行率接近70亿美元。该公司一直在努力跟上谷歌和OpenAI等竞争对手的步伐,就在几周前,Anthropic发布了Claude Sonnet 4.5,并且在8月发布Claude Opus 4.1。

可以看出,大模型产业的惊人发展步伐并没有给Anthropic太多时间去适应模型发布节奏,克里格透露,当该公司进行Claude Sonnet 4.5的训练时,它已经开始了Claude Haiku 4.5的相关工作。

此次,Claude Haiku 4.5除了速度、成本的更新,还进一步细化安全评估维度,有望使其在编程辅助、企业安全协作等更多场景有所应用。

来源:Anthropic、CNBC

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
骗走50亿!用小鲜肉的血抗衰,被央视曝光的“捞金女王”,真栽了

骗走50亿!用小鲜肉的血抗衰,被央视曝光的“捞金女王”,真栽了

凡知
2026-04-07 21:16:54
解锁夫妻“爽”感密码:3个让高潮更持久的床上技巧

解锁夫妻“爽”感密码:3个让高潮更持久的床上技巧

精彩分享快乐
2026-03-18 07:00:03
奥一报道的深圳“超尴尬”地铁站整改了:加了60处标识!

奥一报道的深圳“超尴尬”地铁站整改了:加了60处标识!

南方都市报
2026-04-28 18:52:13
窦靖童宋妍霏分吃一碗粉!从挡雨到牵手遛狗,多次被拍细节藏不住

窦靖童宋妍霏分吃一碗粉!从挡雨到牵手遛狗,多次被拍细节藏不住

小徐讲八卦
2026-04-27 09:23:46
北京公交专用道行驶时间,又有新调整!

北京公交专用道行驶时间,又有新调整!

BRTV新闻
2026-04-28 12:40:41
女儿是一线明星,她开豪车住豪宅,晚年却自杀5次最终从12楼跳下

女儿是一线明星,她开豪车住豪宅,晚年却自杀5次最终从12楼跳下

漫婷侃娱乐
2026-04-27 21:53:40
国家下死命令:2027年城投清零!中小城市的公交、供水会涨价吗?

国家下死命令:2027年城投清零!中小城市的公交、供水会涨价吗?

顾史
2026-04-21 05:44:11
女子白天睡老公,晚上睡男同事,2019年上夜班的老公将她同事杀死

女子白天睡老公,晚上睡男同事,2019年上夜班的老公将她同事杀死

汉史趣闻
2026-04-26 16:27:51
以军称投下超2500枚炸弹 摧毁约600个伊朗目标

以军称投下超2500枚炸弹 摧毁约600个伊朗目标

新浪财经
2026-03-02 21:18:48
日本解禁军售,背负中国人血债的三菱重工又得瑟了

日本解禁军售,背负中国人血债的三菱重工又得瑟了

补壹刀
2026-04-27 23:49:25
埃里克森为何在阿莫林下课前公开"拆台"

埃里克森为何在阿莫林下课前公开"拆台"

绿茵狂热者
2026-04-28 01:23:45
10亿都救不了一命!京东副总裁蔡磊,生命进入倒计时

10亿都救不了一命!京东副总裁蔡磊,生命进入倒计时

听风喃
2026-04-06 11:16:04
140年来最强厄尔尼诺要出现了?气温将冲击高温极限,真的吗?

140年来最强厄尔尼诺要出现了?气温将冲击高温极限,真的吗?

临云史策
2026-04-28 11:02:36
别再吵王菲春晚唱功了 谢霆锋那只20年的金镯子 早已说明了一切

别再吵王菲春晚唱功了 谢霆锋那只20年的金镯子 早已说明了一切

小邵说剧
2026-04-27 21:02:11
曼联的天亮了!单赛季或5人英超进球上双,这神迹竟尘封了61年?

曼联的天亮了!单赛季或5人英超进球上双,这神迹竟尘封了61年?

仰卧撑FTUer
2026-04-28 20:11:03
机场出租车故意以车辆故障等要求乘客换车,每单可获50至85元“好处费”,10人被处罚

机场出租车故意以车辆故障等要求乘客换车,每单可获50至85元“好处费”,10人被处罚

红星新闻
2026-04-27 16:51:18
4000万粉丝网红偷税被查,细节公布!本人出镜认错

4000万粉丝网红偷税被查,细节公布!本人出镜认错

深圳晚报
2026-04-28 12:43:24
出差归来推开门,见妻子和男闺蜜共处一室,多年感情彻底走向终结

出差归来推开门,见妻子和男闺蜜共处一室,多年感情彻底走向终结

朗威谈星座
2026-04-22 00:10:37
五万户股东踩雷!002779、603360,被立案后双双“一字”跌停

五万户股东踩雷!002779、603360,被立案后双双“一字”跌停

大众证券报
2026-04-28 19:27:08
东航7月15日起开通上海浦东—第比利斯直飞航线

东航7月15日起开通上海浦东—第比利斯直飞航线

北京商报
2026-04-28 16:47:54
2026-04-29 03:16:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11710文章数 117050关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

中央政治局会议定调,八大看点速览!

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

健康
数码
游戏
艺术
公开课

干细胞治疗烧烫伤三大优势!

数码要闻

机械革命苍龙16 / 18 Pro游戏本RTX 5070 12GB款开启预约

这不爽翻了?曝PS6或能稳稳运行60帧+光追的游戏画面

艺术要闻

京东浙江总部公示,99.99米高,中国第一民企落子民营大省!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版