网易首页 > 网易号 > 正文 申请入驻

Claude 3.7 Sonnet发布:别提什么AGI,我Anthropic要赚企业客户的钱!

0
分享至

作者 | 王兆洋
邮箱 | wangzhaoyang@pingwest.com

Anthropic 的最新模型在加班加点赶工后正式发布。它被其称为其迄今为止最智能的模型,以及首款“混合推理模型” —— Claude 3.7 Sonnet。

Anthropic对这个新模型的一句话介绍是:

一个模型,两种思考方式(One model, two ways to think)。

新的Claude增加了“标准思考”和“扩展思考模式”两种不同选项:

“这是市场上首款混合推理模型。Claude 3.7 Sonnet能够生成近乎即时的响应,也可以进行可被用户看到的扩展式、分步推理。API用户还可以对模型的思考时间进行精细控制。Claude 3.7 Sonnet在编程和前端网页开发方面表现出显著提升。与该模型一同推出的,还有用于代理编程的命令行工具——Claude Code。Claude Code目前处于有限的研究预览阶段,它能够让开发人员直接从终端将重要的工程任务委托给Claude。”

简单说,你能最直接感受的变化是,Claude多了几个选项,变得和其他有“Think”模式的ChatBot界面更像了。

1

刷新榜单排名,但明显有取舍

此前Claude作为对标ChatGPT的模型工具,是一个强大的语言模型产品,随着OpenAI的o系列和DeepSeek R1出现,推理能力成了Claude的短板。此次它终于补上了这个今天所有顶级模型必备的能力。

根据它的评测,在主流的几个评测集上,它领先其他模型。比如在软件能力 SWE-bench Verified 测试中,Claude 3.7 Sonnet 大幅领先Claude 3.5 Sonnet、OpenAI 的 o3-mini 以及 DeepSeek R1。

在 TAU-bench 测试中也表现不错,在这个用来评估 LLM 在复杂真实场景中用户与工具交互能力的基准测试平台上,它同样实现了 SOTA 。

除了公布了一系列传统基准测试成绩,有意思的是Claude 3.7 Sonnet还表示,它可以在宝可梦游戏测试中超越其他模型。

“Claude的扩展思维和代理训练使其在许多标准评估(如OSWorld)上的表现更佳。”官方写道。而“玩《精灵宝可梦》——特别是Game Boy经典游戏《精灵宝可梦 红色版》——正是这样一项任务。”

简单说,就是让Cluade在超出通常的上下文限制下,去玩《精灵宝可梦》,通过数万次互动维持游戏进程。结果发现,Claude 3.0 Sonnet以前几乎没法离开故事起点的真新镇的家,而Claude 3.7 Sonnet改进的代理能力帮助它取得了更大的进展,它成功挑战了三位宝可梦道馆馆主(游戏中的 boss),并赢得了他们的徽章。

“Claude 3.7 Sonnet在尝试多种策略和质疑先前假设方面非常有效,这使它能够在进展过程中提升自身能力。”

Claude 3.7 Sonnet 目前可以通过所有 Claude 产品服务以及 Anthropic API、Amazon Bedrock 和 谷歌云Vertex AI 使用。但免费用户目前还是无法体验扩展思考模式。

不过,仔细看它公布的数据排名,会发现一个有意思的现象。

Claude 3.7 Sonnet的深度思考其实更适用于强逻辑推理和数学任务,在数据对比上,对于推理、数学竞赛等任务,它并没有把自己“刷到第一” ,反而DeepSeek R1 和Grok 3 的模型成绩依然得分更高。

甚至在数学上,Claude 3.7 Sonnet给自己测出的成绩也不如开源的DeepSeek R1 。但在尤其是Agentic coding的测评上,它遥遥领先其他模型。

显然Anthropic不只是对测评,也对Claude 3.7 Sonnet的能力建设有所取舍。

1

所谓“混合推理”,更像是“企业场景定制化”

此前的推理模型,往往是指一个基于某个基础语言模型,用全新的方法训练出来的行为方式完全不同的模型,比如OpenAI的o系列,和DeepSeek的R1。而Anthropic一直没有选择这个路线,而是认为基础模型和推理模型的方法都应该属于一整套模型训练方法里的不同环节。在o系列发布后,Anthropic官方也没有针锋相对的跟进,但在DeepSeek的开源冲击下,Claude团队开始加班加点压力增加,在其创始人Dario Amodei预告了多次后,Claude 3.7 Sonnet终于发布。

但在这次的官方文档中并没有对这个模型所谓的“混合”方法多做介绍,而更多是体现在功能设计上。新的Claude增加了“标准思考”和“扩展思考模式”两种不同选项,使用API 的用户则可以进一步对模型的思考时间进行更详细的控制,甚至具体到token的用量上。

根据Anthropic的说法,“Claude 3.7 Sonnet 既是普通的 LLM,又是推理模型”。用户可以选择让它正常回答,也可以让它在回答之前思考更长时间,也就是所谓的推理。

而API 用户使用 Claude 3.7 Sonnet 时,可以控制“思考预算”(the budget for thinking)。用户可以要求模型的思考限制在 N 个 token以内,N不超过128K。

所以,看起来从产品层面,它的混合推理指带的就是对token的控制,目前并没有介绍更多在模型上混合的方法和带来的能力的不同。

1

做个企业喜欢的推理模型

这种思路也直接体现在了对模型的具体场景的优化上。

据Anthropic介绍,在开发这款推理模型时,他们的优化重点并不像其他顶级推理模型那样,重点放在对数学和编程竞赛等数据的优化上。哪怕是在这款他们的首个混合推理模型上,Anthropic就已经将重点放在了“更能反映企业实际使用大模型的方式的现实任务”上了。

所以在公布的评测指标上,Claude 3.7 Sonnet 其实在推理表现的某些指标上,依然不及 o3和Grok的模型。

而Anthropic特意强调的则是用来体现模型解决 GitHub 上真实软件问题能力的 SWE-bench Verified上的表现,它超过了DeepSeek R1,和OpenAI 的 o3-mini 。

因此此次推出Claude 3.7 Sonnet的同时,Anthropic 更新了智能编码工具 Claude Code。在 Claude.ai 上的编码体验也得到更新,比如把GitHub 集成提供给所有Claude付费用户,他们可以把代码存储库直接连接到 Claude。Claude code的目标也是让开发人员把大量工程任务委托给 Claude。据其评估,它能一次完成需 45 分钟以上的人工编程任务,在测试驱动开发、大规模调试和重构代码的任务上有大幅度提升。

另一个值得注意的地方是,除了让Claude 3.7 Sonnet 的价格与其前代3.5保持一致外,(每百万输入 token 3 美元,每百万输出 token 15 美元),而且Anthropic还强调了在标准模式和思考模式里,“模型的提示词工作方式类似”——这也是一个针对企业级市场的重要的能力,企业用户们需要一个稳定的使用环境,过往模型的迭代对提示词的影响很大,不利于企业的部署。

看来,现在Anthropic想的很清楚了——在追求AGI的路上,模型已经没有壁垒了,在找到技术竞争的新模式之前,必须先要抢实打实的市场,活下去,从Cursor这样的工具开始,先把对手熬走,才能有机会赢下这场竞赛。

点个“爱心”,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

萧栝记录风土人情
2026-01-26 10:41:45
有面子!孙兴慜鼓励拜合拉木:你像年轻时的我,拼搏就能赢得机会

有面子!孙兴慜鼓励拜合拉木:你像年轻时的我,拼搏就能赢得机会

国足风云
2026-01-26 10:13:39
全都“叛变”了!台积电、三星接连宣布,外媒:中国不买了?

全都“叛变”了!台积电、三星接连宣布,外媒:中国不买了?

甜柠聊史
2026-01-26 13:56:36
鼓励老百姓捐献器官,还纳入见义勇为,这些专家到底想干啥?

鼓励老百姓捐献器官,还纳入见义勇为,这些专家到底想干啥?

眼光很亮
2026-01-25 09:19:18
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

戗词夺理
2026-01-24 16:05:41
变天信号已出现!美国没想到郑丽文会来这一招,赖清德好日子到头

变天信号已出现!美国没想到郑丽文会来这一招,赖清德好日子到头

云舟史策
2026-01-26 07:04:27
拿600万顶薪,7战一共得9分!CBA头号“混子”,惨不忍睹

拿600万顶薪,7战一共得9分!CBA头号“混子”,惨不忍睹

弄月公子
2026-01-26 08:53:27
太原一国企董事长上门殴打他人被行拘3天:本人拒绝回应,官方称已知情

太原一国企董事长上门殴打他人被行拘3天:本人拒绝回应,官方称已知情

大风新闻
2026-01-26 12:48:15
这回真洗不白了! 高调炫富的李湘再传"噩耗",被扒的"底裤"不剩

这回真洗不白了! 高调炫富的李湘再传"噩耗",被扒的"底裤"不剩

娱说瑜悦
2026-01-23 18:17:04
特朗普彻底破防,直接开骂!多国被现场点名,气愤十分窒息

特朗普彻底破防,直接开骂!多国被现场点名,气愤十分窒息

毛豆论道
2026-01-25 18:13:28
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
内幕来了!中国雷达被正名,美媒:美军向委内瑞拉投下电磁脉冲弹

内幕来了!中国雷达被正名,美媒:美军向委内瑞拉投下电磁脉冲弹

谛听骨语本尊
2026-01-26 12:24:46
一粒速效救心丸可治10多种病,别只用来治疗心梗了,一定要收藏

一粒速效救心丸可治10多种病,别只用来治疗心梗了,一定要收藏

路医生健康科普
2026-01-24 08:30:03
再见,湖人!再见,NBA的詹姆斯们!

再见,湖人!再见,NBA的詹姆斯们!

体育新角度
2026-01-26 12:20:44
央视提醒!别再吃了!这40种“食品”抽检不合格,有人天天当早餐

央视提醒!别再吃了!这40种“食品”抽检不合格,有人天天当早餐

有范又有料
2026-01-25 16:50:13
当年举报毕福剑的张清,落得何种结局?

当年举报毕福剑的张清,落得何种结局?

深度报
2026-01-22 23:29:58
笑不活了!全网最崩溃的婆婆诞生,得知儿媳怀上三胎,她就地打滚

笑不活了!全网最崩溃的婆婆诞生,得知儿媳怀上三胎,她就地打滚

火山诗话
2026-01-25 08:28:32
中国哪的酱油最好吃?经评比,这6种酱油榜上有名,你喜欢哪种?看看有没有你家乡?

中国哪的酱油最好吃?经评比,这6种酱油榜上有名,你喜欢哪种?看看有没有你家乡?

美食格物
2026-01-26 14:06:13
张宗逊明明战功高、资历老,却没能评上大将,这事儿和惹恼两大元帅毫无关系,真正原因另有他处

张宗逊明明战功高、资历老,却没能评上大将,这事儿和惹恼两大元帅毫无关系,真正原因另有他处

清风鉴史
2025-12-24 13:59:10
郭麒麟没想到,央剧《太平年》播出仅1天,朱亚文实现口碑逆转

郭麒麟没想到,央剧《太平年》播出仅1天,朱亚文实现口碑逆转

泠泠说史
2026-01-24 18:35:45
2026-01-26 20:11:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2818文章数 10431关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

国企董事长打伤要债人被拘 被打男子:80万元一直不给

头条要闻

国企董事长打伤要债人被拘 被打男子:80万元一直不给

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被实名举报代孕、插足婚姻

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

健康
手机
教育
旅游
军事航空

耳石脱落为何让人天旋地转+恶心?

手机要闻

真我Neo8手机首销周销量为上代同期200%,限时价2399元起

教育要闻

1月24日雅思大作文示范写作 | 新建建筑是否应遵循传统建筑风格

旅游要闻

以本土化破局 上海乐高乐园树立亲子赛道新标杆

军事要闻

委代总统称遭美威胁:马杜罗已死

无障碍浏览 进入关怀版