网易首页 > 网易号 > 正文 申请入驻

Claude 3.7 Sonnet发布:别提什么AGI,我Anthropic要赚企业客户的钱!

0
分享至

作者 | 王兆洋
邮箱 | wangzhaoyang@pingwest.com

Anthropic 的最新模型在加班加点赶工后正式发布。它被其称为其迄今为止最智能的模型,以及首款“混合推理模型” —— Claude 3.7 Sonnet。

Anthropic对这个新模型的一句话介绍是:

一个模型,两种思考方式(One model, two ways to think)。

新的Claude增加了“标准思考”和“扩展思考模式”两种不同选项:

“这是市场上首款混合推理模型。Claude 3.7 Sonnet能够生成近乎即时的响应,也可以进行可被用户看到的扩展式、分步推理。API用户还可以对模型的思考时间进行精细控制。Claude 3.7 Sonnet在编程和前端网页开发方面表现出显著提升。与该模型一同推出的,还有用于代理编程的命令行工具——Claude Code。Claude Code目前处于有限的研究预览阶段,它能够让开发人员直接从终端将重要的工程任务委托给Claude。”

简单说,你能最直接感受的变化是,Claude多了几个选项,变得和其他有“Think”模式的ChatBot界面更像了。

1

刷新榜单排名,但明显有取舍

此前Claude作为对标ChatGPT的模型工具,是一个强大的语言模型产品,随着OpenAI的o系列和DeepSeek R1出现,推理能力成了Claude的短板。此次它终于补上了这个今天所有顶级模型必备的能力。

根据它的评测,在主流的几个评测集上,它领先其他模型。比如在软件能力 SWE-bench Verified 测试中,Claude 3.7 Sonnet 大幅领先Claude 3.5 Sonnet、OpenAI 的 o3-mini 以及 DeepSeek R1。

在 TAU-bench 测试中也表现不错,在这个用来评估 LLM 在复杂真实场景中用户与工具交互能力的基准测试平台上,它同样实现了 SOTA 。

除了公布了一系列传统基准测试成绩,有意思的是Claude 3.7 Sonnet还表示,它可以在宝可梦游戏测试中超越其他模型。

“Claude的扩展思维和代理训练使其在许多标准评估(如OSWorld)上的表现更佳。”官方写道。而“玩《精灵宝可梦》——特别是Game Boy经典游戏《精灵宝可梦 红色版》——正是这样一项任务。”

简单说,就是让Cluade在超出通常的上下文限制下,去玩《精灵宝可梦》,通过数万次互动维持游戏进程。结果发现,Claude 3.0 Sonnet以前几乎没法离开故事起点的真新镇的家,而Claude 3.7 Sonnet改进的代理能力帮助它取得了更大的进展,它成功挑战了三位宝可梦道馆馆主(游戏中的 boss),并赢得了他们的徽章。

“Claude 3.7 Sonnet在尝试多种策略和质疑先前假设方面非常有效,这使它能够在进展过程中提升自身能力。”

Claude 3.7 Sonnet 目前可以通过所有 Claude 产品服务以及 Anthropic API、Amazon Bedrock 和 谷歌云Vertex AI 使用。但免费用户目前还是无法体验扩展思考模式。

不过,仔细看它公布的数据排名,会发现一个有意思的现象。

Claude 3.7 Sonnet的深度思考其实更适用于强逻辑推理和数学任务,在数据对比上,对于推理、数学竞赛等任务,它并没有把自己“刷到第一” ,反而DeepSeek R1 和Grok 3 的模型成绩依然得分更高。

甚至在数学上,Claude 3.7 Sonnet给自己测出的成绩也不如开源的DeepSeek R1 。但在尤其是Agentic coding的测评上,它遥遥领先其他模型。

显然Anthropic不只是对测评,也对Claude 3.7 Sonnet的能力建设有所取舍。

1

所谓“混合推理”,更像是“企业场景定制化”

此前的推理模型,往往是指一个基于某个基础语言模型,用全新的方法训练出来的行为方式完全不同的模型,比如OpenAI的o系列,和DeepSeek的R1。而Anthropic一直没有选择这个路线,而是认为基础模型和推理模型的方法都应该属于一整套模型训练方法里的不同环节。在o系列发布后,Anthropic官方也没有针锋相对的跟进,但在DeepSeek的开源冲击下,Claude团队开始加班加点压力增加,在其创始人Dario Amodei预告了多次后,Claude 3.7 Sonnet终于发布。

但在这次的官方文档中并没有对这个模型所谓的“混合”方法多做介绍,而更多是体现在功能设计上。新的Claude增加了“标准思考”和“扩展思考模式”两种不同选项,使用API 的用户则可以进一步对模型的思考时间进行更详细的控制,甚至具体到token的用量上。

根据Anthropic的说法,“Claude 3.7 Sonnet 既是普通的 LLM,又是推理模型”。用户可以选择让它正常回答,也可以让它在回答之前思考更长时间,也就是所谓的推理。

而API 用户使用 Claude 3.7 Sonnet 时,可以控制“思考预算”(the budget for thinking)。用户可以要求模型的思考限制在 N 个 token以内,N不超过128K。

所以,看起来从产品层面,它的混合推理指带的就是对token的控制,目前并没有介绍更多在模型上混合的方法和带来的能力的不同。

1

做个企业喜欢的推理模型

这种思路也直接体现在了对模型的具体场景的优化上。

据Anthropic介绍,在开发这款推理模型时,他们的优化重点并不像其他顶级推理模型那样,重点放在对数学和编程竞赛等数据的优化上。哪怕是在这款他们的首个混合推理模型上,Anthropic就已经将重点放在了“更能反映企业实际使用大模型的方式的现实任务”上了。

所以在公布的评测指标上,Claude 3.7 Sonnet 其实在推理表现的某些指标上,依然不及 o3和Grok的模型。

而Anthropic特意强调的则是用来体现模型解决 GitHub 上真实软件问题能力的 SWE-bench Verified上的表现,它超过了DeepSeek R1,和OpenAI 的 o3-mini 。

因此此次推出Claude 3.7 Sonnet的同时,Anthropic 更新了智能编码工具 Claude Code。在 Claude.ai 上的编码体验也得到更新,比如把GitHub 集成提供给所有Claude付费用户,他们可以把代码存储库直接连接到 Claude。Claude code的目标也是让开发人员把大量工程任务委托给 Claude。据其评估,它能一次完成需 45 分钟以上的人工编程任务,在测试驱动开发、大规模调试和重构代码的任务上有大幅度提升。

另一个值得注意的地方是,除了让Claude 3.7 Sonnet 的价格与其前代3.5保持一致外,(每百万输入 token 3 美元,每百万输出 token 15 美元),而且Anthropic还强调了在标准模式和思考模式里,“模型的提示词工作方式类似”——这也是一个针对企业级市场的重要的能力,企业用户们需要一个稳定的使用环境,过往模型的迭代对提示词的影响很大,不利于企业的部署。

看来,现在Anthropic想的很清楚了——在追求AGI的路上,模型已经没有壁垒了,在找到技术竞争的新模式之前,必须先要抢实打实的市场,活下去,从Cursor这样的工具开始,先把对手熬走,才能有机会赢下这场竞赛。

点个“爱心”,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
林子祥祖孙三代搭乘飞机,叶蒨文抱孙女坐头等,继子夫妇在经济舱

林子祥祖孙三代搭乘飞机,叶蒨文抱孙女坐头等,继子夫妇在经济舱

隔壁灵妹妹
2026-01-26 13:55:44
爆:原中国移动集团董事长奚国华!

爆:原中国移动集团董事长奚国华!

通信头条
2026-01-26 22:07:15
牢A是本世纪最大预言家!什么脏货都跳出来了!

牢A是本世纪最大预言家!什么脏货都跳出来了!

红色少女主播
2026-01-22 20:16:29
词穷了,已经没有适合她的词来形容她的美了

词穷了,已经没有适合她的词来形容她的美了

动物奇奇怪怪
2026-01-26 13:01:49
3679 元起!苹果突然上架 4 款翻新 iPhone

3679 元起!苹果突然上架 4 款翻新 iPhone

全是技能
2026-01-26 15:45:39
广东2025年贡献中央收入超万亿元 居全国第一

广东2025年贡献中央收入超万亿元 居全国第一

观点机构
2026-01-26 15:53:05
41岁王珞丹颜值逆袭 满满松弛感犹如少女一般

41岁王珞丹颜值逆袭 满满松弛感犹如少女一般

立真娱乐
2026-01-26 09:00:55
输电网拥堵致芝加哥电力价格跌破零

输电网拥堵致芝加哥电力价格跌破零

财联社
2026-01-27 04:56:05
“铁杆亲俄”要谢幕?匈牙利反对党强势领跑,欧尔班遭遇最强劲敌

“铁杆亲俄”要谢幕?匈牙利反对党强势领跑,欧尔班遭遇最强劲敌

補懂事的孩紙
2026-01-26 18:05:56
真实事件!普京女婿被俄罗斯亿万富翁欺负,普京助理找上门

真实事件!普京女婿被俄罗斯亿万富翁欺负,普京助理找上门

马尔科故事会
2024-11-05 13:56:12
不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

小熊侃史
2026-01-20 07:40:05
狂犬病死亡数创五年新高,为何上世纪的中医治愈案例消失了?

狂犬病死亡数创五年新高,为何上世纪的中医治愈案例消失了?

听心堂
2026-01-27 08:34:40
李亚鹏,这个人真不能细究,越挖越发现,他这个人,才真配享太庙

李亚鹏,这个人真不能细究,越挖越发现,他这个人,才真配享太庙

复转这些年
2026-01-21 23:19:37
中国赴美留学人数仍在下降,王牌考试GRE和托福或遭出售

中国赴美留学人数仍在下降,王牌考试GRE和托福或遭出售

第一财经资讯
2026-01-26 21:42:14
被官媒“点名”后,一言不发的郭晶晶,终不再顾及豪门所谓的体面

被官媒“点名”后,一言不发的郭晶晶,终不再顾及豪门所谓的体面

揽星河的笔记
2026-01-26 16:04:54
澳网男单八强全出炉:前8号种子7人晋级+05后大满贯八强第一人

澳网男单八强全出炉:前8号种子7人晋级+05后大满贯八强第一人

全景体育V
2026-01-26 20:43:02
卡里克让阿莫林颜面扫地!曼联两大球星的蜕变就是铁证

卡里克让阿莫林颜面扫地!曼联两大球星的蜕变就是铁证

夜白侃球
2026-01-26 20:16:56
老蒋曾说:亡于日本为亡国奴,亡于共产党,则为奴亦不可得

老蒋曾说:亡于日本为亡国奴,亡于共产党,则为奴亦不可得

老范谈史
2026-01-05 21:19:06
天空体育:帕奎塔加盟弗拉门戈的转会费为3580万镑

天空体育:帕奎塔加盟弗拉门戈的转会费为3580万镑

懂球帝
2026-01-26 21:45:12
10亿产业毁于贪婪?云南毒红薯后续:无辜农户亩亏数千

10亿产业毁于贪婪?云南毒红薯后续:无辜农户亩亏数千

爱下厨的阿椅
2026-01-26 06:45:40
2026-01-27 10:19:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2818文章数 10431关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

英国首相访华前高调表态:前几任首相不去中国是失职

头条要闻

英国首相访华前高调表态:前几任首相不去中国是失职

体育要闻

带着母亲遗愿战斗12年,交易添头成了队魂

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

金价狂飙 “牛市神话”未完待续

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

亲子
旅游
本地
公开课
军事航空

亲子要闻

吃动防护全安排!一文搞定孩子寒假健康

旅游要闻

各地解锁冰雪旅游新玩法 打造经济新增长点

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委代总统称遭美威胁:马杜罗已死

无障碍浏览 进入关怀版