网易首页 > 网易号 > 正文 申请入驻

Claude 3.7 Sonnet发布:别提什么AGI,我Anthropic要赚企业客户的钱!

0
分享至

作者 | 王兆洋
邮箱 | wangzhaoyang@pingwest.com

Anthropic 的最新模型在加班加点赶工后正式发布。它被其称为其迄今为止最智能的模型,以及首款“混合推理模型” —— Claude 3.7 Sonnet。

Anthropic对这个新模型的一句话介绍是:

一个模型,两种思考方式(One model, two ways to think)。

新的Claude增加了“标准思考”和“扩展思考模式”两种不同选项:

“这是市场上首款混合推理模型。Claude 3.7 Sonnet能够生成近乎即时的响应,也可以进行可被用户看到的扩展式、分步推理。API用户还可以对模型的思考时间进行精细控制。Claude 3.7 Sonnet在编程和前端网页开发方面表现出显著提升。与该模型一同推出的,还有用于代理编程的命令行工具——Claude Code。Claude Code目前处于有限的研究预览阶段,它能够让开发人员直接从终端将重要的工程任务委托给Claude。”

简单说,你能最直接感受的变化是,Claude多了几个选项,变得和其他有“Think”模式的ChatBot界面更像了。

1

刷新榜单排名,但明显有取舍

此前Claude作为对标ChatGPT的模型工具,是一个强大的语言模型产品,随着OpenAI的o系列和DeepSeek R1出现,推理能力成了Claude的短板。此次它终于补上了这个今天所有顶级模型必备的能力。

根据它的评测,在主流的几个评测集上,它领先其他模型。比如在软件能力 SWE-bench Verified 测试中,Claude 3.7 Sonnet 大幅领先Claude 3.5 Sonnet、OpenAI 的 o3-mini 以及 DeepSeek R1。

在 TAU-bench 测试中也表现不错,在这个用来评估 LLM 在复杂真实场景中用户与工具交互能力的基准测试平台上,它同样实现了 SOTA 。

除了公布了一系列传统基准测试成绩,有意思的是Claude 3.7 Sonnet还表示,它可以在宝可梦游戏测试中超越其他模型。

“Claude的扩展思维和代理训练使其在许多标准评估(如OSWorld)上的表现更佳。”官方写道。而“玩《精灵宝可梦》——特别是Game Boy经典游戏《精灵宝可梦 红色版》——正是这样一项任务。”

简单说,就是让Cluade在超出通常的上下文限制下,去玩《精灵宝可梦》,通过数万次互动维持游戏进程。结果发现,Claude 3.0 Sonnet以前几乎没法离开故事起点的真新镇的家,而Claude 3.7 Sonnet改进的代理能力帮助它取得了更大的进展,它成功挑战了三位宝可梦道馆馆主(游戏中的 boss),并赢得了他们的徽章。

“Claude 3.7 Sonnet在尝试多种策略和质疑先前假设方面非常有效,这使它能够在进展过程中提升自身能力。”

Claude 3.7 Sonnet 目前可以通过所有 Claude 产品服务以及 Anthropic API、Amazon Bedrock 和 谷歌云Vertex AI 使用。但免费用户目前还是无法体验扩展思考模式。

不过,仔细看它公布的数据排名,会发现一个有意思的现象。

Claude 3.7 Sonnet的深度思考其实更适用于强逻辑推理和数学任务,在数据对比上,对于推理、数学竞赛等任务,它并没有把自己“刷到第一” ,反而DeepSeek R1 和Grok 3 的模型成绩依然得分更高。

甚至在数学上,Claude 3.7 Sonnet给自己测出的成绩也不如开源的DeepSeek R1 。但在尤其是Agentic coding的测评上,它遥遥领先其他模型。

显然Anthropic不只是对测评,也对Claude 3.7 Sonnet的能力建设有所取舍。

1

所谓“混合推理”,更像是“企业场景定制化”

此前的推理模型,往往是指一个基于某个基础语言模型,用全新的方法训练出来的行为方式完全不同的模型,比如OpenAI的o系列,和DeepSeek的R1。而Anthropic一直没有选择这个路线,而是认为基础模型和推理模型的方法都应该属于一整套模型训练方法里的不同环节。在o系列发布后,Anthropic官方也没有针锋相对的跟进,但在DeepSeek的开源冲击下,Claude团队开始加班加点压力增加,在其创始人Dario Amodei预告了多次后,Claude 3.7 Sonnet终于发布。

但在这次的官方文档中并没有对这个模型所谓的“混合”方法多做介绍,而更多是体现在功能设计上。新的Claude增加了“标准思考”和“扩展思考模式”两种不同选项,使用API 的用户则可以进一步对模型的思考时间进行更详细的控制,甚至具体到token的用量上。

根据Anthropic的说法,“Claude 3.7 Sonnet 既是普通的 LLM,又是推理模型”。用户可以选择让它正常回答,也可以让它在回答之前思考更长时间,也就是所谓的推理。

而API 用户使用 Claude 3.7 Sonnet 时,可以控制“思考预算”(the budget for thinking)。用户可以要求模型的思考限制在 N 个 token以内,N不超过128K。

所以,看起来从产品层面,它的混合推理指带的就是对token的控制,目前并没有介绍更多在模型上混合的方法和带来的能力的不同。

1

做个企业喜欢的推理模型

这种思路也直接体现在了对模型的具体场景的优化上。

据Anthropic介绍,在开发这款推理模型时,他们的优化重点并不像其他顶级推理模型那样,重点放在对数学和编程竞赛等数据的优化上。哪怕是在这款他们的首个混合推理模型上,Anthropic就已经将重点放在了“更能反映企业实际使用大模型的方式的现实任务”上了。

所以在公布的评测指标上,Claude 3.7 Sonnet 其实在推理表现的某些指标上,依然不及 o3和Grok的模型。

而Anthropic特意强调的则是用来体现模型解决 GitHub 上真实软件问题能力的 SWE-bench Verified上的表现,它超过了DeepSeek R1,和OpenAI 的 o3-mini 。

因此此次推出Claude 3.7 Sonnet的同时,Anthropic 更新了智能编码工具 Claude Code。在 Claude.ai 上的编码体验也得到更新,比如把GitHub 集成提供给所有Claude付费用户,他们可以把代码存储库直接连接到 Claude。Claude code的目标也是让开发人员把大量工程任务委托给 Claude。据其评估,它能一次完成需 45 分钟以上的人工编程任务,在测试驱动开发、大规模调试和重构代码的任务上有大幅度提升。

另一个值得注意的地方是,除了让Claude 3.7 Sonnet 的价格与其前代3.5保持一致外,(每百万输入 token 3 美元,每百万输出 token 15 美元),而且Anthropic还强调了在标准模式和思考模式里,“模型的提示词工作方式类似”——这也是一个针对企业级市场的重要的能力,企业用户们需要一个稳定的使用环境,过往模型的迭代对提示词的影响很大,不利于企业的部署。

看来,现在Anthropic想的很清楚了——在追求AGI的路上,模型已经没有壁垒了,在找到技术竞争的新模式之前,必须先要抢实打实的市场,活下去,从Cursor这样的工具开始,先把对手熬走,才能有机会赢下这场竞赛。

点个“爱心”,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
事情闹大了?日本内阁连发公告,中国态度 告诉了世界一个铁的事实

事情闹大了?日本内阁连发公告,中国态度 告诉了世界一个铁的事实

呼呼历史论
2026-03-26 14:28:13
张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

暖心萌阿菇凉
2026-03-25 22:01:09
抗日战争的转折点是什么?为何这场大战后,日本高层面如死灰

抗日战争的转折点是什么?为何这场大战后,日本高层面如死灰

诺言卿史录
2026-03-21 09:32:10
手握5个CBA冠军,曾获吉尼斯世界纪录,37岁不退役,仍在赛场拼搏

手握5个CBA冠军,曾获吉尼斯世界纪录,37岁不退役,仍在赛场拼搏

泠泠说史
2026-03-25 21:46:54
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
A股市场全线收绿,沪指低开低走下跌40点,五日均线再次失守

A股市场全线收绿,沪指低开低走下跌40点,五日均线再次失守

投资观
2026-03-26 14:59:17
韦世豪有牌面,登上FIFA海报!国足vs库拉索首发浮现,打平踢点球

韦世豪有牌面,登上FIFA海报!国足vs库拉索首发浮现,打平踢点球

球场没跑道
2026-03-26 12:12:22
比亚迪官宣,3月29日,新车预售发布

比亚迪官宣,3月29日,新车预售发布

沙雕小琳琳
2026-03-26 14:24:53
雷军晒成绩:小米SU7、YU7双双第一!

雷军晒成绩:小米SU7、YU7双双第一!

快科技
2026-03-26 13:09:04
陈羽凡现状:低调生活,50岁胖到认不出,17岁儿子1米8长得像妈

陈羽凡现状:低调生活,50岁胖到认不出,17岁儿子1米8长得像妈

三公子娱乐丫
2025-05-17 17:59:45
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

奥字侃剧
2026-03-25 08:29:10
中疾控发布提示:我国面临较大疫情输入风险

中疾控发布提示:我国面临较大疫情输入风险

随州派
2026-03-24 11:44:16
14年过去了,再看“癞蛤蟆吃到天鹅肉”的王大治,如今怎么样了?

14年过去了,再看“癞蛤蟆吃到天鹅肉”的王大治,如今怎么样了?

以茶带书
2026-03-12 18:13:51
这才是大国重器!中国正式摊牌,目标800万亿宝藏,美欧噩梦成真

这才是大国重器!中国正式摊牌,目标800万亿宝藏,美欧噩梦成真

说宇宙
2026-03-25 14:36:48
人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

风起见你
2026-03-16 11:07:25
55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

睡前讲故事
2025-12-12 13:58:11
4-3爆冷!中国队双杀亚洲劲旅,比5连胜更惊喜的,又出现一个李昊

4-3爆冷!中国队双杀亚洲劲旅,比5连胜更惊喜的,又出现一个李昊

侃球熊弟
2026-03-26 00:35:10
内塔尼亚胡称“继续全力”空袭伊朗 美媒称以方担心特朗普突然停战

内塔尼亚胡称“继续全力”空袭伊朗 美媒称以方担心特朗普突然停战

环球网资讯
2026-03-26 06:26:07
"第一软饭男"去世了,伺候美国老妇13年,继承268亿,死后钱给谁

"第一软饭男"去世了,伺候美国老妇13年,继承268亿,死后钱给谁

毒sir财经
2025-12-08 22:57:40
2026-03-26 15:48:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2959文章数 10472关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
时尚
艺术
公开课
军事航空

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

皮衣+裙,高级到炸

艺术要闻

哪一座桥不是风景?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版