网易首页 > 网易号 > 正文 申请入驻

Claude 3.7 Sonnet发布:别提什么AGI,我Anthropic要赚企业客户的钱!

0
分享至

作者 | 王兆洋
邮箱 | wangzhaoyang@pingwest.com

Anthropic 的最新模型在加班加点赶工后正式发布。它被其称为其迄今为止最智能的模型,以及首款“混合推理模型” —— Claude 3.7 Sonnet。

Anthropic对这个新模型的一句话介绍是:

一个模型,两种思考方式(One model, two ways to think)。

新的Claude增加了“标准思考”和“扩展思考模式”两种不同选项:

“这是市场上首款混合推理模型。Claude 3.7 Sonnet能够生成近乎即时的响应,也可以进行可被用户看到的扩展式、分步推理。API用户还可以对模型的思考时间进行精细控制。Claude 3.7 Sonnet在编程和前端网页开发方面表现出显著提升。与该模型一同推出的,还有用于代理编程的命令行工具——Claude Code。Claude Code目前处于有限的研究预览阶段,它能够让开发人员直接从终端将重要的工程任务委托给Claude。”

简单说,你能最直接感受的变化是,Claude多了几个选项,变得和其他有“Think”模式的ChatBot界面更像了。

1

刷新榜单排名,但明显有取舍

此前Claude作为对标ChatGPT的模型工具,是一个强大的语言模型产品,随着OpenAI的o系列和DeepSeek R1出现,推理能力成了Claude的短板。此次它终于补上了这个今天所有顶级模型必备的能力。

根据它的评测,在主流的几个评测集上,它领先其他模型。比如在软件能力 SWE-bench Verified 测试中,Claude 3.7 Sonnet 大幅领先Claude 3.5 Sonnet、OpenAI 的 o3-mini 以及 DeepSeek R1。

在 TAU-bench 测试中也表现不错,在这个用来评估 LLM 在复杂真实场景中用户与工具交互能力的基准测试平台上,它同样实现了 SOTA 。

除了公布了一系列传统基准测试成绩,有意思的是Claude 3.7 Sonnet还表示,它可以在宝可梦游戏测试中超越其他模型。

“Claude的扩展思维和代理训练使其在许多标准评估(如OSWorld)上的表现更佳。”官方写道。而“玩《精灵宝可梦》——特别是Game Boy经典游戏《精灵宝可梦 红色版》——正是这样一项任务。”

简单说,就是让Cluade在超出通常的上下文限制下,去玩《精灵宝可梦》,通过数万次互动维持游戏进程。结果发现,Claude 3.0 Sonnet以前几乎没法离开故事起点的真新镇的家,而Claude 3.7 Sonnet改进的代理能力帮助它取得了更大的进展,它成功挑战了三位宝可梦道馆馆主(游戏中的 boss),并赢得了他们的徽章。

“Claude 3.7 Sonnet在尝试多种策略和质疑先前假设方面非常有效,这使它能够在进展过程中提升自身能力。”

Claude 3.7 Sonnet 目前可以通过所有 Claude 产品服务以及 Anthropic API、Amazon Bedrock 和 谷歌云Vertex AI 使用。但免费用户目前还是无法体验扩展思考模式。

不过,仔细看它公布的数据排名,会发现一个有意思的现象。

Claude 3.7 Sonnet的深度思考其实更适用于强逻辑推理和数学任务,在数据对比上,对于推理、数学竞赛等任务,它并没有把自己“刷到第一” ,反而DeepSeek R1 和Grok 3 的模型成绩依然得分更高。

甚至在数学上,Claude 3.7 Sonnet给自己测出的成绩也不如开源的DeepSeek R1 。但在尤其是Agentic coding的测评上,它遥遥领先其他模型。

显然Anthropic不只是对测评,也对Claude 3.7 Sonnet的能力建设有所取舍。

1

所谓“混合推理”,更像是“企业场景定制化”

此前的推理模型,往往是指一个基于某个基础语言模型,用全新的方法训练出来的行为方式完全不同的模型,比如OpenAI的o系列,和DeepSeek的R1。而Anthropic一直没有选择这个路线,而是认为基础模型和推理模型的方法都应该属于一整套模型训练方法里的不同环节。在o系列发布后,Anthropic官方也没有针锋相对的跟进,但在DeepSeek的开源冲击下,Claude团队开始加班加点压力增加,在其创始人Dario Amodei预告了多次后,Claude 3.7 Sonnet终于发布。

但在这次的官方文档中并没有对这个模型所谓的“混合”方法多做介绍,而更多是体现在功能设计上。新的Claude增加了“标准思考”和“扩展思考模式”两种不同选项,使用API 的用户则可以进一步对模型的思考时间进行更详细的控制,甚至具体到token的用量上。

根据Anthropic的说法,“Claude 3.7 Sonnet 既是普通的 LLM,又是推理模型”。用户可以选择让它正常回答,也可以让它在回答之前思考更长时间,也就是所谓的推理。

而API 用户使用 Claude 3.7 Sonnet 时,可以控制“思考预算”(the budget for thinking)。用户可以要求模型的思考限制在 N 个 token以内,N不超过128K。

所以,看起来从产品层面,它的混合推理指带的就是对token的控制,目前并没有介绍更多在模型上混合的方法和带来的能力的不同。

1

做个企业喜欢的推理模型

这种思路也直接体现在了对模型的具体场景的优化上。

据Anthropic介绍,在开发这款推理模型时,他们的优化重点并不像其他顶级推理模型那样,重点放在对数学和编程竞赛等数据的优化上。哪怕是在这款他们的首个混合推理模型上,Anthropic就已经将重点放在了“更能反映企业实际使用大模型的方式的现实任务”上了。

所以在公布的评测指标上,Claude 3.7 Sonnet 其实在推理表现的某些指标上,依然不及 o3和Grok的模型。

而Anthropic特意强调的则是用来体现模型解决 GitHub 上真实软件问题能力的 SWE-bench Verified上的表现,它超过了DeepSeek R1,和OpenAI 的 o3-mini 。

因此此次推出Claude 3.7 Sonnet的同时,Anthropic 更新了智能编码工具 Claude Code。在 Claude.ai 上的编码体验也得到更新,比如把GitHub 集成提供给所有Claude付费用户,他们可以把代码存储库直接连接到 Claude。Claude code的目标也是让开发人员把大量工程任务委托给 Claude。据其评估,它能一次完成需 45 分钟以上的人工编程任务,在测试驱动开发、大规模调试和重构代码的任务上有大幅度提升。

另一个值得注意的地方是,除了让Claude 3.7 Sonnet 的价格与其前代3.5保持一致外,(每百万输入 token 3 美元,每百万输出 token 15 美元),而且Anthropic还强调了在标准模式和思考模式里,“模型的提示词工作方式类似”——这也是一个针对企业级市场的重要的能力,企业用户们需要一个稳定的使用环境,过往模型的迭代对提示词的影响很大,不利于企业的部署。

看来,现在Anthropic想的很清楚了——在追求AGI的路上,模型已经没有壁垒了,在找到技术竞争的新模式之前,必须先要抢实打实的市场,活下去,从Cursor这样的工具开始,先把对手熬走,才能有机会赢下这场竞赛。

点个“爱心”,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
破防!31岁林高远正式退出国家队,未圆奥运梦,31岁单身只为守护母亲

破防!31岁林高远正式退出国家队,未圆奥运梦,31岁单身只为守护母亲

最爱乒乓球
2026-01-26 00:10:35
2026 命最好的 3 大生肖!喜事扎堆降临,第一名富到没朋友

2026 命最好的 3 大生肖!喜事扎堆降临,第一名富到没朋友

人閒情事
2026-01-16 16:18:36
央视提醒!别再吃了!这40种“食品”抽检不合格,有人天天当早餐

央视提醒!别再吃了!这40种“食品”抽检不合格,有人天天当早餐

有范又有料
2026-01-25 16:50:13
西安易俗社发布讣告:桑梓同志逝世

西安易俗社发布讣告:桑梓同志逝世

环球网资讯
2026-01-26 18:24:59
多只权重股尾盘现巨额压单 紫金矿业压单金额超40亿元

多只权重股尾盘现巨额压单 紫金矿业压单金额超40亿元

财联社
2026-01-26 15:13:29
什么叫五胡十六国,什么叫五代十国?两者有何区别?一文说清楚

什么叫五胡十六国,什么叫五代十国?两者有何区别?一文说清楚

长风文史
2025-12-22 18:50:05
委内瑞拉已经倒下了,中国终于出手,另一个反美国家绝不能倒

委内瑞拉已经倒下了,中国终于出手,另一个反美国家绝不能倒

阿芒娱乐说
2026-01-26 12:54:12
向太太敢说了!自曝向华强今年已经78了,但是她和向华强还有X生活!

向太太敢说了!自曝向华强今年已经78了,但是她和向华强还有X生活!

八星人
2026-01-25 09:38:04
震惊!你绝对想不到艾滋病高发地是这里!

震惊!你绝对想不到艾滋病高发地是这里!

特约前排观众
2026-01-15 00:10:08
美军连夜撤离,把台湾扔给解放军!055带刀侍卫杀到,北京:收网

美军连夜撤离,把台湾扔给解放军!055带刀侍卫杀到,北京:收网

素衣读史
2026-01-22 19:13:20
毛主席的稿费到底有多少?2013年“管家”吴连登道出不为人知真相

毛主席的稿费到底有多少?2013年“管家”吴连登道出不为人知真相

浩舞默画
2026-01-25 07:20:03
婆婆赶我出门,全家当没发生,我立刻挂失工资卡,他们急得团团转

婆婆赶我出门,全家当没发生,我立刻挂失工资卡,他们急得团团转

兰姐说故事
2025-12-04 16:05:05
81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

揽星河的笔记
2025-11-12 12:36:17
2025年度十大刑事案件

2025年度十大刑事案件

微法官
2026-01-26 06:53:04
国家市场监管总局副局长孟扬兼任中国品牌建设促进会理事长

国家市场监管总局副局长孟扬兼任中国品牌建设促进会理事长

澎湃新闻
2026-01-25 22:47:05
47岁的秦海璐:每月给丧子丧夫的婆婆生活费,以后我就是您亲女儿

47岁的秦海璐:每月给丧子丧夫的婆婆生活费,以后我就是您亲女儿

洲洲影视娱评
2026-01-24 19:12:56
王欣瑜0-2出局!原因曝光,听听她赛后怎么说,詹俊点评一针见血

王欣瑜0-2出局!原因曝光,听听她赛后怎么说,詹俊点评一针见血

体育就你秀
2026-01-26 17:35:56
小玥儿和小箖箖在北京与张兰互动,这才是亲人应有的样子

小玥儿和小箖箖在北京与张兰互动,这才是亲人应有的样子

眼底星碎
2026-01-26 08:15:23
黄晓明一身肌肉火出圈,打了多少“假肌肉”男明星的脸?

黄晓明一身肌肉火出圈,打了多少“假肌肉”男明星的脸?

娱乐圈十三太保
2026-01-23 15:25:54
随着太阳102-111憾负热火马刺输球 西部积分榜:西部2-7名太乱了

随着太阳102-111憾负热火马刺输球 西部积分榜:西部2-7名太乱了

篮球看比赛
2026-01-26 12:43:04
2026-01-26 21:43:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2818文章数 10431关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

村民用无人机吊运年猪挂住高压线致停电 维修成本近万

头条要闻

村民用无人机吊运年猪挂住高压线致停电 维修成本近万

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

游戏
艺术
数码
旅游
健康

专坑日本人?日区iOS商店又现国产山寨《宝可梦》游戏

艺术要闻

溥心畬的花鸟,淡雅清新

数码要闻

首发可用NVIDIA DLSS 4.5,480帧的《明日方舟:终末地》体验如何

旅游要闻

“最虹桥”文旅季,来长宁骑行“寻马吉”,逛愚园路有专业导游

耳石脱落为何让人天旋地转+恶心?

无障碍浏览 进入关怀版