网易首页 > 网易号 > 正文 申请入驻

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

0
分享至

新智元报道

编辑:编辑部 JHNY

【新智元导读】就在刚刚,Anthropic祭出首个混合推理Claude 3.7 Sonnet,堪称扩展思考模式的最强模型。在最新编码测试中,新模型暴击o3-mini、DeepSeek R1,AI编码王者出世了。

憋了大半年,Anthropic终于放出大招——首款混合推理模型Claude 3.7 Sonnet重磅登场!

这是Claude系列中,迄今为止最智能的模型,几乎能够及时响应,并进行可扩展的、逐步的思考。

简言之,一个模型,两种思考方式。

假设你想破解一个博弈论数学问题——蒙提霍尔问题,扔给Claude 3.7 Sonnet,然后同时选择「Extended」模式。

它便会展示详细CoT过程,用时52秒就完成了。

最关键的是,Claude 3.7 Sonnet目前所有人免费可用,目前「扩展思考」模式还没有上线。

在多项基准测试中,「扩展思考」模式加持下的Claude 3.7 Sonnet,在数学、物理、指令执行、编程等刷新SOTA。

相较于上一代Claude 3.5 Sonnet,数学、编码能力更是暴涨10%以上。

除了数学,Claude 3.7 Sonnet(64k extended thinking)几乎完全碾压o3-mini,DeepSeek R1,与Grok 3不相上下。

API用户可以精确控制模型的思考时间

可以说,Claude 3.7 Sonnet完全是一个最强「软件工程AI」。在SWE-bench上,创下了70.3%的高分。

与此同时,首款「智能体编程」工具Claude Code(预览版)也在今天问世了。

如今,它已经成为Anthropic内部,不可或缺的工具。在早期测试中,Claude一次性就完成人类需要45分钟的任务。

也就是说,你做产品经理,AI给你打工写代码。

虽没有Claude 4,Anthropic这波突如其来的打法,实属给AI界又一震撼。

这半个月,注定是2025开年以来AI含金量最高的。

Grok 3上周刚发布,这周DeepSeek连续开源5天,OpenAI GPT-4.5据称也要上线,再加上Claude 3.7 Sonnet,大模型领域的混战又开始了。

全球首款「混合推理」模型诞生

在官方博文中,Anthropic称,Claude 3.7 Sonnet是Anthropic迄今为止最智能的模型,也是市场上首个混合推理模型。

Claude 3.7 Sonnet能够产生几乎即时的响应或逐步展示思考过程的详细步骤,这些步骤对用户是可见的。API用户还可以精细控制模型的思考时间。

在编码和前端网页开发方面,Claude 3.7 Sonnet得到显著提升。

除此之外,他们还推出了一款名为Claude Code的命令行工具,用于智能体编码。

目前,Claude Code仅作为有限的研究预览版提供,它使开发人员能够直接从他们的终端将大量的工程任务委托给Claude。

推理,是一个LLM整体能力

Claude 3.7 Sonnet的设计理念与市场上其他推理模型不同。

Anthropic相信,就像人类使用一个大脑来处理快速反应和深度思考一样,推理应该是前沿模型的整体能力,而不是一个完全独立的模型。这种统一的方法为用户提供了更流畅的体验。

Claude 3.7 Sonnet在几个方面体现了这一理念。

首先,Claude 3.7 Sonnet既是普通的语言模型(LLM),也是一个推理模型:可以选择在什么时候希望模型正常回答,什么时候希望它在回答之前思考更长的时间。

在标准模式下,Claude 3.7 Sonnet是Claude 3.5 Sonnet的升级版本。

在扩展思考模式下,它在回答之前进行自我反思,这提高了在数学、物理、指令遵循、编码和其他许多任务上的性能。

通常,两种模式对模型的提示效果相似。

其次,通过API使用Claude 3.7 Sonnet时,用户还可以控制思考的预算——

你可以告诉Claude在回答时最多思考N个tokens,N的最大值为128K tokens的输出限制。这使得用户可以在速度(和成本)与回答质量之间进行权衡。

第三,在开发推理模型时,Anthropic在数学和计算机科学竞赛问题上的优化程度稍微降低,而是将重点转向了更能反映企业实际使用LLM的现实世界任务。

Claude 3.7 Sonnet在SWE-bench Verified上刷线SOTA,该评测旨在评估AI模型解决现实世界软件问题的能力

Claude 3.7 Sonnet在TAU-bench上刷新SOT,TAU-bench是一个测试AI智能体在复杂现实世界任务中与用户和工具交互能力的框架

如前所述,Claude 3.7 Sonnet几乎在各大基准测试中,性能得到了显著提升。

相较于最新Grok 3 Beta模型,Claude 3.7 Sonnet(64k extended thinking)在推理方面几乎打成平手。而在数学、视觉推理方面,又略逊色于Grok 3 Beta。

与o3-mini、DeepSeek R1相比,除了数学,带有扩展思考模式的Claude 3.7 Sonnet拿下最高分。

Claude 3.7 Sonnet在任务指令跟随、通用推理、多模态能力和自主编程方面表现出色,扩展思考模式在数学和科学领域带来了显著提升。除了传统基准测试外,它甚至在宝可梦游戏测试中超越了所有先前模型

AI编码智能体,一次完成45分钟任务

自2024年6月以来,Sonnet系列一直是全球开发者的首选模型。

今天,Anthropic的首个智能体编码工具Claude Code诞生,目前以限量研究预览的形式发布。

Claude Code主动与人协作,能够搜索和阅读代码、编辑文件、编写和运行测试、提交并将代码推送至GitHub,以及使用命令行工具——同时确保用户在每一步都能参与其中。

此外,本次更新还改进了Claude.ai上的编码体验。

现在,所有Claude套餐都支持GitHub集成——开发者能够将代码仓库直接连接到Claude。

作为Anthropic迄今为止最强大的编码模型,Claude 3.7 Sonnet能更深入地理解个人项目、工作项目和开源项目,并一举成为修复bug、开发新功能以及编写GitHub文档的强大助手。

目前,Claude Code还处于早期阶段,但已经成为Anthropic团队不可或缺的工具,尤其是在测试驱动开发、调试复杂问题和大规模重构方面。

在早期测试中,它能够一次性完成了通常需要手动工作45分钟以上的任务,显著减少了开发时间和工作量。

在接下来的几周里,Anthropic计划根据使用情况不断改进它:提升工具调用的可靠性、增加对长时间运行命令的支持、改进应用内渲染效果,并扩展Claude对自身能力的理解。

全新的测试时Scaling

Claude作为AI智能体

Claude 3.7 Sonnet具备了一项被称为「行为扩展」(action scaling)的新特性——这种改进使其能够迭代调用函数、响应环境变化,并持续操作直到完成开放式任务。

例如在计算机使用方面:Claude能够通过发出虚拟鼠标点击和键盘按键来代替用户完成任务。与前代相比Claude 3.7 Sonnet能够在计算机使用任务中投入更多的交互次数,同时配备更充足的时间和计算资源,因此往往能取得更好的结果。

这一进步在OSWorld评估中得到了充分体现,这是一个用于评估多模态AI智能体能力的测试平台。

Claude 3.7 Sonnet在初始阶段就展现出了较好的表现,而随着其持续与虚拟计算机交互,其性能优势还会随时间推移而不断扩大。

Claude的扩展思考模式与AI智能体训练相结合,不仅帮助它在OSWorld等众多标准评估中取得了更好的表现,还让它在一些其他意想不到的任务中实现了重大突破。

以玩游戏为例——特别是在Game Boy掌机经典游戏「口袋妖怪:红」中的表现。他们为Claude配备了基础记忆能力、屏幕像素输入功能,以及按键操作和屏幕导航的函数调用能力,使其能够突破常规上下文限制,持续进行游戏,实现长达数万次的持续交互。

在下图中,他们对比了具备扩展思考能力的Claude 3.7 Sonnet与之前版本的Claude Sonnet在口袋妖怪游戏中的进度。

如图所示,早期版本在游戏伊始就难以推进,Claude 3.0 Sonnet甚至无法走出故事起点真新镇的初始小屋。

而Claude 3.7 Sonnet凭借改进后的AI智能体能力取得了显著进展,成功挑战并击败了三位道馆馆主,获得了相应的徽章。

Claude 3.7 Sonnet在尝试多种策略和重新审视既有假设方面表现出色,这使它能够在游戏过程中不断提升自身能力。

串行与并行测试时计算Scaling

当Claude 3.7 Sonnet运用其扩展思考能力时,可以说它利用了「串行测试时计算」机制。

具体而言,它会在生成最终输出之前,执行多个连续的推理步骤,并在此过程中持续增加计算资源投入。

总体来看,这种机制能够以可预测的方式提升其性能表现:例如,在数学问题求解方面,其准确率会随着允许采样的「思考Token」数量的增加呈对数增长。

Claude的研究人员还在探索使用并行测试时计算来提升模型性能。

具体方法是通过采样多个独立的思维过程,并在不预先知道正确答案的情况下选择最佳结果。这可以通过多数表决或共识投票机制来实现,即选择出现频率最高的答案作为「最佳」答案。

另外也可以使用另一个LLM来验证其工作成果,或采用经过训练的评分函数来选择最优答案。

这些优化策略(及相关研究工作)已在多个AI模型的评估报告中得到验证。

在GPQA评估中,他们通过并行测试时计算Scaling取得了突破性进展。

具体而言,通过调用等同于256个独立样本的计算资源,结合训练优化的评分模型,并设置最大64,000个Token的推理限额,Claude 3.7 Sonnet在GPQA测试中达到了84.8%的总体得分(其中物理学部分高达96.5%)。

值得注意的是,即使超出常规多数表决的限制范围,模型性能仍在持续提升。

下图列出了评分模型方法和多数表决方法的详细结果。

这些方法能够提升Claude回答的质量,而且通常无需等待其完成推理过程。同时进行多个不同的深度思维运算,Claude能够探索更多问题解决思路,显著提升正确答案的输出频率。

三步路线图,Claude合作者已来

Claude 3.7 Sonnet和Claude Code标志着,向真正增强人类能力的人工智能系统迈出的重要一步。

凭借其深入推理、自主工作和有效协作的能力,它们让我们更接近一个未来,在那里人工智能丰富了人类所能实现的事情。

如今,Claude合作者已来。

最新版,可以免费用了

值得一提的是,Claude 3.7 Sonnet目前已经在Claude.ai平台上线,Web、iOS和Android用户皆可免费体验。

对于希望构建自定义AI解决方案的开发者,可以通过Anthropic API、Amazon Bedrock以及Google Cloud的Vertex AI进行访问。

在标准模式和扩展思考模式下,Claude 3.7 Sonnet的价格与其前代产品相同:3美元/百万输入token,15 美元/百万输出token ——这其中包括了思考token的费用。

Anthropic套餐定价

AI大佬测试

宾夕法尼亚大学沃顿商学院的教授Ethan Mollick已经在过去几天对Claude 3.7进行了测试,

Claude 3.7经常给他带来与第一次使用ChatGPT-4时相同的感觉:既惊叹不已,又对它们的能力感到一丝不安。以 Claude的原生编码能力为例,我们现在可以通过自然对话或文档获得可运行的程序,而无需任何编程技能。

例如,他向Claude提供了一份关于新型AI教育工具的提案,并在对话中要求它「以3D形式展示所提议的系统架构,并使其具有交互性」。结果,它生成了我们论文中核心设计的交互式可视化效果,没有任何错误。

这些图形虽然很简洁,但并不是最令人印象深刻的部分。真正让人惊叹的是,Claude自主决定将其制作成一个逐步演示来解释相关概念,而这并不是我们要求它做的。

这种对需求的预判和对新方法的思考是AI领域中的一项新突破。

再举一个更有趣的例子,Ethan Mollick告诉Claude:「给我做一个交互式的时间机器装置,让我可以穿越回过去,并发生一些有趣的事情。挑选一些不寻常的时间点让我回去...」 以及 「添加更多图像。」

仅仅这两条提示之后,就出现了一个功能齐全的交互式体验,甚至还配有粗糙但迷人的像素图像(这些图像实际上令人惊讶地印象深刻——AI必须使用纯代码「绘制」这些图像,而无法看到它正在创建的内容,就像一个被蒙住眼睛的艺术家。

参考资料:

https://www.anthropic.com/news/claude-3-7-sonnet

https://x.com/alexalbert__/status/1894093648121532546

https://x.com/AnthropicAI/status/1894092430560965029

https://www.oneusefulthing.org/p/a-new-generation-of-ais-claude-37

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苏联的邻居们,几乎都有一个类似外蒙的存在?芬兰、伊朗纷纷点头

苏联的邻居们,几乎都有一个类似外蒙的存在?芬兰、伊朗纷纷点头

历史摆渡
2026-01-24 18:40:03
广州80-78险胜青岛,郭艾伦19分,米奇空砍28分13板

广州80-78险胜青岛,郭艾伦19分,米奇空砍28分13板

懂球帝
2026-01-25 21:30:09
6场23分钟!枪手7000万先生踢世界杯有点悬 若无改观将成3输交易

6场23分钟!枪手7000万先生踢世界杯有点悬 若无改观将成3输交易

雪狼侃体育
2026-01-25 22:44:35
先导智能:2025年净利同比预增424%-529%

先导智能:2025年净利同比预增424%-529%

财联社
2026-01-25 16:21:12
ICE猛于虎,美天气预报不敢说“冰”字!3周射杀2名美国人,零下23℃数万人示威

ICE猛于虎,美天气预报不敢说“冰”字!3周射杀2名美国人,零下23℃数万人示威

红星新闻
2026-01-25 18:23:34
沪京浙领跑全国收入榜:上海人均收入首破9万,11个省份超4万

沪京浙领跑全国收入榜:上海人均收入首破9万,11个省份超4万

时代周报
2026-01-25 19:29:21
明明是个不错的内线得分手,结果湖人在场上却一点球权都不给他?

明明是个不错的内线得分手,结果湖人在场上却一点球权都不给他?

稻谷与小麦
2026-01-25 22:26:04
唯一在世的中共一代领导人,曾任中央政治局常委,如今109岁

唯一在世的中共一代领导人,曾任中央政治局常委,如今109岁

星辰故事屋
2026-01-23 12:14:47
43岁张杰正式宣布退出!原因令人唏嘘,担心的事还是发生了

43岁张杰正式宣布退出!原因令人唏嘘,担心的事还是发生了

往史过眼云烟
2026-01-25 19:29:33
美国联邦执法人员再次开枪打死一居民后,NBA因安全原因推迟森林狼对勇士比赛

美国联邦执法人员再次开枪打死一居民后,NBA因安全原因推迟森林狼对勇士比赛

环球网资讯
2026-01-25 09:02:10
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
颀中科技厂区发生火灾,或影响2026年业绩

颀中科技厂区发生火灾,或影响2026年业绩

红星资本局
2026-01-25 20:35:05
五五分流为什么分不下去了?背后的真相

五五分流为什么分不下去了?背后的真相

枫冷慕诗
2026-01-24 13:09:19
明朝皇帝为什么会如此短寿?原来都是徐达家的基因不行!

明朝皇帝为什么会如此短寿?原来都是徐达家的基因不行!

真的好爱你
2026-01-23 22:21:50
北京机场停不下!7国首脑排队访华,特朗普玩脱,铁杆小弟全反水

北京机场停不下!7国首脑排队访华,特朗普玩脱,铁杆小弟全反水

泠泠说史
2026-01-24 11:09:16
断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

达文西看世界
2026-01-18 20:56:11
李亚鹏曝光捐赠名单,向太发声:我捐了几百万,王菲默默支持了几千万,也是不够的……

李亚鹏曝光捐赠名单,向太发声:我捐了几百万,王菲默默支持了几千万,也是不够的……

都市快报橙柿互动
2026-01-24 19:48:42
2026年是一个大坎,有些地方要尽量少去

2026年是一个大坎,有些地方要尽量少去

郁郁乎文
2026-01-21 13:15:54
公司一把手裁员能多随便?网友:西安一家电缆公司才是裁员天花板

公司一把手裁员能多随便?网友:西安一家电缆公司才是裁员天花板

带你感受人间冷暖
2026-01-25 00:05:08
2026春晚首轮联排落幕,小品阵容洗牌,歌手演员全面年轻化

2026春晚首轮联排落幕,小品阵容洗牌,歌手演员全面年轻化

天天热点见闻
2026-01-25 08:54:42
2026-01-25 23:40:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14411文章数 66530关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

房产
时尚
数码
教育
公开课

房产要闻

正式官宣!三亚又一所名校要来了!

看了鲁豫对章小蕙的采访,最大感触是这一点

数码要闻

卡西欧展示SX-C1复古采样器:复古掌机外观,自带16键打击垫

教育要闻

教师投诉成功,成都锦江教育局发布情况通报

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版