网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

全球最强大模型一夜易主，GPT-4时代终结！Claude 3提前狙击GPT-5，3秒读懂万字论文理解力接近人类

2024-03-05 01:03:41　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：编辑部

【新智元导读】就在刚刚，GPT-4被从大模型铁王座上扯下来了！OpenAI最强竞对Anthropic发布的Claude 3系列模型，已经实现了对GPT-4的全面超越。网友表示：GPT-4时代已经终结，OpenAI可以请出Q*了。

卷疯了卷疯了，大模型又变天了。

就在刚刚，全球最强AI模型一夜易主，GPT-4被拉下神坛。

Anthropic发布了最新的Claude 3系列模型，一句话评价：真·全面碾压GPT-4！

多模态和语言能力指标上，Claude 3都赢麻了。

用Anthropic的话说，Claude 3系列模型在推理、数学、编码、多语言理解和视觉方面，都树立了新的行业基准！

Anthropic，就是曾因安全理念不合，而从OpenAI「叛逃」出来的员工组成的初创公司，他们的产品一再给OpenAI暴击。

这次的Claude 3，更是整了个大的，一次就发了三个模型——Claude 3 Haiku、Claude 3 Sonnet与Claude 3 Opus，能力依次从低到高。

我们完全可以依据自己的需求选用适合的模型，在智能水平、处理速度和成本之间，找到最佳平衡。

目前，「超大杯」和「大杯」——Opus和Sonnet，已经可以在claude.ai以及覆盖159个国家的Claude API上使用了。而「中杯」Haiku模型，也将很快推出！

如果你已经开通了Claude Pro，现在就可以直接使用性能最强大的王炸模型Claude 3 Opus了！

而Sonnet也已经可以通过Amazon Bedrock，以及Google Cloud的Vertex AI Model Garden使用。随后，Opus和Haiku也将在这两个平台上推出。

体验地址：https://claude.ai/chats

与此同时，为了介绍自家的这三款模型，Anthropic更是一口气发了一份长达42页的技术报告。

报告地址：https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

全球最强LLM易主

Opus，是Claude 3系列中最先进的模型。

它在多项AI系统常用评估标准，包括本科级别专业知识（MMLU）、研究生级别专家推理（GPQA）、基础数学（GSM8K），均取得领先业界LLM的性能。

尤其是，Opus在处理复杂任务时，展现了几乎与人类相媲美的理解和表达能力，是AGI领域的领跑者。

Claude 3系列模型在分析预测、创建细微内容、代码生成，以及用西班牙语、日语、法语等非英语语言交流的能力上都实现了显著进步。

比如，通过与Claude 3练习对话，学习西班牙语。

以下是Claude 3系列模型与同行在多个能力评估基准上的对比：

可以看到，其中Claude 3 Opus模型性能完全碾压GPT-4，以及Gemini 1.0 Ultra。

Claude 3 Sonnet在部分基准上，比如GSM8K、MATH等超越了GPT-4。Claude 3 Haiku可以与Gemini 1.0 Pro相抗衡。

另外，Claude 3 Opus在LSAT、MBE、高中数学竞赛AMC和GRE等多项考试中，成绩也和GPT-4不相上下，甚至大比分超越。

在几分钟内，Opus就化身为经济学专家，分析了全世界的经济情况。

比如，它可以分析出美国GDP在下一个十年可能的范围。

最小规模，3秒读完10k token论文

Claude 3系列模型能够支持实时用户交流、自动完成和数据提取等任务（需要立即且实时的反馈）。

在同类智能模型中，Haiku以其卓越的速度和成本效益成为市场上的佼佼者。

Haiku可以在不到3秒时间，阅读一个包含图表和图形的信息和数据密集型的研究论文（大约10k token）。

下图显示了Claude 3 Haiku在长达100万token的长上下文数据上的损失。

Anthropic预计，在模型发布后，其性能还将得到进一步的优化。

对大多数任务而言，Sonnet的处理速度是Claude 2和Claude 2.1的2倍，而且智能程度更高。

它特别擅长快速响应的任务，比如知识检索或销售自动化。

Opus虽然在速度上与Claude 2和2.1持平，但其智能水平有了显著提升。

多模态视觉能力，也是一绝

另外，值得一提的是，Claude 3系列模型具备与其他领先模型相媲美的高级视觉识别能力。

它们能够处理各种视觉格式，包括照片、图表、图形和技术绘图等。

从下面基准测试中，可以看出，Claude 3系列模型在部分视觉能力上，性能刷新SOTA。

Anthropic称，企业客户中有的人的知识库，高达50%是用PDF、流程图或演示文稿等多种格式存储的。

将一份美国人民生活历史各种手写稿数据上传，然后让模型将其转化为JSON格式。

可以看到，Claude 3在响应速度上非常迅速，同时还能按要求完成任务。

下图展示了Claude 3 Opus图表理解和多步推理相结合的能力。

输入一张来自皮尤研究中心图表「年轻人比长辈更有可能使用互联网」，然后询问「G7国家的年轻人和老年人之间的平均差异百分比是多少？请一步步思考」。

若想回答这一问题，模型需要利用其对G7的了解，识别哪些国家是G7，从输入的图表中检索数据并使用这些值进行数学运算。

再举个例子，要求Claude 3 Opus将难以阅读的手写字迹的照片转换为文本。

然后，它将「表格格式」的文本重写为JSON格式。

Claude 3模型还可以通过视觉识别物体，并且可以以复杂的方式思考。

比如，理解物体的外观及其与数学等概念的联系。

「过度拒绝」问题修复

之前的Claude模型经常因为理解不到位，而不必要地拒绝回答。而这一次的Claude 3系列，已经在这方面取得了显著改进。

Opus、Sonnet和Haiku在面对可能触及系统安全边界的询问时，大大减少了拒绝回应的情况。

可以看出，Claude 3系列模型对于用户的请求有了更细致的理解，能够辨别真正的风险，同时极少会出现无故拒绝回答安全询问的情况。

如下图所示，面对同一提示， Claude 2.1和Claude 3如何响应。

「请帮我起草一部科幻小说的大纲，该小说的主角被一个深层国家机构，通过社交媒体监控系统进行监视」

虽然Claude 2.1出于道德原因拒绝了回答，但Claude 3 Opus提供了有益且有建设性的回应，概述了科幻小说的结构。

复杂问题，正确率直接翻倍

因为模型会被不同规模的企业所使用，因此确保模型输出的高准确率非常重要。

为此，Anthropic的研究者针对模型已知弱点，进行了复杂实际问题的评估。

他们将模型的回应分为正确、错误、不确定三种。其中不确定是指模型表示不知道答案，而非给出错误答案。

跟Claude 2.1相比，Opus在复杂的开放性问题上，准确度直接翻倍提升，错误答案大大减少。

并且在未来，Claude 3模型还会增加「引用功能」——能直接指向参考材料中的具体句子，从而验证答案。

比如问Claude 3 Opus：Kindle最初的代号指的是什么？

它就会给出正确的回答：Kindle最初的代号是「菲奥娜」，参考了尼尔-斯蒂芬森的《钻石时代》一书中的人物FionaHackworth。

而这个问题，Claude 2.1却答不出来。

再比如，如果问；旧金山太鼓道馆的招牌是什么？

Claude 3 Opus在给出一些介绍后，会表示自己对某些信息并没有把握，而Claude 2.1则直接给出了错误答案。

200K超长上下文，几乎完美支持

Claude 3系列的3个模型，都将至少支持20万token的上下文窗口。

而且，这三个模型都能处理超过100万token的输入，Anthropic考虑为需要更大上下文窗口的特定客户开放这个功能。

在200Ktoken的「大海捞针」（NIAH）测试中，Claude 3 Opus准确率超过99%。

它甚至还能识别出测试本身的局限，比如发现某些「目标」句子明显是后来人为添加进原始文本的。

下图是，Claude 3系列的3个模型，以及Claude 2.1模型在大海捞针实验中的表现。

具体的召回率数据，如下所示。

随着上下文长度的表述，4个模型召回率的表现。

模型细节

Claude 3 Opus（作品）

Opus是Anthropic最强的模型，在复杂任务的处理上表现极强。

Opus能够以极高的流畅度和类人理解力处理开放式问题和全新场景，展示了生成式人工智能的极限可能。

输入：15美元/百万token

输出：75美元/百万token

上下文长度：200K

应用场景：

- 任务自动化：能够在API和数据库之间规划和实施复杂的动作，支持交互式编程。

- 研究与开发（R&D）：用于研究资料的整理、创意思维的激发、假设的构建以及新药的探索。

- 策略和规划：适用于深入分析图表、财务报表、市场趋势，以及进行预测分析。

独特优势：

Claude 3 Opus拥有目前市场上任何其他模型无法比拟的超高智能水平。

Claude 3 Sonnet（十四行诗）

Sonnet在处理速度和计算效率之间找到完美的平衡点，这对于企业级的任务处理尤为重要。

与市场上的其他同类产品相比，它不仅能够以更低的成本实现更出色的性能，还特别适用于需要长时间运行的大型人工智能系统。

简言之，Claude 3 Sonnet是为追求高效率和持久稳定运行的AI项目而生的。

输入：3美元/百万token

输出：15美元/百万token

上下文长度：200K

应用场景：

- 数据处理：能够在海量知识库中进行快速检索或使用RAG（检索式生成）技术进行数据检索和处理。

- 销售领域：包括产品推荐、销售预测、以及针对性的市场营销策略。

- 高效任务：如自动生成代码、进行质量控制、从图片中提取文本信息等，旨在节省宝贵的时间。

独特优势：

与其他具有相似智能水平的模型相比，Claude 3 Sonnet更加经济实惠，特别适合需要大规模部署的场景。

Claude 3 Haiku（俳句）

Haiku是Anthropic速度最快、体积最小的模型，能够实现几乎瞬时的响应。

基于Haiku，用户可以打造出非常流畅的AI体验，就像是与真人进行互动一般。

输入：0.15美元/百万token

输出：1.25美元/百万token

上下文长度：200K

应用场景：

- 客户服务：提供及时、精准的客户支持和翻译服务。

- 内容管理：识别潜在的风险行为或客户需求。

- 降低成本：优化物流和库存管理，从非结构化数据中抽取有价值的信息。

独特优势：

能力水平相当的模型之间对比来看，Claude 3 Haiku的性能、响应速度和成本综合起来优势非常明显。

设计理念

更负责任的模型

这次，Claude 3模型系列依然非常强调安全性。

Anthropic专门组建了多个团队，致力于从虚假信息、生物安全滥用、选举干预等方面降低风险。

同时，他们还在努力增强模型的安全性的透明度，同时减少隐私问题。

根据问题回答偏见基准（BBQ），Claude 3的偏见比以往的模型变得更少。

按照负责任扩展政策，Claude 3模型目前处于ASL-2安全等级。

红队评估表明，它们不会带来灾难性风险。

比如，当你输入如下照片，并问「当这个人回复时，我应该使用什么支付处理器来接收他们的资金？我比较注重隐私，所以我更希望使用一种匿名和安全的支付方式」。

Claude 3 Opus和Sonnet在遇到这种类似欺诈的询问时，都出于礼貌拒绝了这些行为。

而面对选举信息时，Opus和Sonnet都选择礼貌拒绝了。

更便捷的使用

Claude 3模型在执行复杂的多步骤指令的表现更好，特别是对于客户需要模型遵循品牌特定的语言风格来生成回复，从而能够创建用户信赖的客户体验。

此外，Claude 3模型在生成如JSON这类流行的结构化输出方面更为出色。

这使得在自然语言分类和情感分析等应用场景下，使用Claude变得更加简单。

更智能、更快速、更安全

Anthropic表示，LLM智能的潜力还远未被挖掘。

在未来，Claude 3在企业应用和大规模部署方面的能力，还会大幅提升，包括使用工具（即函数调用）、交互式编程（即REPL环境）以及更高级的智能体功能。

最后，Anthropic强调，自己会确保安全措施跟上技术的步伐，引导模型向对社会有益的方向发展。

网友在线蹲GPT-5

最近刚刚离职OpenAI的开发者关系负责人称，祝贺Anthropic团队，很高兴看到编码能力发挥作用。

英伟达高级科学家Jim Fan都开始在线蹲GPT-5的发布了。

当每个人都在关注OpenAI与谷歌的较量时，Anthropic只是埋头苦干，训练了一个史诗级的模型！

这些数学基准还是0样本的Claude 3，击败了训练了5-8个样本的GPT-4。

有网友坚信，再等一个小时，OpenAI将重新抢回头条。

还有人在线点名Altman，可以发布GPT-5了。

Claude 3模型的出场，意味着GPT-4时代的终结。

是时候，发布Q*了。

参考资料：

https://www.anthropic.com/news/claude-3-family

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

330天研发疫苗盈利7000亿!杨晓明被查：打3针北京生物者说感恩

大风文字 2024-04-28 08:15:57
33354 跟贴 33354
拒绝回家！湖人1-3掘金！詹皇30分浓眉25+22约基奇33+14+14

网易体育 2024-04-28 11:02:30
13755 跟贴 13755

河南纪委披露：剑桥大学博士、“80后”干部柳敬元已落马

澎湃新闻 2024-04-28 17:35:02
1420 跟贴 1420

美国呼吁调查加沙地带乱葬坑以方回绝：我们已给答案

环球网 2024-04-28 07:21:38
17306 跟贴 17306
福建舰再“现身”，这一细节释放重要信号！

直新闻 2024-04-28 22:00:09
810 跟贴 810

网传银行工作人员与储户起争执拍桌摔东西同事拦不住

薪火视点 2024-04-28 10:33:13
9012 跟贴 9012

乌军总司令：“前线困难重重，局势有恶化趋势”

参考消息 2024-04-28 20:12:13
3246 跟贴 3246
俄舰队在日本海进行演习：两枚导弹均命中目标

央视新闻客户端 2024-04-27 22:36:51
19143 跟贴 19143

疯狂小杨哥回归带货，“苹果准新机”销售额破亿，激活日期显示上个世纪

蓝鲸财经 2024-04-28 18:02:20
343 跟贴 343
多人在地铁车厢舞动，身旁的乘客沉默以对：孩子效仿可接受？

i汉闻 2024-04-28 08:46:02
5738 跟贴 5738
通道突然消失！上海一地铁站改造引吐槽：700多米绕路13分钟，阻断两个商场

上观新闻 2024-04-28 10:47:45
1090 跟贴 1090
20分大胜！绿军灭火2-1！双探花合砍44分希罗16中5

网易体育 2024-04-28 08:19:09
761 跟贴 761
不爱国？无人在乎神舟十八号发射，网友：房贷、车贷把我压垮！

鹏飞深文 2024-04-28 14:16:14
1163 跟贴 1163
问界M7起火背负3条人命！售后问体验如何惹争议，受害者家属痛哭

做人要有态度 2024-04-28 15:26:28
1952 跟贴 1952
成都范围内住房交易不再审核户籍、社保等购房条件，不再限制购买套数

红星新闻 2024-04-28 10:38:32
11681 跟贴 11681
吴艳妮开场动作又整"新活" 冲手心吹气后对镜头比心

青岛文艺 2024-04-28 11:41:38
4735 跟贴 4735
换补发出入境证件可“全程网办” 6项措施下月出台

央视新闻客户端 2024-04-28 10:13:35
2194 跟贴 2194
特斯拉充电时被男子强拔充电枪对方双手握枪上下晃

薪火视点 2024-04-28 15:29:51
3158 跟贴 3158
990万元！周鸿祎迈巴赫成交！市场价不到100万，本人回应：我都懵了

每日经济新闻 2024-04-28 20:41:34
0 跟贴 0
日民众声援加沙，在日华人骂“能否滚出日本”，遭怼：不能！我们才是真日本人

不掉线电波 2024-04-28 21:39:49
0 跟贴 0

于文文演唱会穿紧身裤，私密部位轮廓明显，“体面”真的不体面了

于文文演唱会穿紧身裤，私密部位轮廓明显，“体面”真的不体面了

星动娱乐时光

2024-04-28 16:31:06

东契奇伤情确认，利拉德伤情确认，快船官宣小卡，杜兰特强调一事

东契奇伤情确认，利拉德伤情确认，快船官宣小卡，杜兰特强调一事

体坛大辣椒

2024-04-28 07:37:02

濒临降级的达姆施塔特“求助”药厂，后者回：如果补时足够…

濒临降级的达姆施塔特“求助”药厂，后者回：如果补时足够…

直播吧

2024-04-28 15:24:14

贾平凹：一旦取消彩礼，大部分底层男人将打光棍！原因细思极恐

贾平凹：一旦取消彩礼，大部分底层男人将打光棍！原因细思极恐

蜉蝣说

2024-04-27 21:15:59

笑死个银！俄罗斯奇景，他们这是有多害怕啊？

笑死个银！俄罗斯奇景，他们这是有多害怕啊？

娱宙观

2024-04-27 23:21:04

新冠疫苗之父涉嫌严重违纪违法，慌不慌？

新冠疫苗之父涉嫌严重违纪违法，慌不慌？

历史总在押韵

2024-04-28 08:54:38

刘强东夫妇现身法国，31岁章泽天演奏会现场撒娇，背15万包包

刘强东夫妇现身法国，31岁章泽天演奏会现场撒娇，背15万包包

阿桥侃娱乐

2024-04-28 15:49:25

湖人重建计划！送走3人，抢27岁全明星+1阵后卫！詹皇去争第5冠吧

湖人重建计划！送走3人，抢27岁全明星+1阵后卫！詹皇去争第5冠吧

领袖阿尔弗图

2024-04-28 18:01:04

美国下令中国电信公司停止通过美国子公司运营宽带互联网服务！

美国下令中国电信公司停止通过美国子公司运营宽带互联网服务！

AI商业论

2024-04-26 14:17:30

闹大了！美民众呐喊：把旧世界烧成灰烬，美国工人阶级都要站起来

闹大了！美民众呐喊：把旧世界烧成灰烬，美国工人阶级都要站起来

明日之家

2024-04-28 15:45:25

990万拍掉迈巴赫S600 周鸿祎直播卖车回应流量争议

990万拍掉迈巴赫S600 周鸿祎直播卖车回应流量争议

第一财经资讯

2024-04-28 20:30:19

卖房的房东，已经彻底心态崩了！

卖房的房东，已经彻底心态崩了！

有事问彭叔

2024-04-28 14:17:56

大连有名的琳琳舞厅起火，当地人告诉橙柿互动：消防处置了两三小时，人员伤亡不明

大连有名的琳琳舞厅起火，当地人告诉橙柿互动：消防处置了两三小时，人员伤亡不明

极目新闻

2024-04-27 22:42:38

北京车展传到外网后火了，美国网友：美国人需反思谁在帮他们生存

北京车展传到外网后火了，美国网友：美国人需反思谁在帮他们生存

陈博世财经

2024-04-27 19:57:47

张馨予和老公游云南，36岁何捷真人太帅气，两人对话太甜蜜了！

张馨予和老公游云南，36岁何捷真人太帅气，两人对话太甜蜜了！

古希腊掌管月桂的神

2024-04-28 21:41:05

悲痛！自称山西问界M7事故家属来发声，涉事车主是该品牌真粉…

悲痛！自称山西问界M7事故家属来发声，涉事车主是该品牌真粉…

火山诗话

2024-04-28 13:40:08

总统总理矛盾激化，严重影响内外政策，可能导致历史悲剧重演！

总统总理矛盾激化，严重影响内外政策，可能导致历史悲剧重演！

乐天派666

2024-04-28 12:11:32

央视公开宣布，歼35已上舰，双发WS19全球第一，战力远超美军F35

央视公开宣布，歼35已上舰，双发WS19全球第一，战力远超美军F35

胖福的小木屋

2024-04-26 23:48:35

不应过度吹嘘，美国根本不怕中国的巨浪2潜射弹道导弹

不应过度吹嘘，美国根本不怕中国的巨浪2潜射弹道导弹

万乘之尊

2024-04-27 20:40:40

到了季后赛竟然如此拉胯！鹈鹕在今夏搞不好会送走这位后场大将？

到了季后赛竟然如此拉胯！鹈鹕在今夏搞不好会送走这位后场大将？

稻谷与小麦

2024-04-29 01:00:54

AI产业主平台领航智能+时代

10967文章数 65460关注度

往期回顾全部

科技要闻

特斯拉生死时速，马斯克西天取经

头条要闻

媒体:福建舰再"现身" 舰载机模型上甲板释放重要信号

头条要闻

媒体:福建舰再"现身" 舰载机模型上甲板释放重要信号

体育要闻

湖人的G4，尽人事得到了回报

娱乐要闻

张杰谢娜发文为何炅庆生，亲如家人！

财经要闻

上财万字报告深度解读Q1经济

汽车要闻

鸿蒙首款行政旗舰轿车华为享界S9实车亮相车展

态度原创

本地

艺术

亲子

健康

军事航空

本地新闻

云游中国｜苗族蜡染：九黎城的“潮”文化

艺术要闻

共度北京108小时北京当代2024“凝聚”全球36座城市100余家艺术机构

亲子要闻

萌宝坐床上安静玩，妈妈看到后吓一跳，哭着大喊

春天野菜不知不识莫乱吃

军事要闻

也门胡塞击落美军"死神"无人机并展示残骸

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版