碾压GPT-4吹牛了！一手评测Claude 3最强版本Opus：多模态能力略差，做数学题实强|gpt-4|opus|小编

分享至

　　作者｜杨文

　　来源｜AI先锋官

　　先锋官有话说：

　　产品名称：Claude 3 Opus

　　总体评价：★★★★☆

　　易用性：★★★★☆

　　功能性：★★★★☆

　　创新性：★★★★☆

　　推荐功能：文字处理、数学推理

　　最近AI圈卷疯了，小编手里的选题，写不完，根本写不完。

　　昨晚，由几位OpenAI 前员工创立的 AI 公司 Anthropic 推出了新的Claude 3系列模型，并称其是目前市面上速度最快、性能最卓越的人工智能模型。

　　网友们纷纷点评“全球最强大模型一夜易主，GPT-4时代终结！”

　　产品介绍

　　Anthropic发布了新一代大语言模型Claude 3系列，包括Claude 3 Opus（著作）、Sonnet（十四行诗）和Haiku（俳句）三种规模，分别代表了超大杯、大杯和中杯。

　　Anthropic声称,最强大的Claude 3 Opus模型在行业基准测试中超越了OpenAI的GPT-4和谷歌的Gemini Ultra，尤其在本科水平的知识、研究生水平的推理以及基础数学方面更是展现出了卓越的能力。

　　此外，Claude 3还具备视觉识别能力，能够处理包括照片、图表和技术图纸等多种视觉资料。

　　Claude 3的主要功能

　　1.增强的多语言能力：Claude 3模型在处理非英语语言方面有所提升，能够更好地理解和生成西班牙语、日语和法语等语言的内容。

　　2.长文本处理能力：Claude 3模型家族提供了200K的上下文窗口，并且能够处理超过100万token的输入，有助于更好地理解和记忆长文本信息。

　　3.视觉处理能力：Claude 3模型具备处理各种视觉格式的能力，包括照片、图表、图形和技术图示等文件。

　　4.实时响应能力：模型能够支持实时的客户聊天、自动完成和数据提取任务，提供近乎即时的结果。

　　5.减少拒绝回复：与之前的模型相比，Claude 3在理解请求方面更加细腻，减少了在系统边界附近不必要的拒绝。

　　6.提高准确性：Claude 3模型在处理复杂、事实性问题时的准确性有所提高，减少了错误答案的产生。

　　7.结构化输出：Claude 3模型在生成JSON等流行结构化输出方面有所改进，简化了自然语言分类和情感分析等用例的指令。

　　8.更易于使用：Claude 3模型更擅长遵循复杂的多步骤指令，并且能够更好地遵循品牌声音和响应指南。

　　每个模型的具体特点

　　Claude 3 Opus：最智能的模型，适用于高度复杂的任务，如任务自动化、研发和策略分析。

　　Claude 3 Sonnet：在智能和速度之间提供平衡，适合企业工作负载，如数据处理和客户互动。

　　Claude 3 Haiku：最快的模型，适用于需要即时响应的场景，如内容审核和节省时间的任务。

　　相较于Opus，Sonnet和Haiku两款模型在参数规模和使用成本上更为亲民。

　　链接直达

　　目前，用户可免费使用Claude 3 Sonnet模型。而最强的Opus版本，则需要付费订阅，价格为20美元/月。Haiku 模型即将推出。

　　Claude 3 Sonnet模型：

　　https://claude.ai/chats

　　-5-

　　一手评测：

　　多模态能力略差，文字处理、数学推理实强

　　既然网友们声称Claude 3超越了GPT-4，咱们就让Claude 3最强版本Opus和GPT-4好好较量一番。

　　（温馨提示：以下测评均使用英文，然后翻译为中文。）

　　先看这俩大模型的界面。说实话，小编很喜欢Claude 3的界面。

　　与GPT-4比起来，Claude 3的界面简洁中透着美感。最上方是LOGO，下面依次是欢迎语、问题输入框以及Claud3 最新能力的图文介绍，最下面是历史记录。

　　无论是功能设置还是配色，都简洁大方，一应俱全。

　　废话不多说，咱们来上干货。

　　一、多模态能力：GPT-4仍遥遥领先

　　此次Claude 3最受关注的就是具备处理各种视觉格式的能力，包括照片、图表、图形和技术图示等文件。

　　Round1:理解和处理图片能力

　　小编上传了一张小时候看过的动画片大力水手的照片，问：这是哪个卡通人物？

　　Claude 3Opus的回答：

　　GPT-4的回答：

　　这俩大模型都回答正确，不过Opus回答得更细致，还把画面描述了一遍。

　　这一局，Opus略胜一筹。

　　小编又上传了一张较为潦草的英文手写字迹，问：这上面写了什么？

　　Claude 3Opus的回答：

　　GPT-4的回答：

　　虽然二者都能识别图片中的文字，但很遗憾，它们都没准确识别图中涂改过的单词“render”。

　　这一局，二者半斤八两。

　　Round2:画图能力

　　小编让这俩大模型分别画一只戴着耳机的小猫。

　　Claude 3Opus的回答：

　　GPT-4的回答：

　　一提到画图，Opus上来就道歉，无法绘制、生成、编辑、操作或创建图像。目前，它只具备感知和分析图片的能力。

　　而GPT-4虽然生成的图片比较丑，但起码它有这能力。

　　很明显，这局GPT-4赢了。

　　Round 3:语音“朗读”功能

　　眼瞅着Claude 3的“挑衅”，OpenAI终于坐不住了，在社交平台上发布了ChatGPT具有语音朗读的功能。

　　“ChatGPT现在可以读取响应。在iOS或Android上，点击并按住消息，然后点击“朗读”。我们也开始在网络上滚动——点击消息下方的“朗读”按钮。”

　　小编看热闹不嫌事大，直接把这张图喂给了Opus，问：这是什么功能？你有这种功能吗？

　　Claude 3Opus回答：

　　Opus是真实诚，坦言自己的技能集中于分析图像和进行基于文本的对话，不具备这种文本转语音的功能。

　　这一局，GPT-4赢了。

　　Round 4:视频处理能力

　　小编想上传一段Sora生成的猛犸象视频，并问：视频中有几只猛犸象？

　　Claude 3Opus的回答：

　　GPT-4的回答：

　　Opus直接无法上传视频文件，更别提回答问题了。

　　GPT-4不仅能上传视频文件，也能分析出视频的时长。只不过，它无法统计视频中的猛犸象数量。

　　这一局，仍是GPT-4胜。

　　二、数学推理能力：Opus更胜一筹

　　小编从北京市2023年中考数学真题中选了几道，分别来测试这俩大模型。

　　Round1：若关于x的一元二次方程x2-3x+m=0有两个相等的实数根，则实数m的值是多少？正确答案应该选C，9/4

　　Claude 3Opus的回答：

　　GPT-4的回答：

　　Opus回答正确，GPT-4则选了B，算出-9/4，回答错误。

　　这一局，Opus赢。

　　Round2：已知x+2y-1=0，求代数式（2x+4y）/（x2+4xy+4y2）的值。正确答案是2。

　　Claude 3Opus的回答：

　　GPT-4的回答：

　　Opus回答正确。

　　而GPT-4一顿操作猛如虎，写了一堆看不懂的解题过程，最后答案算出个x。

　　这一局，Opus赢。

　　Round3：某珠宝店失窃，甲、乙、丙、丁四人涉嫌被拘审。四人的口供如下：

　　甲：案犯是丙。

　　乙：丁是案犯。

　　丙：如果我作案，那么丁是主犯。

　　丁：作案的不是我。

　　四个口供中只有一个是假的。

　　如果以上断定为真，则以下哪项是真的?（）

　　A.说假话的是甲，作案的是乙

　　B.说假话的是丁，作案的是丙和丁

　　C.说假话的是乙，作案的是丙

　　D.说假话的是丙，作案的是丙

　　正确答案：B

　　Claude 3Opus的回答：

　　GPT-4的回答：

　　这道题目俩大模型都给出了正确答案，但Opus的回答更简单直接，而GPT-4分析了一通，把小编绕的云里雾里。

　　三、文字处理能力:Opus赢麻了

　　Round1:Why in the romance of The Three kingdoms Zhuge Liang could not break Kong Ming's empty city scheme?（为什么《三国演义》中的诸葛亮破不了孔明的空城计？）

　　Claude 3Opus的回答：

　　GPT-4的回答：

　　这俩大模型都指出了这道题目的问题所在——诸葛亮和孔明是同一个人。

　　但是，在细节上，Opus回答更准确，GPT-4则有一些错误。例如，GPT-4认为罗贯中和诸葛亮是同一个人；诸葛亮在城楼上弹古琴，而非琵琶。

　　这一局，Opus略胜一筹。

　　Round2:In the Romance of The Three Kingdoms, why did Lu Bu flirt with Lin Daiyu?Who was Lu Bu flirting with?（三国演义中，吕布为何调戏林黛玉？吕布调戏的是谁？）

　　Claude 3Opus的回答：

　　GPT-4的回答：

　　这俩大模型都非常默契的认为，吕布不可能调戏林黛玉，因为这是两个不同文学作品中的人物。

　　不过，对于“吕布到底调戏的是谁？”这一问题，Opus竟编出来一个燕夫人，难道Opus和小编读的不是同一本《三国演义》？

　　GPT-4似乎更了解中国文化，对吕布和貂蝉的戏码如数家珍。

　　这一局，GPT-4胜。

　　Round3:小编上传了一份12万字的PDF文档，问：How many topics does this document cover? What are they?（这份文档介绍了几个话题？分别是什么？）

　　Claude 3Opus的回答：

　　GPT-4的回答：

　　这份12万字的文档，涉及人类永生、人工只能、火箭技术、氢弹、芯片等多方面的科普内容。

　　从回答来看，Opus是把整个文档全部读完了进行的总结，回答出芯片、光刻机、火箭等主题，但而GPT-4似乎只阅读完了第一部分人类永生与衰老。

　　这一局，Opus完胜。

　　-6-

　　总结

　　从多模态能力上来说，Claude 3Opus只会看图，不会画图，也没有视频处理和语音处理的能力，而GPT-4则更胜一筹。

　　从数学推理能力上来说，Claude 3Opus做数学题、推理的本事确实比GPT-4强，不过高中数学题还是容易掉链子。

　　从文字处理能力上来说，Claude 3Opus绝对更胜一筹。

　　Claude 3每次能够处理大约15万个单词的内容，这相当于处理一本长篇巨著，如《白鲸记》（Moby Dick）或《哈利波特与死亡圣器》（Harry Potter and the Deathly Hallows）的内容。

　　相比之下，ChatGPT的单次处理能力大约为3000个单词。

　　换句话说，Claude 3单词处理能力是ChatGPT近50倍。

　　在数学推理和文字处理方面，Claude 3Opus确实厉害，但由此淘汰掉GPT-4还为时尚早，起码多模态能力方面就差一些。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

碾压GPT-4吹牛了！一手评测Claude 3最强版本Opus：多模态能力略差，做数学题实强

谷歌剧透安卓重大升级 Gemini深度集成底层

特朗普访华随行名单：夫人缺席 次子夫妇、鲁比奥随行

特朗普访华随行名单：夫人缺席 次子夫妇、鲁比奥随行

14年半，74万，何冰娇没选那条更安稳的路

巩俐用中文宣布戛纳开幕，彰显国际地位

深圳夫妻囤芯片，身家飙涨320亿

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

干细胞能让人“返老还童”吗

老师把语文玩出新花样，创意教学让语文秒变有趣。这样的课堂，谁能不爱听？

MediaTek天玑开发者大会2026开幕，OPPO展台携两款新机亮相

没八卦、纯素人、不惊艳，可她赢麻了

知情人士披露：美国或考虑恢复对伊朗军事行动

特朗普访华随行名单：夫人缺席次子夫妇、鲁比奥随行

特朗普访华随行名单：夫人缺席次子夫妇、鲁比奥随行

吉利银河“TT”申报图曝光电动尾翼+激光雷达